V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  est  ›  全部回复第 344 页 / 共 614 页
回复总数  12270
1 ... 340  341  342  343  344  345  346  347  348  349 ... 614  
2015-11-04 11:52:12 +08:00
回复了 est 创建的主题 分享发现 iphone6 手机 16GB 改 128GB 版本
@a6377508 这个吊。
2015-11-03 17:13:46 +08:00
回复了 juneszh 创建的主题 Android 支付宝被 google play 下架了?
@mailworks 这个是违反苹果 ToS 的。可以举报。 ios app 只能使用 appstore 自带的升级机制。严禁其他途径。
2015-11-03 16:35:54 +08:00
回复了 solaro 创建的主题 MySQL 为什么辣么多人喜欢用 tinyint 而不用 enum?
unsigned 不算强迫症,可以考虑改过来。

enum 移植性不如 tinyint 。
2015-11-03 16:23:33 +08:00
回复了 youkangda 创建的主题 Python 高薪诚聘 Python
其实看到 3 楼的回复,想吐槽,突然又懒得吐槽了。就直接拉黑了。小伙伴们把我想说的都说了。
75 TB per user or 14,000 times the average 。。微软真是没见过世面。
2015-11-03 14:44:16 +08:00
回复了 youkangda 创建的主题 Python 高薪诚聘 Python
既然是高薪,又是诚聘 ,还发到 /go/python 这个技术讨论区,那么明说工资范围吧。

btw 地点也没有。
2015-11-03 13:33:17 +08:00
回复了 easyhappy 创建的主题 Python COCA20000 爬单词
好像别人是免费提供的 。。。 http://corpus.byu.edu/full-text/database.asp
2015-11-02 22:16:44 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@binux 求分块树相关 case 。

还有就是你们是怎么保存富文本数据的?直接 html 还是?
2015-11-02 21:57:31 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@menc wikipedia 的页面特定模板解析起来很有意思的。比如可以绘制出地球上人口超过 20w 的城市分布图。但是我感觉这个属于另外一个话题了。
@Sivan 国产的。就当 299 的普通电饭煲用。
@harry890829
@wkdhf233

问了下,买的那家,咬着不放。。因为都好评了。

便宜的那家,说是做活动。名额有限。

包装都拆了。。。。
2015-11-02 20:59:24 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@hooopo 我还以为去了隔壁 rubychina 。。。哈哈。用 ES 的确可以做到。赞。
KV 数据库很少有支持 array 的。 redis 是异端。别人号称 data structure server
2015-11-02 16:40:12 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@chairuosen 不是通用不通用的问题,而是爬出不仅要保留文字本身的信息量,还要保留当时标题,段落。排版,展现格式,甚至页面环境等信息量。

虽然我估计 99% 的页面,都是一种字号不分大小写不分段落标题格式通吃,但是总有那么一些出彩的页面,很注重行文的附加信息。
2015-11-02 16:37:43 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@iyaozhen
@chairuosen
@anexplore

我想知道业界有没有一些比较好的 case 。

脑洞一下,比如很多时候读到 nytimes 的文章,一些亮点主题词语是 斜体 的。有木有一个搜索引擎能统计一下:“ NYTimes 斜体名词的分类”。。。。。。。。。。这里面涉及到爬虫,数据处理,清洗,如何索引富文本。。。感觉脑细胞不够用了。希望看到有别人的案例我来抄袭一下 hahahaha
2015-11-02 16:31:24 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@chairuosen 只是一个想法,可能没用。但是我觉得信息量丢了。。。

首先,当然,语义是很重要的一个方面。比如 <code> 里是代码,就知道这一定是个码农发的贴子。。。。

再比如论坛里一些帖子,有些内容,发帖人喜欢 红七醒目 。。比如做主题归纳,感觉因该提高重点文字的权重。而不是纯文本那样所有字符平等对待。

只是一个粗略想法。。。。。我知道有不实际的地方。。。乃们就不要喷我不实际了。。。


我的脑洞就是, NLP 是自然语言处理,那么 HLP 算不算超文本处理。。。。
LZ 怎么发现的,好奇。
2015-11-01 18:14:46 +08:00
回复了 est 创建的主题 游戏 日, insurgency 的电脑真是碉堡了。我出门就挂
量子服打了一天,真是无语了。。我也成了猥琐流打法了。。。这游戏冲冲冲就是送死。。。。。。。。。。
2015-11-01 10:46:36 +08:00
回复了 nightv2 创建的主题 Android 支付宝京东是怎么在禁止联系人权限的情况下访问联系人的?
百度全家桶的做法是本地开端口, json 互传。只要一个 app 有权限全家桶就有权限。上次还爆了 wormhole 漏洞
1 ... 340  341  342  343  344  345  346  347  348  349 ... 614  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2897 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 76ms · UTC 13:24 · PVG 21:24 · LAX 06:24 · JFK 09:24
Developed with CodeLauncher
♥ Do have faith in what you're doing.