想写个爬虫程序,用什么技术好,谁能帮我呢

2016-02-22 01:22:17 +08:00
 kelos
如题,各种我要用的网站总想爬点东西下来,方便看。

请指教。
7614 次点击
所在节点    问与答
46 条回复
Andy1999
2016-02-22 01:25:28 +08:00
python3 吧
em70
2016-02-22 01:26:42 +08:00
当然 python 啊,有什么可说的
kelos
2016-02-22 01:31:14 +08:00
@em70 有没有想过为什么大家都不考虑 java 呢
random2case
2016-02-22 01:31:35 +08:00
scala 可以吗?不喜勿喷~~~
ahonn
2016-02-22 01:40:38 +08:00
Python Scrapy
em70
2016-02-22 02:11:46 +08:00
@kelos 大多数个人需求的爬虫需要的是灵活快捷,不需要那么高效健壮的程序,python10 行代码就能搞定的事情 java 要写 100 行,没有优势. 但如果是百度,谷歌那种企业级爬虫,用 java 和 C 会更有优势
ericls
2016-02-22 03:03:23 +08:00
python asyncio
lengjingxu
2016-02-22 06:08:01 +08:00
得看具体要爬多少量的东西以及内容格式还有你会什么计算机语言吧
vitovan
2016-02-22 06:45:23 +08:00
Python 的包很多,坑很少,个人感觉。
刚做了个: https://v2ex.com/t/258108
vietor
2016-02-22 08:05:50 +08:00
@random2case Python 最简单,容易部署。 scala 可以,用 sbt-assembly 打成一个包也便于部署,但加上 JDK 整体太大了,不值得。
cxbig
2016-02-22 08:17:37 +08:00
条件不复杂我一般用 ruby on rails + nokogiri
shulen
2016-02-22 08:19:30 +08:00
这个应该要看你会什么技术
bobbychen
2016-02-22 08:31:11 +08:00
语言都不是问题~~~看你自己熟悉什么吧
jugelizi
2016-02-22 08:56:25 +08:00
人生苦短 我用 Python
wizardoz
2016-02-22 09:31:33 +08:00
scrapy 不解释
cxshun
2016-02-22 09:36:31 +08:00
爬虫肯定 python 啊。

不考虑 java 是因为如果你要解析 html ,要引用 xpath ,自带的 dom 库是不大好用的,要引入 jdom , jdom 又要另外的东西支持,反正弄来弄去一大堆。这种工具类的东西用脚本语言写是最合适的。
fy
2016-02-22 09:40:23 +08:00
就 python 啊, http 库用 requests , HTML 复杂用 xpath ,简单直接用 re 正则模块,加个简单的面向过程的多线程,就上路了。
scrapy ?牛刀杀鸡
smalltalk
2016-02-22 09:52:50 +08:00
@cxshun maven+jsoup=搞定
java 的优势就是对于任何一个新库,只要观其大略,就可以快速上手。学 python 要记 api ,太痛苦了了。
tabris17
2016-02-22 10:12:36 +08:00
Phatomjs ,除了效率差点,功能没话说
IFoon
2016-02-22 10:12:51 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/258101

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX