想写个爬虫程序,用什么技术好,谁能帮我呢

2016-02-22 01:22:17 +08:00
 kelos
如题,各种我要用的网站总想爬点东西下来,方便看。

请指教。
7686 次点击
所在节点    问与答
46 条回复
datapipeline
2016-02-22 10:17:19 +08:00
短平快: scrapy 加 mongodb
http://scrapy.org/ 可以先看看文档
wlsnx
2016-02-22 10:23:53 +08:00
scrapy 好用
wusuopuBUPT
2016-02-22 10:24:43 +08:00
scrapy 的一些例子,上个月刚用 scrapy 爬取了某直播站点的数据。
https://github.com/wusuopubupt/scrapy-examples
wusuopuBUPT
2016-02-22 10:25:28 +08:00
从 geekan 的项目 fork 过来的: https://github.com/geekan/scrapy-examples
CharlesL
2016-02-22 10:36:20 +08:00
Java 的话 webmagic 挺好用,简单,支持分布式。
zacard
2016-02-22 10:51:37 +08:00
java 的话, jsoup ,也可以简单高效~
luban
2016-02-22 10:57:06 +08:00
只会 java ,简单的 jsoup 解析下 html 就好,复杂的 webmagic ,基本能满足所有需求,灵活性也非常高
slixurd
2016-02-22 11:01:41 +08:00
我也觉得拿 Java 写更方便,一个 JSoup ,简单爬虫的话什么框架都不用,自己写多线程,任务队列,简单轻松。最主要是对中文编码的处理实在太方便了,找到 HTML 的 charset ,然后反射对应的 Charset 就完事。
Python2 的中文。。。。。
slideclick
2016-02-22 11:16:18 +08:00
没写过,但是建议用 node,js 。第一你要爬虫肯定要能看懂页面里的 js 代码,第二其实你不用写爬虫,你可以用 chrome 扩展用 js 写。既然你需要懂 js 何必学习第二语言比如 python
cxshun
2016-02-22 11:28:58 +08:00
@smalltalk 那倒也是,虽然我是搞 java 的,但我个人感觉 python 写这些会方便很多。只是 python2 和 3 之间的兼容问题确实坑爹。
smalltalk
2016-02-22 11:35:47 +08:00
@cxshun 就你的体会,方便在那里呢?是 api 的问题,还是语言问题,语言问题 kotlin 能补足吗?
thursday
2016-02-22 11:50:32 +08:00
nodejs 优势也很大。 能直接运行页面 js 。 dom 很自然处理。天然异步处理能力强。
jedyu
2016-02-22 11:52:45 +08:00
安利一下 pyspider
vaynewang
2016-02-22 11:54:46 +08:00
javascript
woai110120130
2016-02-22 12:04:10 +08:00
写了个纯c的
cxshun
2016-02-22 12:50:56 +08:00
@smalltalk 更多的应该是 api 的问题, kotlin 这个我倒没去试过哈,有时间去试试。
其实算是有点偏向吧,写这种小工具总是喜欢用 python 来。虽然 java 自己更熟,但 python 写起来感觉会爽一点哈。
sohoer
2016-02-22 13:42:16 +08:00
twlsoft
2016-02-22 14:38:42 +08:00
如果是用 node.js 的话也可以吧?
smalltalk
2016-02-22 14:43:53 +08:00
@cxshun 原来我测试 rest api 的时候,用 python ,后来改 dart 了( unicode 问题对迁移贡献很大)。小工具,一次性的东西,基本都用它。主要是有自动完成功能,编写、运行循环非常快速, api 也挺好。
microchang
2016-02-23 00:00:47 +08:00
@thursday 直接运行页面 js 有点过了吧。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/258101

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX