最近正在学爬虫，主要用来抓取门户网站的评论，选用 Python 语言。有没有大神给点好的资料，或者一个好的指导方向。

mhycy

2014-10-04 19:17:18 +08:00

手写....
Requests + re + threading + logging
各种爽~

PS.其实是觉得框架太不灵活了

paulw54jrn

2014-10-04 20:22:04 +08:00

不是很复杂就是楼上说的
requests + re + threading/greenlets

或者是楼上上说的
Scrapy..

ShiehShieh

2014-10-04 20:37:56 +08:00

有没有什么好点的材料能学习嘛？ 0.0

binux

2014-10-04 20:42:33 +08:00

no13bus

2014-10-04 21:32:13 +08:00

@binux 感觉torado经常用来监控，celery的监控flower就是用他来做的。

XadillaX

2014-10-04 21:40:50 +08:00

-。 - 为什么没多少人学 node 做爬虫呢？

chemzqm

2014-10-04 22:44:35 +08:00

node异步回调太恶心，占用内存太高，低配机器跑不了几个进程

GeekGao

2014-10-04 23:13:37 +08:00

曾经用twisted自己写过一个，后来才知道有scrapy这个爬虫框架，推荐scrapy

Codist

2014-10-04 23:35:52 +08:00

scrapy简单又方便，selector用起来也很舒服，不用写正则了

kenis

2014-10-05 02:54:57 +08:00

推荐用Scrapy，比较成熟的爬虫框架，资源也不少。

briefcopy

2014-10-05 09:38:11 +08:00

imn1

2014-10-05 10:40:13 +08:00

我抓取的量很大，所以分离过程用wget抓取，py做parse，95%用正则，少量用 lxml+xpath
无论用什么，通读http协议+抓包工具是跑不掉的

helloworld00

2014-10-05 18:24:36 +08:00

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.