1
simapple 2015-03-10 08:29:59 +08:00
简单的做urllib+re就可以,scrapy是一套框架,如果是工程项目,要考虑的深度 广度 并发控制 作业调度 等等
|
2
limbo0 2015-03-10 08:44:46 +08:00
感觉xpath特别方便,是lz没找对方法把
|
3
raptor 2015-03-10 08:51:45 +08:00
如果你的需求用requests+beautifulsoup就可以解决,那就这样做好了,最多加上gevent。
scrapy的强大在于配套功能非常多 |
4
crazycookie 2015-03-10 10:58:46 +08:00
为啥不用xpath?
|
5
professorz 2015-03-10 14:07:29 +08:00
|
6
yetone 2015-03-10 14:42:52 +08:00
pyquery 秒一切
|
7
crazyxin1988 2015-03-10 14:44:41 +08:00
赶脚requests+beautifulsoup 就蛮好的
|
8
fumer 2015-03-10 16:05:13 +08:00
不需要用beautifulsoup
|
9
rhythmer 2015-03-10 18:17:56 +08:00
@limbo0 感觉xpath对于标准的html网页的处理还可以,但对于很奇怪的html网页我还不知道怎么抓取数据。最近打算从花瓣去抓图片,huaban.com/favorite/home,用scrapy的xpath就觉得很麻烦
|
14
raptor 2015-03-11 10:42:52 +08:00
@professorz 官方文档说了很多啊,举例而言就有:它自带一个WEB管理界面,支持TELNET登录管理,有交互式SHELL可以调试对抓取内容的解析,内置多种中间件可处理SESSION,COOKIE,HTTP压缩,身份验证……
|
15
raptor 2015-03-11 10:44:35 +08:00
顺便问一句,beatifulsoup真有这么好?我怎么觉得还是pyquery用起来更简单。
|
16
kingname 2015-03-11 12:33:10 +08:00
xpath秒杀bs4,beaitifulsoup4还是感觉不好用。
|