用了 scrapy 是否还需要用 beautifulsoup？

2015-03-10 07:30:49 +08:00

zeal7s

我作为新手刚学习scrapy，发现坑还挺多的。其中最主要的就是解析dom，我感觉用scrapy获取想要的元素特别麻烦特性counter-intuitive，没有beautifulsoup方便。但是感觉已经用了scrapy再在代码中import beautifulsoup很不优雅。不晓得各位有没有类似的问题？

用requests＋beautifulsoup已经能够解决问题了，为什么还需要用scrapy呢？

8745 次点击

所在节点

Python

16 条回复

simapple

2015-03-10 08:29:59 +08:00

简单的做urllib+re就可以，scrapy是一套框架，如果是工程项目，要考虑的深度广度并发控制作业调度等等

limbo0

2015-03-10 08:44:46 +08:00

感觉xpath特别方便,是lz没找对方法把

raptor

2015-03-10 08:51:45 +08:00

如果你的需求用requests+beautifulsoup就可以解决，那就这样做好了，最多加上gevent。

scrapy的强大在于配套功能非常多

crazycookie

2015-03-10 10:58:46 +08:00

为啥不用xpath?

professorz

2015-03-10 14:07:29 +08:00

@simapple 能说说这些名词的具体实现吗？

@raptor 能讲讲scrapy都有啥好用的配套功能吗？
谢谢

yetone

2015-03-10 14:42:52 +08:00

pyquery 秒一切

crazyxin1988

2015-03-10 14:44:41 +08:00

赶脚requests+beautifulsoup 就蛮好的

fumer

2015-03-10 16:05:13 +08:00

不需要用beautifulsoup

rhythmer

2015-03-10 18:17:56 +08:00

@limbo0 感觉xpath对于标准的html网页的处理还可以，但对于很奇怪的html网页我还不知道怎么抓取数据。最近打算从花瓣去抓图片，huaban.com/favorite/home，用scrapy的xpath就觉得很麻烦

limbo0

2015-03-10 18:52:30 +08:00

@rhythmer 图片的地址是javascript生成的xpath根本抓不了,正则或许是个好的选择

latteczy

2015-03-10 20:36:10 +08:00

@rhythmer 抓图片用ImagePipeline，把src的值抓下来，转到这个地址上应该就可以了吧

zeal7s

2015-03-11 06:22:57 +08:00

@limbo0 确实没有学过xpath

zeal7s

2015-03-11 06:24:48 +08:00

@rhythmer 同感，xpath从功能和易用性上来说肯定不如beautifulsoup

raptor

2015-03-11 10:42:52 +08:00

@professorz 官方文档说了很多啊，举例而言就有：它自带一个WEB管理界面，支持TELNET登录管理，有交互式SHELL可以调试对抓取内容的解析，内置多种中间件可处理SESSION，COOKIE，HTTP压缩，身份验证……

raptor

2015-03-11 10:44:35 +08:00

顺便问一句，beatifulsoup真有这么好？我怎么觉得还是pyquery用起来更简单。

kingname

2015-03-11 12:33:10 +08:00

xpath秒杀bs4，beaitifulsoup4还是感觉不好用。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/175698

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX