自己写的 python 爬虫,开源出来

2014-02-21 17:24:27 +08:00
 wangfengmadking
前段时间把自己写的爬虫程序整理了一下,希望能构建一个简单易用的爬虫框架。现在已经有了基本框架. 采用的是requests + beautifulsoup。

现在的代码量还比较少,都是一些基本功能。就是把request和bf封装了一下。

https://github.com/numb3r3/crawler-python
8876 次点击
所在节点    Python
21 条回复
gaicitadie
2014-02-21 17:27:18 +08:00
beautifulsoup跟pyquery有哪些区别?相对于pyquery有何优势?请有经验的大神讲讲
wangfengmadking
2014-02-21 17:34:34 +08:00
@gaicitadie 根据我的经验,pyquey基于lxml,比bf解析效率要高。本来我想直接用lxml的,但是由于比较赶,只能先用bf解析了。如果对jquery比较熟悉的话,那么可以直接可以使用pyquey来解析html
pythoncc
2014-02-21 17:40:41 +08:00
收藏、学习。。。
wuyadong
2014-02-21 19:09:38 +08:00
zhwei
2014-02-21 19:22:43 +08:00
上周pycoder weekly推荐的一个项目 https://github.com/jmcarp/robobrowser

也是封装了requests和 beautifulsoup, 可以试着添加写独到的功能。
FrankFang128
2014-02-21 19:24:44 +08:00
爬虫很有用吗?为什么这么多人写
zhwei
2014-02-21 19:29:34 +08:00
@FrankFang128 简化查询、聚合信息、懒人必备。
jason52
2014-02-21 20:09:40 +08:00
@gaicitadie 你要回jquery的话,强烈推荐pyquery,class选择器方便程度是bs不能比的。我误打误撞学了一下jquery,结果最有用的竟然是在爬虫的时候用上了pyquery
qianlifeng
2014-02-21 20:32:25 +08:00
bs4不是也可以使用jquery选择器语法查询的么
alexapollo
2014-02-21 20:58:28 +08:00
Scrapy?
carlhan
2014-02-21 21:06:46 +08:00
README.md 里面的 单词framework 写错了

嘿嘿
RIcter
2014-02-21 21:12:07 +08:00
@FrankFang128 我不会说过刚刚学py的时候,我写过爬h网关键词的..因为我是妹控哈哈哈!
mongodb
2014-02-21 21:13:18 +08:00
感觉python天生是为了写爬虫和代理而创造的语言= =
FrankFang128
2014-02-21 22:00:32 +08:00
@RIcter 听你这么一说,就感觉有用了
pandada8
2014-02-21 23:09:36 +08:00
@wangfengmadking beautifulsoup也可以指定使用lxml,只要在初始化的时候指定类型为lxml的就行了 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

@qianlifeng 文档里有写?

————
pyquery没办法链式调用……残念……
paulw54jrn
2014-02-22 01:48:54 +08:00
@pandada8 补充下..beautifulsoup要4.0+版才能支持lxml
fork3rt
2014-02-22 16:35:38 +08:00
pyquery没beautifulsoup 强大 - -# 我最近也在写爬虫
pandada8
2014-02-23 12:21:46 +08:00
@paulw54jrn 嘛,新代码基本都用的bs4吧……
qianlifeng
2014-02-23 17:39:13 +08:00
blond
2014-02-24 16:54:45 +08:00
@wangfengmadking那pyquery和lxml哪个快呢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/101261

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX