糗百命令行版:最近学习正则表达式,抛弃了bs4,写了这么一个小爬虫,爬了糗百最近7天热门的糗事儿

2013-09-08 23:35:38 +08:00
 byron
http://gist.github.com/imbyron/6484591
请多多指教:http://jiabin.tk/2013/09/08/qiubai-regex/
6408 次点击
所在节点    Python
26 条回复
vibbow
2013-09-09 04:13:39 +08:00
我觉得直接抓包android版的API更具有可行性......
byron
2013-09-09 07:46:13 +08:00
@vibbow 这点儿还没睡?
我目前就会做个简单的爬虫,像抓包什么的api什么的安卓什么?的,实在是心有余而力不足啊。
Gawie
2013-09-09 08:32:20 +08:00
同样学习python爬虫中~~~
missdeer
2013-09-09 08:37:06 +08:00
整天只用ssh登录控制台使用机器的表示感谢!
Ansen
2013-09-09 08:44:34 +08:00
python新新手学习了,
roricon
2013-09-09 12:46:02 +08:00
用scrapy呗。很好的爬虫框架,简单易用。
说实话,用re直接处理html实在是太痛苦了。
用scrapy可用它内建的XPathSelector。
不想用框架的话可以用beautifulsoup。
byron
2013-09-09 12:55:07 +08:00
@roricon
嗯,谢谢
scrapy没了解过,待我了解了解。
之前用过bs4,但是它的原理也是转换成正则
效率会差很多
直接正则+编译 会快很多
yanwen
2013-09-09 12:55:40 +08:00
py 3 可以用??
byron
2013-09-09 13:21:54 +08:00
@yanwen 我是用py 2X写的。
如果要在py 3上使用估计要改动不少地方
比如:
print
raw_input 想关联的地方等等
itfanr
2013-09-10 09:48:35 +08:00
@vibbow 安卓版怎么抓?
vibbow
2013-09-10 10:51:35 +08:00
@itfanr 模拟器 + WireShark
chunchu
2013-09-10 11:06:24 +08:00
为什么我看到的是乱码?
byron
2013-09-10 11:48:54 +08:00
@chunchu
你是在win下看的吧?
win下建议用python自带的IDLE,把编码改成#coding:cp936
cmd是会乱码的。
zhttty
2013-09-10 12:26:26 +08:00
写的不错,可以用...不过有些内容会被截断,就是一句完整的话有部分不见了...

不过建议作者可以将图片链接也抓出来,保存成形如 [http://xxx.jpg] 形式,这样可以复制链接在浏览器上看。
csx163
2013-09-10 12:39:13 +08:00
我记得他的RSS有当日热门的
byron
2013-09-10 12:43:49 +08:00
@zhttty
可以把截断的糗事儿反馈给我么?
这里或者gist都可以。
zhttty
2013-09-10 15:42:33 +08:00
@byron

截断的那几句话找不到了,好像跟一些表情符号有关。
spark
2013-09-11 12:16:16 +08:00
楼主可以尝试Pyquery
vicence
2013-09-11 19:12:00 +08:00
@byron 有vim版的qiushibaike.vim
pandada8
2013-09-11 21:19:06 +08:00
@byron
bs4基于正则 嗯 are you sure?bs4是基于dom的吧
如果觉得慢的话可以使用lxml + bs4的组合
soup = BeautifulSoup(html,“lxml”)
#如果我没记错的话

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/81793

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX