分享一个用 Python 获取 V2 首页文章的爬虫

2017-07-12 22:20:10 +08:00
 PythoneerDev6

多的不说了。 直接上链接:

点击 V2EX 爬虫

4222 次点击
所在节点    程序员
32 条回复
lzhr
2017-07-12 23:06:22 +08:00
通过 Atom Feed 订阅
ranleng
2017-07-12 23:15:52 +08:00
内个。。v2 有给 api
cxbig
2017-07-12 23:20:37 +08:00
同上,为啥不用官方 Feed。。。
xray887
2017-07-12 23:23:27 +08:00
说实话,感觉很 low
aaronzjw
2017-07-12 23:53:00 +08:00
楼主辛苦造的轮子,不懂楼上的都这么刻薄。 鼓励鼓励吧,人生不易
16888
2017-07-13 00:23:15 +08:00
这个确实有点搞(= ̄ ρ ̄=) ..zzZZ 好像是人家大门一直开着,你偏要翻墙进人家屋里去 haha
gesse
2017-07-13 09:36:43 +08:00
这个应该是技术练习吧,吐槽可以用 feed 的是什么鬼?

为什么不好好评价下代码
PythoneerDev6
2017-07-13 09:43:36 +08:00
@ranleng v2 的 API 不是实时的 难道你不知道?
PythoneerDev6
2017-07-13 09:45:03 +08:00
@xray887 那你说说什么算不 low?
PythoneerDev6
2017-07-13 09:45:43 +08:00
@16888 你用过 他的 API 吗 没发现不是 实时的吗?
16888
2017-07-13 10:45:13 +08:00
@PythoneerDev6 是的,站长做了缓存。不光是 api,这个 web 首页也不是实时的啊,要缓存过期了,才会更新,你发个贴试试就知道了。
PythoneerDev6
2017-07-13 11:02:24 +08:00
@16888 嗯 是的 发新帖排的很后,其次貌似回复也不是很及时的靠前。 貌似问题还是有的。
PythoneerDev6
2017-07-13 11:20:26 +08:00
@aaronzjw 还是老铁 懂。
aaronzjw
2017-07-13 11:36:06 +08:00
@PythoneerDev6 超哥我是你粉丝啊,说你 low 的肯定没看过你代码
bao3
2017-07-13 12:30:30 +08:00
楼上那些嘲讽楼主的人,我想表达的是,看了楼主的文章,起码我知道怎么弄这个基本的爬虫了。楼主应该是以 V2EX 为引子而已。
Jakesoft
2017-07-13 12:36:31 +08:00
我写过的爬虫:输入 v2 的首页的 URL 得到所有的帖子,以及帖子的各个属性,不知楼主是否需要参考?
gulangyu
2017-07-13 12:37:02 +08:00
滋瓷分享!
ivechan
2017-07-13 12:48:00 +08:00
虽然讲的比较简单, 但是胜在逻辑比较清晰, 另外排版还是不错的。
看了一些其他人发的公众号文章,排版不忍直视。。
ywgx
2017-07-13 13:02:17 +08:00
支持楼主
lommo
2017-07-13 13:41:01 +08:00
歧视 windows

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/374901

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX