如何抓取论坛贴子更新的内容

2015-06-27 18:51:28 +08:00
 27

有几个分散在不同网站的信息来源,不定时有更新。
想每天把新的内容聚合起来发邮件到邮箱里,有什么好方法?

3144 次点击
所在节点    问与答
11 条回复
lxy42
2015-06-27 19:02:43 +08:00
RSS
27
2015-06-27 19:09:57 +08:00
没有 rss,想用 python 来抓
lawder
2015-06-27 19:18:48 +08:00
用Feed43生成rss源
27
2015-06-27 20:24:03 +08:00
@lawder 这种只能抓取固定网址更新的内容,如果遇到一个长贴子,页数会变化的就不行了。
举例:想获取 http://www.china-midas.cn/bbs/thread-26016-20-1.html 的最后一个 post 的更新内容
mystryl
2015-06-27 20:37:35 +08:00
requests 抓url= 'http://www.china-midas.cn/bbs/thread-26016-%s-1.html' %page,
page么从20开始加 试到没抓到内容就停止
beautifulsoup抓取每一个div 为 ‘post_元素,Html2text转为纯文本,注意这货有个warp=87的bug自己改下config post后面有数字作为每一个的id
这样输出的数组建个csv,新抓的历遍一次id有没有重复的,没有重复就给自己发,可以用新的telegram bot啊,很方便。。。

最近才写了一个完全类似的项目。。。好玩的
ksupertu
2015-06-27 21:31:14 +08:00
军犬舆情监控系统
mystryl
2015-06-27 21:47:24 +08:00
https://www.dropbox.com/s/mqjxumluwpkhlv4/MIDAS.py?dl=0

写了个大概,看看吧?顺便共享下要监控啥。。
loading
2015-06-27 22:09:54 +08:00
如果想通用,我觉得你要先写出 AI ,乖乖一个个站点适配吧!

要么就暴力点,全再抓一次了再说。
abelyao
2015-06-27 22:10:52 +08:00
@mystryl 难道是定时抓取 1024 的更新!
mystryl
2015-06-27 22:29:55 +08:00
@abelyao 需要么,看看DMM的更新查查番号不就行了。。
我抓的是业务相关的专业资讯类网站更新。。
halfcrazy
2015-06-27 23:15:05 +08:00
kimonolab

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/201598

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX