爬虫,实时监控 900 家中国企业新闻动态!!!

2017-10-10 20:37:42 +08:00
 Rootcat

开源一个项目 https://github.com/NolanZhao/news_feed

简介: 此项目可监控近千家中国企业的官方网站的新闻动态,如有更新,系统能在 5 分钟之内通过邮件发送更新的标题和链接。 更新的信息流也可通过浏览器查看。监控的公司和站点可以添加删除。

原理: 采用 celery 任务队列,定期抓取网站 html, 使用 difflib 比对新旧页面源码,发现增加的部分,提取 url 和 text,过滤筛选,保存 MySQL 数据库。 定期把更新的 url 和 text,通过邮件发送给订阅者。

方法简单粗暴,没有摘取网页结构化数据,仅仅获取更新的链接和标题。优点:实时性可以保障

第一个版本,功能尚不完善,欢迎吐槽、贡献代码~

我的邮箱 z_nolan@126.com

5629 次点击
所在节点    Python
17 条回复
cxd44
2017-10-10 20:39:07 +08:00
谢谢分享
Rootcat
2017-10-10 20:39:53 +08:00
@cxd44 啊哈·
luozic
2017-10-10 20:40:42 +08:00
谢谢分享
ospider
2017-10-10 21:24:03 +08:00
直接比较源码有些暴力吧, 至少是抽取出文章来比较, 甚至是比较 simhash 比较好一点
forestyuan
2017-10-10 21:59:56 +08:00
这么多新闻,看得过来吗?
Rootcat
2017-10-10 22:19:12 +08:00
@forestyuan 加关键词过滤,就可以看你关注的。
Tootopia
2017-10-10 22:21:29 +08:00
怎么操作,链接失效
yidinghe
2017-10-11 09:45:11 +08:00
@forestyuan 你想多了,没人说爬出来的结果只能肉眼看而不能做进一步分析
outmanone
2017-10-11 10:33:27 +08:00
@yidinghe 太厉害了,1024 个赞。希望以后能参与进来维护代码。
outmanone
2017-10-11 10:34:35 +08:00
@Rootcat 太厉害了,1024 个赞。希望以后能参与进来维护代码。
Wongz
2017-10-11 13:51:24 +08:00
正好有需要学习这个 比心
zhangzixu
2017-10-11 13:53:20 +08:00
感谢!
dsphper
2017-10-11 14:53:12 +08:00
既然是开源我也就不好 BB 啥了,我只想说虽然是第一版既然开源了能不能搞的开箱即用。。。。。。各种错误,各种补丁给你打上才跑起来.....
Rootcat
2017-10-11 15:19:06 +08:00
@dsphper 我在 ubuntu 部署很顺利,除了 Python3 环境有些麻烦之外,亲测没有留坑。。。
dsphper
2017-10-11 15:33:20 +08:00
@Rootcat 我擦,我 SB 了,用的 python2.7
itmyhome126
2017-10-11 17:40:23 +08:00
厉害了,顶一个
dsphper
2017-10-11 17:59:55 +08:00
怎么抓到的都是 N 久前的文章:?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/396587

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX