[开源]新闻聚合站点,抓取科技圈即将发生的事

2018-06-20 20:39:04 +08:00
 Rootcat

代码比较简单。有兴趣的可以在此基础上完善。

原理:selenium + chromedriver 用 headless 模式定时抓取头条、百度、搜狐、新浪、虎嗅等网站,过滤出带将来时的标题,存入 mongodb。用 Flask 做 web 展示。

Github 代码

Demo

3661 次点击
所在节点    分享创造
14 条回复
cosmo
2018-06-20 20:52:23 +08:00
能分页和设置关键词就更好
artandlol
2018-06-21 08:07:12 +08:00
有点像 rss 了,还没带链接
jisibencom
2018-06-21 08:25:53 +08:00
好像不错的样子。
TimePPT
2018-06-21 08:51:17 +08:00
看标题以为能做到新闻预测……
Rootcat
2018-06-21 09:05:43 +08:00
@artandlol 开放 API 接口: http://140.143.226.167:8000/api/v1/news?page=0&limit=20
MrJing1992
2018-06-21 09:14:28 +08:00
我很好奇是如何识别即将发生的事情的,看了代码,Soga !
https://github.com/NolanZhao/FutureNews/blob/master/news_crawler/check.py

words = ['将', '预计', '明天', '后天', '下周', '月底', '明日', '明晚', '下月', '明年', '未来', '计划于', '准备于']
Rootcat
2018-06-21 09:59:24 +08:00
@MrJing1992 老哥,稳 :)
artandlol
2018-06-21 11:22:21 +08:00
@Rootcat 那可以定时存到 Elasticsearch 进行搜索
terencehan
2018-06-21 21:27:30 +08:00
感觉不错诶
hezhile
2018-06-22 09:57:40 +08:00
可以适配移动端吗?
bigmama
2018-06-22 14:34:04 +08:00
http://thuglife8.com/hot/看我这个。

用的网站里一位老哥的代码,自用。
bigmama
2018-06-22 14:34:21 +08:00
http://thuglife8.com/hot/
看我这个。

用的网站里一位老哥的代码,自用。
ucanuup
2018-06-23 06:08:56 +08:00
《英特尔显卡部门又添一员大将 Larrabee 之父回归》,这个就不准确了。建议做个分词并结合词性标注。
stream
2018-06-27 12:22:47 +08:00
@bigmama 代码能推荐一下么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/464514

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX