新闻聚合网站是怎么做的?

2015-09-12 10:10:59 +08:00
 colorsand

就是实时抓取其它网站上的内容实现的吗?

3965 次点击
所在节点    问与答
11 条回复
newtonisaac
2015-09-12 11:04:28 +08:00
难道是打电话问的?
liangguan5
2015-09-12 11:14:43 +08:00
@newtonisaac 哈哈哈
alexapollo
2015-09-12 11:20:20 +08:00
抓取+优质内容筛选+推荐系统
colorsand
2015-09-12 11:33:51 +08:00
@alexapollo 有这方面的经验吗?请教一下:
主动抓取怎么保证实时性?
内容筛选是不是需要人工完成?
colorsand
2015-09-12 11:34:54 +08:00
@newtonisaac 我想是不是通过 api 获取的数据
vstar
2015-09-12 11:40:08 +08:00
我更关注是否会造成侵权等法律问题
Moker
2015-09-12 11:41:21 +08:00
@colorsand 有 api 和 rss 当然最好。。没有就用爬虫了。。。实时的话爬虫频率高点了。。不过有可能会被封
IanPeverell
2015-09-12 11:42:43 +08:00
Python 基础教程里面有一个新闻聚合类的初级教程,可以先用 Python 的 NNTP 把信息下载下来,然后再传到网站里,实时性的话可以通过定时启动脚本更新数据就行吧…
alexapollo
2015-09-12 12:31:30 +08:00
@colorsand 大部分不是实时的。。但也有实时系统(量非常大),实际上相当于一个用户代理
em70
2015-09-12 12:43:41 +08:00
抓取页面,把纯内容提取出来,这个看起来简单,其实算法非常难,各种网站页面结构不一样,要考虑各种奇葩情况。
mutalisk
2015-09-12 22:54:10 +08:00
TF-IDF

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/220126

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX