五一假期,把跑了一年多的自动聚合新闻算法优化了下

2023-05-01 17:36:04 +08:00
 echosoar

去年写了一个聚合当天“相似”新闻的工具,一个相似的新闻,被越多网站发布,那排序值就越高,同时会展示出来每个网站的发布时间和链接。

但是之前的聚合算法存在一些缺陷,有些八竿子打不着的新闻被聚合成一条了,所以趁着五一假期优化了一下,下面是效果(使用 circle ci ,每小时自动跑一次):

有兴趣的小伙伴可以看看: https://github.com/echosoar/news

1863 次点击
所在节点    分享创造
3 条回复
guisheng
2023-05-01 17:44:54 +08:00
之前想弄一个来着 想了想还是上网站随便看看得了😂
xzl
2023-05-01 22:32:57 +08:00
gojieba 这个跑不动好像 cpp?
xianwei7315
2023-05-02 20:44:57 +08:00
网站没了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/936741

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX