关于如何计算每日新闻的热点

2019-10-31 20:08:01 +08:00
 lemonada
想做个小玩意,抓取一定量的新闻然后,通过一些计算得出,每天发生的热点事件.
目前想用 Apriori 算法,利用 jieba 切词计算各个关键词的关联性,然后得出一个热点的关键词集合.
写完之后发现 apriori,算法能得出的叶子节点太多了,不知道怎么后续计算了.
请问各位老哥有没有什么别的新思路,或者舆情分析的思路.
2366 次点击
所在节点    程序员
10 条回复
lemonada
2019-10-31 20:08:31 +08:00
写了 2 个多星期 硬是没写出来 各位老哥有啥思路吗
lemonada
2019-10-31 20:16:45 +08:00
期间看到了 LDA 算法 ,这个能解决目前的问题吗
rogwan
2019-10-31 20:35:53 +08:00
1 你这个肯定要给抓来的新闻源标权重,要不内容里重复出现关键词就会增加热度。比如人民日报出现一次的新闻,比八卦站出现 10 此的新闻,是热点的概率高。

2 你最好先让内容分类,分类算法很成熟啦,然后在小类里直接就按信息源权重,加个时间算法综合排序就好了。那些八卦新闻整的都是 n 年前的明星八卦都有,根本分析不出来是不是真热点。
futamilk
2019-11-01 02:41:44 +08:00
LDA 我认为应该是可以的,但是如果让我来做,我会先试试直接用 tf.idf 。一般来说从简单的搞起比较好,不然忙活了半天也不知道性能到底提没提高。
lemonada
2019-11-01 09:53:24 +08:00
@rogwan 谢谢 这个思路挺好的
lake325
2019-11-01 10:29:33 +08:00
这个是我用结巴根据标题热度切出来的 8 月份到现在的微博热搜数据,效果不太理想

http://ownwiki.cn:8806/hotso/v1/hotword/weibo/json/100

感觉知乎的热搜更具有大众参考价值,后续考虑把知乎的 hot 数据做个年度汇总
lemonada
2019-11-01 11:30:52 +08:00
@lake325 有点头大 新闻是能捕捉到但是其他新闻太多了 会冲刷掉热点
lemonada
2019-11-01 11:31:07 +08:00
@lake325 跟你这个结果差不多
newphper
2019-11-08 14:21:51 +08:00
我也在做这个,我现在具备给每一条新闻计算实时热度的能力。
我是计算新闻实时热度,全是自己算的,不需要微博热搜,百度指数等参考。
分词只是其中一小部分,词和词之间的权重是不一样的,比如坠机和公司,两个词的重量就不一样。
还有新闻相似度计算,这个才是重要的。同样的热点新闻,多的时间快两百家媒体报道。
我业余做这个已经做了一年多了,你可以看看我的产出

微博:《今日主流热点》 https://weibo.com/u/6926438705 (每小时定时发送本小时计算出来最热的新闻, 还有突发热点,实时误差 15 分钟)
公众号:《今日主流热点》(麻烦自己搜了)(每天总结当天最热的 25 条热点)
每条热点都能计算到有多少新闻源报道,每小时的热度趋势变化。

你可以先抓微博的,微博的比较短。新闻媒体的话抓几家有新闻采编权的主流媒体就行了,大部分都是抄来抄去的。
lemonada
2019-11-09 12:19:11 +08:00
@newphper 感谢 我看一下您的结果

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/615003

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX