文章内容提取的技术是什么

2019-09-25 09:39:12 +08:00
 xiefangzhenz

https://cloud.tencent.com/developer/information/%E5%AE%89%E5%85%A8%E4%BA%91 https://readhub.cn/topics

这种网站是通过什么技术或者框架实现的呢,一篇文章的核心内容被提取出来,然后展示。

5729 次点击
所在节点    Python
28 条回复
izoabr
2019-09-25 11:09:52 +08:00
那简单,找几百篇不同类型的文章,然后用 结巴分一下词。

然后用这些词生成一堆静态页出来,记得加 keyword 和 description 哦

甚至更绝的可以用参数传这个词进去现生成,但索引收录时怎么弄就不清楚了。
Lcys
2019-09-25 11:11:26 +08:00
goose
mrweiwei
2019-09-25 11:17:47 +08:00
我之前用 node 写过一个类似的应用,文章内容的提取用到了 node-readability 和 phantom 这两个库,效果对大部分网站来说还行,项目地址这里,可以看看 https://github.com/linguowei/micro-note
xiefangzhenz
2019-09-25 11:25:48 +08:00
要是全网搜索相关的文章,提取出主要内容,是不是就很难了
xiefangzhenz
2019-09-25 11:26:03 +08:00
我看看
TimePPT
2019-09-25 12:43:00 +08:00
@xiefangzhenz
文章全文判断 LS 有人给到方案了,拿到全文后做摘要生成可以参考下面这篇
《文本摘要简述》 https://www.jiqizhixin.com/articles/2019-03-25-7
类似论文很多,可以搜搜
zdnyp
2019-09-25 13:29:43 +08:00
@xiefangzhenz newspaper 百度一下有好些
itskingname
2019-09-25 13:34:57 +08:00
楼主看一下我的这个项目: https://github.com/kingname/GeneralNewsExtractor

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/603923

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX