文章内容提取的技术是什么

2019-09-25 09:39:12 +08:00
 xiefangzhenz

https://cloud.tencent.com/developer/information/%E5%AE%89%E5%85%A8%E4%BA%91 https://readhub.cn/topics

这种网站是通过什么技术或者框架实现的呢,一篇文章的核心内容被提取出来,然后展示。

5729 次点击
所在节点    Python
28 条回复
22day
2019-09-25 09:56:39 +08:00
一篇文章的核心内容被提取出来,然后展示
从提供的两个站点来看就是显示了标题和一定字数的正文内容,并不能算是提取了核心内容...
python 做 web 开发的话可以看看 django 或 pylons 这类框架
CRUD
2019-09-25 10:04:58 +08:00
楼主有没有想过文章发布的时候直接可以输入简介,或者没输入的话读取正文开头前一部分当作简介,并不是读取正文内容生成的..
zdnyp
2019-09-25 10:10:46 +08:00
遍历 dom 树,然后根据字符密度判断是否是正文
polythene
2019-09-25 10:11:27 +08:00
看来每隔一段时间就要把我的这个库拿出来晒晒了: https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor
刚开始的目标是提取 hacker news 上所有新闻的正文,现在已经工作的很好,大部分网站的正文都可以提取。
主要思想是根据各种因素给网页的每个 DOM 打分,最终最高分就最有可能是正文。
misaka19000
2019-09-25 10:18:31 +08:00
evernote 的浏览器插件就能做到提取文章的正文内容,感觉还挺好的
izoabr
2019-09-25 10:19:48 +08:00
经常只能显示标题,腾讯和阿里云都这破德行,骗 PV 的
MaiKuraki
2019-09-25 10:21:08 +08:00
不就是爬虫吗
TimePPT
2019-09-25 10:28:07 +08:00
正文判断+摘要抽取
xiefangzhenz
2019-09-25 10:40:04 +08:00
@locbytes 感谢大神,我看看
xud
2019-09-25 10:48:28 +08:00
对于 Web 信息检索来说,可以说是算作网页正文抽取,方法有很多种。一类是基于 Dom 树来做,也可以基于标记窗继续识别,还有基于网页分割技术的,再者就是基于数据挖掘或者机器学习,使用文本分类、聚类这种来实现,有一些比如基于行块分布函数这种也是可以直接对网页正文进行提取。
xiefangzhenz
2019-09-25 10:50:51 +08:00
@CRUD 想做一个不固定网页的抽取。。。
xiefangzhenz
2019-09-25 10:51:45 +08:00
@zdnyp 有具体的框架或者资源吗
xiefangzhenz
2019-09-25 10:54:14 +08:00
@polythene 谢谢大神。。我瞅瞅
xiefangzhenz
2019-09-25 10:54:34 +08:00
嗯,想找个算法 自己做个这样的网站
xiefangzhenz
2019-09-25 10:54:55 +08:00
@izoabr 嗯,我被他们欺骗了。。。所以我也想搞个这样的
xiefangzhenz
2019-09-25 10:55:08 +08:00
@MaiKuraki 有详细的资料吗
xiefangzhenz
2019-09-25 10:55:24 +08:00
@TimePPT 在度娘如何找寻着方面资料呢。。。
xiefangzhenz
2019-09-25 10:56:03 +08:00
@xud 我现在想要白嫖,这种资料一般哪些网站多点或者有相应的框架吗
irvinghua
2019-09-25 10:56:14 +08:00
python 里面利用深度学习,提取文章摘要,关键词,这种 nlp 库不要太多,如 bert,ernie
xiefangzhenz
2019-09-25 10:56:31 +08:00
嗯好,我看下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/603923

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX