某些白嫖网站的爬虫是怎么做到精确爬别人的文章的。各个网站博客页面元素都不同阿

2020-03-09 20:35:48 +08:00
 90928yao

很好奇他么是怎么做到的,那么多网站,页面结构都不一样。他们的爬虫是做到只提取文章,忽略不相关的元素的,甚至还很不要脸的去掉了转载信息。 针对某个网站还能理解,好好分析页面元素,然后慢慢来。但是他们是怎么实现的呢,这个超出我的知识范围了。求大佬赐教

1869 次点击
所在节点    互联网
5 条回复
polythene
2020-03-09 20:39:19 +08:00
这算是正文提取的范畴了吧,已经有很多现成的解决方案了,比方说这个:
https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor
90928yao
2020-03-09 20:54:26 +08:00
谢谢解惑 @polythene 搜了下正文提取 关键词 都上机器学习了 井底之蛙了
yuzo555
2020-03-09 21:07:09 +08:00
有些比较规范的程序有固定的正文区域;有些常见程序规则固定的(比如 WordPress 这类);再不济可以通过可见文字的密度来识别哪个区域是正文
itskingname
2020-03-09 22:07:28 +08:00
https://github.com/kingname/GeneralNewsExtractor

这是我写的正文提取工具
90928yao
2020-03-10 09:24:40 +08:00
@itskingname 谢谢大佬。。。学习了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/651324

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX