某些白嫖网站的爬虫是怎么做到精确爬别人的文章的。各个网站博客页面元素都不同阿

2020-03-09 20:35:48 +08:00

90928yao

很好奇他么是怎么做到的，那么多网站，页面结构都不一样。他们的爬虫是做到只提取文章，忽略不相关的元素的，甚至还很不要脸的去掉了转载信息。针对某个网站还能理解，好好分析页面元素，然后慢慢来。但是他们是怎么实现的呢，这个超出我的知识范围了。求大佬赐教

1869 次点击

所在节点

5 条回复

polythene

2020-03-09 20:39:19 +08:00

这算是正文提取的范畴了吧，已经有很多现成的解决方案了，比方说这个：
https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor

90928yao

2020-03-09 20:54:26 +08:00

谢谢解惑 @polythene 搜了下正文提取关键词都上机器学习了井底之蛙了

yuzo555

2020-03-09 21:07:09 +08:00

有些比较规范的程序有固定的正文区域；有些常见程序规则固定的（比如 WordPress 这类）；再不济可以通过可见文字的密度来识别哪个区域是正文

itskingname

2020-03-09 22:07:28 +08:00

90928yao

2020-03-10 09:24:40 +08:00

@itskingname 谢谢大佬。。。学习了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.