很好奇他么是怎么做到的,那么多网站,页面结构都不一样。他们的爬虫是做到只提取文章,忽略不相关的元素的,甚至还很不要脸的去掉了转载信息。 针对某个网站还能理解,好好分析页面元素,然后慢慢来。但是他们是怎么实现的呢,这个超出我的知识范围了。求大佬赐教
1
polythene 2020-03-09 20:39:19 +08:00
这算是正文提取的范畴了吧,已经有很多现成的解决方案了,比方说这个:
https://github.com/polyrabbit/hacker-news-digest/tree/master/page_content_extractor |
3
yuzo555 2020-03-09 21:07:09 +08:00
有些比较规范的程序有固定的正文区域;有些常见程序规则固定的(比如 WordPress 这类);再不济可以通过可见文字的密度来识别哪个区域是正文
|
4
itskingname 2020-03-09 22:07:28 +08:00 via iPhone
|
5
90928yao OP @itskingname 谢谢大佬。。。学习了
|