爬取上千个不同类型的网站中的文章,大佬们有没有啥解决思路?

2019-08-09 14:39:22 +08:00
 Wh0amis
目前需求是这样的:有 3000 多个不同类型的咨询网站。这些网站包含有个人博客,新闻网站,还有一些微信公众号。要从这 3000 多个网站里面爬取更新的文章标题及 URL 还有发布时间。现在有点懵。写爬虫的话难道要一个站一个规则么。有没有统一爬取的解决方案呢?
5734 次点击
所在节点    Python
36 条回复
heart4lor
2019-08-09 19:53:58 +08:00
两个想法,一个是每个网站存一组 xpath,对应你需要的信息;另一个是爬取所有文字部分,根据一定的特征、规则来分辨是标题还是正文还是时间,这三者区别都挺大的。人工不好编写规则的话甚至可以考虑写个深度神经网络训练一下提取特征……
youmumzv2
2019-08-09 20:05:53 +08:00
要不要试试我们开发的后羿采集器,基本 90%的网站都可以自动解析网页自动识别出标题时间这类的字段,而且基本功能都是免费的
mamahaha
2019-08-09 20:07:22 +08:00
别做梦了,这个需求就算用人工智能,也不是一般的人工智能,你这样闭着眼睛爬,估计也就能爬来一堆广告。
Cheez
2019-08-09 20:17:47 +08:00
直接用别人的软件。

直接用别人的框架。
aaronhua
2019-08-09 21:39:57 +08:00
已加入豪华收藏套餐
ErrorMan
2019-08-10 00:16:17 +08:00
如果是 html5 规范应该有类似 article main title 这样的标签来标记对应数据,可以按这个来提取,不过国内网站大部分都没这个习惯吧
largecat
2019-08-10 11:50:28 +08:00
url 和标题很容易。

发布时间我觉得设定为你第一次爬取到的时间就行了,
挂服务器上就不用管了最省事,几分钟弄完。反正是机器干活,带宽放着就是被拿来用的。
habicat
2019-08-10 16:18:36 +08:00
一般都是通用爬虫+算法提正文+配置文件提标题&时间
habicat
2019-08-10 16:56:16 +08:00
我们刚好在干这个 兄弟不考虑外包。。。
jinxx1
2019-08-11 08:41:13 +08:00
newspaper3k 这个库能解决很多问题。
Wh0amis
2019-08-12 10:57:00 +08:00
表哥们的思路很广。很感谢各位表哥的回复。听了各位表哥的建议个人感觉还是得针对目标网站特征划分出群体特征,在根据群体特征编写相应的通用规则。这样才能有效减少工作量。再次感谢楼上各位表哥。
explorer123
2019-08-12 22:57:34 +08:00
微信公众号部分可以参考下我这个项目中的源代码 https://github.com/LeLe86/vWeChatCrawl
deepall
2019-08-13 13:35:40 +08:00
可以看看 diffbot 这个公司的产品,很牛逼,可惜价格有点高
或者看看 chrome 的一个插件,简悦,和 safari 上面的阅读模式很像
我之前公司就是这样,1000 多个网站,1000 多套规则,一个爬虫文件
MrZok
2019-08-13 15:09:42 +08:00
有什么最优方法么
chengxiao
2019-08-13 19:02:18 +08:00
舆情监控吧....readability,goose 匹配 tiitle description 和正文内容吧
aalikes95
2019-11-20 11:14:06 +08:00
看看,mark 一下解决方案

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/590471

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX