要怎么实现快速爬取 1w 个网站呢？

2 天前

baozaodexiaomila

如何在段时间内容实现 1w 个网站的数据采集呢？利用传统的 scrapy 实现，每个网站创建一个 spider 这种肯定是不现实的，而且也不好维护，有其他方案可以快速实现这个庞大网站采集吗？

1289 次点击

所在节点

7 条回复

Lockroach

2 天前

这和建立一个个人搜索引擎感觉差不多了，应该有解决方案的

baozaodexiaomila

2 天前

谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

baozaodexiaomila

2 天前

@Lockroach
谢谢大佬，我去找找看，这边要的是实现一个通用招投标采集系统，有点摸不着头脑，没有这么大量网站采集的经验

jamos

2 天前

如果 1 万个网站页面规则不一致，你就需要通用的解析库，根据我的经验，没有完美的解析方案
1. 用 BeautifulSoup 太重，效率不高
2. 用 re 是最快的，写规则也是最麻烦的

这个规模并发应该不是大问题，用 redis 手数据，mongodb 存数据

后面的去重才是真正的考验

ila

2 天前

主要是 xpath 规则或 css 规则.
把规则和采集分开来.
使用 scrapy 也可以,他有分布式.
btw:招人吗?2019 年我对接过全国各省的招投标网站

iYume

2 天前

写 js 脚本采集网页数据，然后交给 llm 总结

snoopygao

2 天前

抓虫现在需要遵守哪些法律条款

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.