求教如何爬取全网的某类信息数据，包括公众号内的信息

48 天前

corso

如何实现在没有具体网页地址的情况下爬取到我想要的信息，包含公众号

1987 次点击

所在节点

Python

10 条回复

shadowyue

48 天前

那你这个功能相当于特定内容的搜索引擎了

YJi

48 天前

我司有接口可以输出

sir283

48 天前

一、掏钱买接口。
二、自己掏钱买设备，然后模拟点击，捕获内容入库保存。
三、逆向、抓包、hook 客户端。

lambdaq

48 天前

加钱买就行。

dispuri

48 天前

@YJi 哪个公司呀

YJi

48 天前

@dispuri 有数据需求么？

lingxmo

47 天前

对接搜索引擎

EatIce

47 天前

@YJi 怎么联系

YJi

47 天前

@EatIce 我 wx：WUpYXzA5Mjg= （ base64 解一下

XinPingQiHe

47 天前

这种情况都是先调用百度搜索（辅以其它类似搜索引擎）+你的关键词，然后分析搜索结果，（注意有多页面用参数翻页）。
解析每条搜索结果，用程序爬取对应网页内容。必要时分析网页上面的外链，搜索更多相关数据。
有那些基础数据之后，在后期，你也可以建立自己的缓存，自己到对应的网站去抓取，抓取中，收录更多的相关网址。。。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1095419

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.