开源一个 google 爬虫项目

2017-08-29 19:04:01 +08:00
 Fing

这个项目写了一段时间了,主要功能就是实时爬取 googlesearch 的结果。google 反爬很严格,我这边也没有很好的办法,后面可能也不太搞了,就整理了开源出去,希望能给其他人一些思路。 github: https://github.com/FastSchnell/googlebridge

目前只支持 python2.7,有兴趣的可以试一下 下载 wget http://googlebridge.com/googlebridge.py 运行 python googlebridge.py

5685 次点击
所在节点    Python
10 条回复
mingyun
2017-08-29 23:08:38 +08:00
支持 py3 啊
Fing
2017-08-29 23:51:35 +08:00
@mingyun 没测过欸~
mckelvin
2017-08-30 00:03:18 +08:00
楼主代码写得挺认真的,建议了解下 requests, urlparse, pyquery 或 BeautifulSoup, jinja2 这几个库,能剩不少代码。
viosey
2017-08-30 00:08:52 +08:00
有办法爬 Google image 吗?
gaotongfei
2017-08-30 00:11:55 +08:00
@mckelvin jinja 在爬虫中有什么应用?
mckelvin
2017-08-30 07:58:15 +08:00
@gaotongfei 我也好奇呢。但楼主代码里有 html 模版。
Fing
2017-08-30 08:05:18 +08:00
@mckelvin 不用三方库为了简化部署。 里面有 html 模版是因为脚本跑起来就是一个网站。
xiaozizayang
2017-08-30 08:25:06 +08:00
关键是对谷歌反爬机制的研究 我也写过一个 轮循谷歌全球域名 有点效果 https://github.com/howie6879/MagicGoogle
jisibencom
2017-08-30 09:29:16 +08:00
难道用反代不是更方便些不?
Fing
2017-08-30 09:49:25 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/386697

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX