基于 python 写的一个 google 的爬虫

2015-08-04 21:14:17 +08:00
 Fing
解析器用的是beautifulsoup,框架是Django,数据库mysql。爬虫的数据会放到数据库,所以对磁盘IO有要求,不过就我一个人用,峰值很低很低,所以一直想看看云盘承受能力,内存使用情况其实也很感兴趣。中午在程序员节点发个贴(12点发的),考虑到V2的强大,做好了down机随时重启VPS的准备,一直等到12点半才来一个访问者,后来干脆去吃饭了(公司12点开饭),吃完回来一看有了7,8个人访问了,一看V2,帖子沉了,应该我发了网址,V2把帖子当成软广告了,我是希望有人能够回复,做的怎么样,哪里不行,什么水平,可以怎么改进,哪怕是一句“这也好意思放到V2”我都能接受,所以选在大家下班之后的这个点厚着脸皮再发一次,看能不能有大牛评价下,发现什么bug或者黑掉我的主机(可能是我想多了)之类的,网址是googlebridge.com,求重踩...
4273 次点击
所在节点    Python
28 条回复
limuxy
2015-08-04 23:09:42 +08:00
为什么要存进数据库啊 会经常搜索同样的关键词? #我是来消灭零回复的#
anexplore
2015-08-04 23:16:09 +08:00
google会封你不
Fing
2015-08-04 23:21:27 +08:00
@limuxy 刚做出来的时候不放,后来由于国内要备案,而且做这个站的目的很单纯,所以我选择要过滤一批数据,用数据库过滤,感觉跟栈的概念差不多,先放进去再拿出来~
Fing
2015-08-04 23:22:23 +08:00
@anexplore 我能用阿里云爬 ,我就能让他封不了。
est
2015-08-04 23:25:42 +08:00
@Fing 如何做到的?阿里云出口IP是动态的?
Fing
2015-08-04 23:27:12 +08:00
@est 我技术很菜,但我还是想保持一点神秘感~
anexplore
2015-08-04 23:27:19 +08:00
@Fing 代理ip?
Fing
2015-08-04 23:28:21 +08:00
@anexplore bingo
zhicheng
2015-08-04 23:30:10 +08:00
我写过一个 es + crawler ,基本可以实现一个简单的 Search Engine 了,可以爬指定站,各位小伙伴有兴趣吗?
limuxy
2015-08-04 23:35:18 +08:00
@Fing 直接在内存里处理不是比较快么 写进去再读出来很影响性能吧
话说为了能备案也不容易 还得自我审查啊
x4
2015-08-04 23:35:44 +08:00
Fing
2015-08-05 09:11:18 +08:00
@limuxy 我也跟你有同样的想法,所以我才想到到V2发贴,多一点访问我好在后台看状态。然后目前的情况就是:
1,服务器负载很小,做这些读写操作不会影响到服务器的运行。
2,内存处理跟这种读写的方式也许会有延时,不过是ms为单位,而这个站点主要做的是抓取google国外站,抓取分析可能要2-6秒,所以后者是s为单位,所以前者的ms级别对于这个站点就微乎其微了。而且对于常用关键词放到数据库反而是个缓存,这是我目前的想法。
tdifg
2015-08-05 10:47:59 +08:00
还以为是自己爬呢,原来是爬google啊。ok,当镜像站收了……
Fing
2015-08-05 10:52:29 +08:00
@tdifg 你说了算咯~
invite
2015-08-05 11:44:24 +08:00
没看明白,这个不就是一个代理?主要想做哪方面技术攻关?
zhuzhenyu
2015-08-05 13:08:49 +08:00
Fing
2015-08-05 13:11:19 +08:00
@zhuzhenyu ......
Fing
2015-08-05 13:13:46 +08:00
@invite 你可以给我一个关键词,我给演示一下
invite
2015-08-05 14:04:29 +08:00
@Fing 你随便挑个关键词,然后给个演示就好了。
heaton_nobu
2015-08-05 17:45:39 +08:00
搜索结果url中文没有编码回来
下面分页没有显示当前页码
搜索某个关键词后14页往后结果都一样,但是可以不断向后翻页

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/210807

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX