第一次写爬虫,爬了课程格子的校花榜

2016-02-12 18:50:45 +08:00
 mianju

果然是大过年了闲了蛋疼, 给自己找乐子。写了个很简陋的爬虫,爬校花。请原谅我,性能是硬伤> <
kechenggezi-Spider
有大牛愿意帮忙改进么。。。

7689 次点击
所在节点    程序员
29 条回复
penjianfeng
2016-02-13 19:17:47 +08:00
校花榜...要不我也去爬一下...
jackyuJ
2016-02-13 19:20:37 +08:00
= = 你可以再尝试弄个聚类。
xuxiangyang
2016-02-13 20:18:54 +08:00
@lianxiangru 可以发简历,然后私聊~
mianju
2016-02-14 10:24:30 +08:00
@xuxiangyang 当然有兴趣> <,没想到第一次做爬虫就能引起课程格子的注意,还担心写爬虫会违法括弧哭。
mianju
2016-02-14 10:27:25 +08:00
@ahxxm 非常感谢你的提醒,在后面我会改进的
mianju
2016-02-14 10:35:56 +08:00
@lijsh 做这个是心血来潮,当时也没考虑太多,就随便先写出一个,来测试一下是否真的能跑完全部的头像
luw2007
2016-02-14 10:51:19 +08:00
爬取图片没有什么好的办法。 如果过频繁抓取。 会被禁用掉得。

+++ b/xhspider.py
@@ -42,12 +42,12 @@ def main():
#以下代码为保存图片
count += 1
conn = requests.get(p[i]['avatar_url'], cookies=cookies,headers=headers)
- name = str(i) +'.jpg'
+ name = str(count) +'.jpg'
f = open(r'/path/to/save/'+ name,'wb') #填写保存位置
f.write(conn.content)
f.close()
@Kirscheis 保存的逻辑有问题。
mianju
2016-02-14 10:54:38 +08:00
@luw2007
我写的处理方式是修改请求中的 cur_time ,见 xhspider.py 文件,虽然效率低,但是确实能跑完。
luw2007
2016-02-14 11:23:40 +08:00
@mianju 服务端封禁请求方法很多。 目测目前这个接口没有做访问限制。
最严厉的限制是封 ip ,一般的做法是利用大量第三方代理去下载图片。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/256195

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX