第一次写爬虫,爬了课程格子的校花榜

2016-02-12 18:50:45 +08:00
 mianju

果然是大过年了闲了蛋疼, 给自己找乐子。写了个很简陋的爬虫,爬校花。请原谅我,性能是硬伤> <
kechenggezi-Spider
有大牛愿意帮忙改进么。。。

7689 次点击
所在节点    程序员
29 条回复
Kirscheis
2016-02-12 19:02:56 +08:00
设备 token 是什么。。没用过课程格子,这个东西是需要用类似 mitm 抓包的方法拿到的吗?还是算法生成的?
另外看到代码 cookie 里写死的_kecheng_session ,确定这个值不会改变吗。。?
mianju
2016-02-12 19:13:05 +08:00
@Kirscheis token 是抓包得到的,_kecheng_session 这个会不会变我也没试过,因为手上只是用了一个账号来做的实验。另外,感觉 token 是假的,我就随便输了个 token ,也是能抓取数据的。
wenyu1001
2016-02-12 19:25:03 +08:00
上 gevent or scrapy, 另外需要 code review 。
mianju
2016-02-12 19:26:16 +08:00
@wenyu1001 多谢指点> <
shyling
2016-02-12 19:27:29 +08:00
为什么我看到性能想入非非= =
mianju
2016-02-12 19:29:51 +08:00
@shyling 这。。。。
itfanr
2016-02-12 20:38:42 +08:00
@shyling 好没出息
Kirscheis
2016-02-12 22:00:32 +08:00
@mianju 原来是这样。测试了一下你的爬虫,图片只下载了前二十张就卡住了 (bug?) 。。。单线程下载爬速确实感人。另外返回的图片 url 可以直接去掉后面的 !300x300 ,这样就可以下载到原图了。
Kirscheis
2016-02-12 22:04:41 +08:00
@mianju 我试试加个多线程功能。另外对方返回的本来就是 serialize 了的 json 格式,感觉可以多保存点信息,比如说直接保存 pretty-print 的 jsonline 文件之类的。。
Kirscheis
2016-02-12 23:02:01 +08:00
发现自己并不会用 python2 。。直接用 scrapy 重构了
icedx
2016-02-12 23:04:22 +08:00
为啥不换个头像呢?
mianju
2016-02-13 00:01:07 +08:00
@Kirscheis 没有吧,我这边是慢慢悠悠的跑完了 9 千多个照片,就是速度慢,括弧哭,非常感谢你的帮助,第一次写爬虫,所以写的很烂,见谅> <
gateswong
2016-02-13 02:09:29 +08:00
性能还好 其实你爬太快的话反而对网站不友好还可能被封
shyling
2016-02-13 02:32:14 +08:00
@itfanr 妈蛋,我怎么没出息了
lijsh
2016-02-13 10:46:50 +08:00
看了下楼主代码,好像 request 用了两次?一次用来求 page 总数,一次用来迭代结果页;感觉可以再打磨一下,结果可不可以一页一页出,像 Generator 那样?
hqs123
2016-02-13 12:54:27 +08:00
楼主很厉害啊
xuxiangyang
2016-02-13 14:01:20 +08:00
楼主你好,从我们群里看到了你的帖子,也看了你的 github 。感觉你是个很不错的同学,有没有兴趣来课程格子玩玩爬虫,做做开发呀?有兴趣的话请给我发邮件: xxy@creatingev.com 课程格子工程师 徐向阳
N4HS3zwwKs7wira0
2016-02-13 14:06:18 +08:00
@xuxiangyang 给多少工资啊 2333
aksoft
2016-02-13 15:46:29 +08:00
亮点是校花
ahxxm
2016-02-13 17:19:14 +08:00
cookies 丢.gitignore 里吧.... 你这么 commit 上去不太安全

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/256195

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX