[爬虫求助]像这种数据生成图片的怎么爬?

2016-07-21 16:47:28 +08:00
 fusae

比如这个学校课程表

9148 次点击
所在节点    Python
57 条回复
fusae
2016-07-21 21:58:49 +08:00
@beibeijia 不是验证码的问题,是它的课表是直接甩你一张图片,一点文字都不给我
beibeijia
2016-07-21 22:12:23 +08:00
@fusae 哦,抱歉,没看清问题(拍脑)。
ryan93
2016-07-21 22:35:08 +08:00
校友+1 ,你还记得有个微哨应用设计大赛吗?不过那都是几年前的事情了。
fusae
2016-07-21 22:42:38 +08:00
@ryan93 微哨死得很惨,现在还有人用它吗?
ryan93
2016-07-21 23:31:30 +08:00
@fusae 只是一个内网聊天工具,再说当年实验室和宿舍区网络没断开的日子里,内网资源发展得挺不错(例如 GNU/Linux 协会),自己写一个网页版的聊天应用也不是什么难事。现在实验室与宿舍网路不能相通(除在 172.31.*.*网段搭桥外),少了当年挖掘内网的乐趣了,不得不说有点令人伤感。
fusae
2016-07-21 23:54:30 +08:00
@ryan93 现在就自己带本本去实验室咯
momou
2016-07-22 00:29:02 +08:00
https://github.com/feifei435/tit-client
青果教务管理登录和学校官网新闻阅读的客户端

慢慢研究
vmebeh
2016-07-22 01:18:05 +08:00
格式二是不是包含了全部科目,如果用相似度会不会更快点
upczww
2016-07-22 07:39:20 +08:00
强智有没有人爬过?
lneoi
2016-07-22 08:54:50 +08:00
这验证码...每个字符颜色不一样字符也独立 靠色值过滤应该可以直接定出大部分范围
要爬成文字, 这个图片质量太差, 昨天还看到百度推出 orc 接口 试试那个?
m939594960
2016-07-22 09:06:39 +08:00
直接把图爬下来不好么。。。。
fusae
2016-07-22 09:38:17 +08:00
@vmebeh 什么是相似度?
fusae
2016-07-22 09:59:55 +08:00
我想到一个,不知道可不可行。它前面不是有个“课程课表”吗,现在我要爬的是“班级课表”,参数是“学年学期”和“具体班级”,而“课程课表”的参数是“学年学期”和“具体课程”。那么我是不是可以根据选定的学年学期把该学年学期的所有具体课程都爬一遍,若是该课程包含“具体班级”,那么就是证明“具体班级”在该学年学期有上这门课!这样自己把图里面的数据重新生成了一遍。
scnace
2016-07-22 10:13:45 +08:00
233 爬方正路过 还好没这个这么变态(
fusae
2016-07-22 10:20:41 +08:00
@scnace 为什么这么变态而那些大学助手都能爬下来的?
scnace
2016-07-22 12:47:50 +08:00
@fusae 方正感觉还好啊。。。
davidlau
2016-07-22 13:01:35 +08:00
用 OpenCV: 去噪点----->二值化----->把字符图像抠出来
然后用 CNN 一类的工具去做 OCR
practicer
2016-07-22 14:35:39 +08:00
@davidlau
@fusae
@beibeijia
@JayaOcean
按你们 refer 的方法试了一下,验证码的问题用 pillow 解决解决了,那 iframe 里的内容怎么获取?找数据源还是 selenium+phantomJS 模拟鼠标事件?
former
2016-07-22 15:28:40 +08:00
生成图片的 url 不能直接爬啊
Wy4q3489O1z996QO
2016-07-22 16:30:21 +08:00
歪个楼,这系统也太业界良心了,就本分的做好本职功能就好了嘛,有人爬就好好的让人爬嘛。
是什么驱使它废了这么大力气做的这么“完善”呢?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/293984

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX