你写爬虫的目的是什么?

2014-03-25 20:55:01 +08:00
 kehr
相信许多人都写过自己的网络爬虫。说说促使你写爬虫的目的是什么?用到了那些技术和工具?留下地址大家围观一下 ~\(^o^)/~
11471 次点击
所在节点    程序员
59 条回复
kehr
2014-03-26 13:40:32 +08:00
@vilic 如果要爬外网无法访问的,有什么解决方法木有?
wtbhk
2014-03-26 13:58:21 +08:00
爬教务处的课表、成绩、补考、饭卡余额明细等。教务处太渣,爬下数据来重新组织排版缓存再给学生使用,还可以提供移动端访问。
ChiangDi
2014-03-26 14:02:47 +08:00
无聊。
vilic
2014-03-26 14:07:05 +08:00
@kehr 用客户端访问咯, 然后服务器解析或者直接客户端解析就好了.
moondark
2014-03-26 14:24:01 +08:00
爬我校BBS,完成课程作业
WildCat
2014-03-26 14:25:36 +08:00
@vilic
@Amoscoder
只能查自己的成绩和课表,怎么爬别人的?
BackBox
2014-03-26 14:48:46 +08:00
@Amoscoder 怎么处理验证码?
fange01
2014-03-26 15:04:11 +08:00
@paicha 求共享源码。
Actrace
2014-03-26 15:43:04 +08:00
用PHP写爬虫做了个网页搜索,code.so
Amoscoder
2014-03-26 16:06:15 +08:00
@WildCat 这个没办法吧,只能用别人的账号模拟登陆
Amoscoder
2014-03-26 16:09:48 +08:00
@BackBox 可以试下tesseract+imagemagick
Amoscoder
2014-03-26 16:10:52 +08:00
@kehr 大部分教务系统还是可以外网访问的,内网的估计悬。
yangxin0
2014-03-26 17:04:32 +08:00
公司手游做猜球活动, 写了一个爬虫去爬实时比分数据。
kslr
2014-03-26 17:12:54 +08:00
爬xx种子,然后在本地建立数据库。
kavi
2014-03-26 17:28:10 +08:00
爬美女图,放在微信公众平台上
airyland
2014-03-26 17:35:42 +08:00
@paicha 如何采集公众号的数据?
paicha
2014-03-26 19:03:46 +08:00
@WildCat
@fange01

水平太差就不好意思放源码啦,大致流程就是:
获取学号密码——模拟登录——抓取成绩页面——正则提取数据——返回消息到微信。

模拟登录的数据我是用 Chrome 开发者工具分析的,然后构造数据 POST 登录。(我们学校教务平台没验证码,所以可以3秒内完成查询)。

贴个流程图:


@airyland
采集公众号的数据?什么意思
WildCat
2014-03-26 19:30:09 +08:00
@paicha 我们有验证码,麻烦了
xi4oh4o
2014-03-26 19:35:52 +08:00
好用的库
nokogirl
phpquery
用过这些

curl+regular exp写过模拟登录pixiv,目的是分享自己帐号收藏的用户发布的作品。
paicha
2014-03-26 19:40:46 +08:00
@WildCat
要么试试有什么工具库可以识别,效率的话不知道可以不可以在微信5秒规定内完成。再者就看看能不能绕过验证码。入侵数据库也是一个……不过太危险了。
这方面没什么经验,只能说一些想法~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/105871

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX