天眼查爬虫新姿势

2019-11-21 14:55:05 +08:00
 spiderGgl

今天偶然逛了逛 GITHUB 发现个项目,由此发现一种爬虫的新姿势.

GITHUB 地址如下: https://github.com/thorn5918/tianyancha

追踪到另一个人的 csdn 博客,也就是我最感兴趣的东西。 地址如下: https://blog.csdn.net/ggl1438/article/details/102837903

一、天眼查 8.5 版本的 app 可以抓包

二、当测试加密值可以使用的情况下,二次利用加密值

三、利用自动化神器 Autojs 来驱动 app 点击等操作,产生新的请求,从请求中拿到加密值

以上就是思路,可是我搭建过程中发现几个事情。

1.天眼查服务器会不响应我的请求,换个 ip 就行。

2.天眼查 app 会存在进程杀不死的情况,我多开 app 造成手机卡死,于是乎想到可以利用开发者模式限制只有几个进程运行。

7741 次点击
所在节点    Python
25 条回复
dreamerlv3ex
2019-11-21 15:19:05 +08:00
思路很棒,爬虫需小心
spiderGgl
2019-11-21 15:24:14 +08:00
他这思路很牛,还开放了个接口,正在跟他谈兼职的事情。
爬虫的生存空间越发狭小。
opengps
2019-11-21 15:26:27 +08:00
爬虫要把爬虫爬死的感觉😀
spiderGgl
2019-11-21 15:31:49 +08:00
@opengps 市场乱了,死了一批后需求竟然更大了。
Randall
2019-11-21 15:35:29 +08:00
聪明
springGun
2019-11-21 15:37:07 +08:00
哥们,你不会是我前同事吧?bz
Vegetable
2019-11-21 15:37:13 +08:00
和我现在做的项目思路一样的,我觉得一点也不高端,是在实在走投无路的情况下才选择的这套方案

"这签名太难搞了,还是模拟 /代理吧"

手机端是 adb shell am start shcema://path 的方式或者其他效率低一些的自动手段,客户端代理到 mitmproxy 或者 anyproxy 之类的代理服务器上,监听网络请求,盗用签名或者直接通过这种低效的方式获取数据.
pc 网页的签名如果实在破不了的话,也可以折中用浏览器+外部 js(油猴 /代理注入 /selemium 执行).
这套方案的优势是工作量小,缺点就是效率太低了
Vegetable
2019-11-21 15:41:08 +08:00
哦,我们手机还是基于 asyncio+adb 的集群呢 /狗头
spiderGgl
2019-11-21 15:43:52 +08:00
@Vegetable 效率是低了点,天眼查的 app 我也试了,卡在爱加密上。不过听他的意思是已经破了 app。

@Randall 嘿嘿

@springGun 万一呢,哈哈
Vegetable
2019-11-21 15:47:01 +08:00
@spiderGgl 破解 app 听起来美好,但是变换加密策略的成本比破解的成本低多了,生产上的东西很担心突然不能用,这套方案虽然效率低,但是可用性的确是能得到保证.
ClericPy
2019-11-21 15:49:09 +08:00
逆向 app 拿签名虽然不太麻烦, 就是要进去坐 2 到 5 年有点费时间
moult
2019-11-21 15:49:36 +08:00
本是同根生,相煎何太急!
apktool
2019-11-21 15:53:04 +08:00
爬虫现在 非正常的抓取都有可能进去,特别是破解,法务对这个都声明好几次,祝好
spiderGgl
2019-11-21 15:54:40 +08:00
@ClericPy 老哥,好像真的犯法。不过可以避免,用 arm 服务器去虚拟化运行 app,就不涉及破解啊|侵犯著作权什么的。

@moult 就是感觉这种做法太赞了,没有说侵犯天眼查权益。

@Vegetable 对于公司而言,破解成本的确高,这种方法还有弊端,万一封了 8.5 版本的 app,你就抓不到包了。
spiderGgl
2019-11-21 15:58:39 +08:00
@apktool 对的对的,我碰到瑞数后就辞职了。爬虫太难了,还承担着风险
ClericPy
2019-11-21 16:05:10 +08:00
@spiderGgl #14 很多东西, 民不告官不究, 我只是说前面那些提到逆向的人, 你给的这套是常规自动化加中间人的, 以前用过类似的真机上用 adb 唤起拿 token 的方式, 一个原理, 不过用的是 tasker 写出来的 app. 现在爬虫不好干, 赶紧转行溜了, 想起以前别人的那句: 爬虫难不是难在怎么抓的快, 难在怎么抓的慢... 亏我之前各种调研哪个 http 库性能高, 发现 aiohttp 有 C 加成超过很多其他的库, 然后 golang 的内置库又给我刷新三观... 溜了
szpShang
2019-11-21 16:07:57 +08:00
1.登陆天眼查网站
2.破解滑动验证码
3.输入免费短信的手机号。
4.从免费短信网站中抓取验证码
5.登入网站
6.搜索需要的企业
7.抓取相关的信息
重复 6-7 操作
隔半个小时
8.主动退出
9.停止服务
10.重拨宽带账号切换 ip
11.启动服务
从 1 的操作重新执行
已经退出爬虫圈,怕被抓。
murmur
2019-11-21 16:11:49 +08:00
天眼查前几天还在招爬虫工程师,为什么他就不担心被起诉
spiderGgl
2019-11-21 16:21:47 +08:00
@murmur 他这种思路不会被起诉把,无非就是多用了几个手机,不涉及破解什么的
passerbytiny
2019-11-21 16:22:09 +08:00
动机:获取别人加密(即不想让你获取)的数据。
手段:自动化程序模拟自然人操作,并且在服务器封禁 IP 后更换 IP 继续。

如果拿到的数据又没在 24 小时只能删除的话,证据够了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/621766

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX