爬虫的极限是什么?

2022-03-15 21:16:06 +08:00
 huobi98988

单从技术层面讨论:

超顶尖的爬虫技术能否取得 APP (网页) 没有公开的数据 ? 例如访客的联系电话

5137 次点击
所在节点    Python
27 条回复
luckyrayyy
2022-03-15 21:17:45 +08:00
极限不就是 Google 么
Cielsky
2022-03-15 21:17:55 +08:00
你说这个叫爬虫吗
ch2
2022-03-15 21:18:38 +08:00
那是黑客,不叫爬虫,爬虫跟人肉抄网页的最终结果一样
ciqulover
2022-03-15 21:20:13 +08:00
如果连访客联系电话都能爬到,那大概站长的数据的还没你多
pengtdyd
2022-03-15 21:23:13 +08:00
爬虫的极限是哲学!!!《论爬虫如何最大化爬取数据而不被反爬》
sleeepyy
2022-03-15 21:26:05 +08:00
极限就是最大程度地模拟一个正常用户的操作,所有人可以看到的内容都可以爬到
abc0123xyz
2022-03-15 21:38:13 +08:00
单从现实层面讨论:
包吃包住🤣
huobi98988
2022-03-15 21:39:43 +08:00
@abc0123xyz 什么意思?
joyhub2140
2022-03-15 21:45:50 +08:00
@huobi98988 意思就是进牢子,睡铁床,吃皇家饭
fml87
2022-03-15 21:49:20 +08:00
最多就是扫一遍端口,再用常用字典扫一遍网站目录,更进一步的就不是爬虫了
abc0123xyz
2022-03-15 21:50:47 +08:00
@huobi98988 附赠银手镯一对,再也不会熬夜了,天天早睡早起😁
还能学点新技术,比如
lithiumii
2022-03-15 23:23:03 +08:00
分情况讨论。有些网页没公开的数据实际上已经发给前端了,这时候爬虫显然可以。但电话等敏感数据,正常点的开发团队不至于犯这种错误
Dart
2022-03-15 23:26:29 +08:00
爬虫的天花板是天眼查
IvanLi127
2022-03-15 23:33:50 +08:00
能啊,这有啥不能的。。。爬虫又不是不能用账号密码用白名单 ip 爬后台页面,是吧。。。
kingfalse
2022-03-16 07:36:12 +08:00
你这个不是爬虫,前几年根据用户手机壳的颜色改变 app 主题色的需求就是你提出来的吧?
kingfalse
2022-03-16 07:37:47 +08:00
要联系方式的话去抓天眼查,企查查,分分钟搞几个亿出来
musi
2022-03-16 09:11:45 +08:00
极限应该能把牢底坐穿?
guaguaguaxia1
2022-03-16 09:19:12 +08:00
你这问题提得就跟没学过爬虫一样
advancejar
2022-03-16 09:39:33 +08:00
昨天 315 新闻刚出
ebushicao
2022-03-16 10:46:52 +08:00
你能问出这个问题,说明你连爬虫是啥都不太明白...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/840593

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX