讨论一个关闭爬虫的脑洞问题

2017-09-25 14:19:02 +08:00
 K1W1

最近在写爬虫,那些简单的还好,稍等有点安全意识的网站,都是 https + 一大堆 js 加密算法。而且每个网站都不相同。这太耗时间与精力了。
所以我在想有没有 python 框架,可以实现内嵌一个浏览器,这个浏览器要支持方法调用,比如传个地址,修改某些表单 dom 的数据。而且还能拿到页面的内容。我查了一下 Python 内嵌浏览器还是有的,但是可能不支持调用。获得数据可以通过 python 实现一个代理服务器来拿。
请问各位大神有没有相应的框架或者思路?
我发现谷歌有几款插件支持类似的功能,但是我还想 python 原生实现 插件

6492 次点击
所在节点    Python
28 条回复
yankebupt
2017-09-25 19:48:47 +08:00
@K1W1
目前只用多个账号都不行,得多个账号配合多地点 ISP 接入+定位配合多设备串号...
我 ios 装过一次闲鱼,卸载清空都不行,重装换 appleid 之后原来的推荐不消除...
K1W1
2017-09-25 20:08:56 +08:00
@yankebupt #21 我服,这也是绝了
mooncakejs
2017-09-25 20:25:35 +08:00
此种高级的爬虫还是用 js 写吧。 headless 浏览器或者 chrome 插件。
nVic
2017-09-25 20:53:06 +08:00
@yankebupt 记得霍炬有一篇文章,互联网完了。互联网现在基本已经中心化了,正在朝着文章中的方向走。
kltt22
2017-09-26 08:51:40 +08:00
PhantomJS 效率太差了,要是数据量少的话还行,上百万就很要命了。
K1W1
2017-09-26 09:15:06 +08:00
@kltt22 #25 并且这个项目已经很少维护了,还是 headless 比较有发展
shawndev
2017-09-28 01:15:21 +08:00
selenium + chrome headless mode
shawndev
2017-09-28 01:19:01 +08:00
@yankebupt
可以观察几项内容,是不是写入了 keychain ?
是不是通过 safari controller 写入了 cookie 来记录状态?
是不是通过 app group 保存了相关记录?
尝试清除隐私信息来重置 idfa 看看有没有变化。
如果没有,尝试更换 Wifi 和 IP 地址重新访问。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/393439

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX