对于 Python 爬虫遇到一个问题,对于这样一个网站: www.icgoo.net,它好像是异步加载的,需要的型号数据在 XHR 里的 html 语句里,设置了 csrftoken。请问要什么方案爬取比较好呢?先谢谢打大家了

2018-03-13 17:14:24 +08:00
 sr0miao
3640 次点击
所在节点    Python
11 条回复
cdwyd
2018-03-13 17:23:24 +08:00
获取 csrftoken 然后抓就是了
sr0miao
2018-03-13 17:29:39 +08:00
@cdwyd 请问如何获取呢
Mojy
2018-03-13 17:48:19 +08:00
最简单的方式是通过模拟浏览器的方式进行爬虫,缺点就是稍微有点慢,需要等到页面加载完成才好
cokky
2018-03-13 18:07:07 +08:00
用 phantomjs 模拟浏览器方式来试试
Nick2VIPUser
2018-03-13 18:11:25 +08:00
点进 chrome 里面的 Source,到?partno=ADIS16251ACCZ&qty=1 这个 page 里面搜索 token 字段,把 token 出现的地方打断点调试,边调试边读 js 代码的实现,token 初始值多少经过什么代码变成了什么样子,最后算出来是多少。然后使用 python 代码实现~
welkinzh
2018-03-13 18:14:23 +08:00
五楼的方法是对的,不过如果处理 token 的 js 比较恶心的话就很麻烦,想简单就用 PhantomJS
locoz
2018-03-13 21:36:56 +08:00
逆向自己实现加密 /抠 js 加密部分出来运行 /模拟浏览器
fsdman1216
2018-03-14 10:18:56 +08:00
selenium + webdriver
noqwerty
2018-03-15 03:11:42 +08:00
requests-html 了解一下
wc110302
2019-03-14 18:12:21 +08:00
https://blog.csdn.net/qq_39802740/article/details/88557981 我最近写了个爬虫~ 好像就是这个 icgoo 的 哈哈 不过是 366 天前的了
sr0miao
2019-03-15 09:51:26 +08:00
@wc110302 哈哈,366 天前我还在实习呢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/437678

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX