Python - Requests 爬虫爬取亚马逊产品页, Headers 被识别为机器人

我试图抓取亚马逊的产品页面( https://www.amazon.com/dp/B0B6TR2GTJ), 代码如下:


import requests

url = "https://www.amazon.com/dp/B0B6TR2GTJ"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36', 
    'Accept-Language': 'en-US, en;q=0.5'
}
r= requests.get(url, headers = headers)

print(r.status_code)
print("-------------------")
doc = pq(r.text)  

print(doc("title"))
print("-------------------")
print(r.text)

结果如下(被判断为机器人了): Headers 尝试了各种写法, 都是一样的结果.

503
-------------------
<title>Sorry! Something went wrong!</title>
  
-------------------
<!--
        To discuss automated access to Amazon data please contact api-services-support@amazon.com.
        For information about migrating to our APIs refer to our Marketplace APIs at https://developer.amazonservices.com/ref=rm_5_sv, or our Product Advertising API at https://affiliate-program.amazon.com/gp/advertising/api/detail/main.html/ref=rm_5_ac for advertising use cases.
-->
<!doctype html>
......

我爬虫还在初学阶段, 有没有前辈大神帮帮我. 万分感谢

cy1027

2022-10-14 15:06:16 +08:00

简单一点的打开浏览器复制请求头，带上就行，复杂一点的点开 debugger ，找出关键 js ，通过 js 生成对应的 cookie 等参数，加入 headers 里面，再请求就可以了，如果亚马逊对 python 的请求指纹进行了识别，可以用 pycurl 进行请求，什么，你又问 pycurl 怎么用？先安装，再调用就行了！！！

cy1027

2022-10-14 15:13:13 +08:00

@cy1027 当然了，有些 js 会加密，不会直接让你运行，专业点的说法就叫加壳了，这时你就需要脱壳，把 js 的龟壳脱下来，看看他的真容，然后他就会告诉你 cookie 怎么生成了，那么脱壳具体的步骤是什么呢？你可以化身人肉编译器，用眼睛编译一下 js ，在大脑中运行一部分，这时，js 会变成普通的 js 的样子，这个时候你就能认出哪个变量是干什么用的了，这个时候你会发现他的 js 对运行环境进行了检测，你要补充一下运行环境，欺骗一下这个 js ，它就会告诉你正确的 cookie 了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/886930

Python - Requests 爬虫 爬取亚马逊产品页, Headers 被识别为机器人

Python - Requests 爬虫爬取亚马逊产品页, Headers 被识别为机器人