浏览器 F12 调试模式 -> 网络 -> 找到网站请求的 url 右键 -> 复制->复制为 cURL(bash) 会得到这样的代码
curl '
http://www.chinadrugtrials.org.cn/clinicaltrials.searchlistdetail.dhtml?id=eb6173d1faf4447bb8e69aaca2547d09' \
-H 'Connection: keep-alive' \
-H 'Pragma: no-cache' \
-H 'Cache-Control: no-cache' \
-H 'DNT: 1' \
-H 'Upgrade-Insecure-Requests: 1' \
-H 'User-Agent: *****' \
-H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9' \
-H 'Referer:
http://www.chinadrugtrials.org.cn/clinicaltrials.searchlistdetail.dhtml?id=eb6173d1faf4447bb8e69aaca2547d09' \
-H 'Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6' \
-H 'Cookie: *****' \
--compressed \
--insecure
然后到 bash 里粘贴运行 发现拿到的页面数据是只是加密的 js, 也就意味着网页是客户端动态渲染的. 想抓取 那么得在爬数据前用 Selenium WebDriver 这类浏览器自动化的工具或浏览器源码定制开发渲染层或直接基于这样的工具或浏览器源码开发爬虫, 基于浏览器自动化工具开发爬虫最快.