分析百度贴吧的网页规律, 请求如:http://tieba.baidu.com/f?kw=%E4%B8%AD%E8%80%83&pn={}.format(187450)类似的网页
在浏览器中打开没有需要验证码,为什么爬取的时候需要验证码呢?
<!DOCTYPE html>
<html lang="zh-cn">
<head>
<meta charset="utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width, initial-scale=1"> <meta name="format-detection" content="telephone=no">
<title>验证码</title>
<link rel="stylesheet" type="text/css" href="http://tb1.bdstatic.com/tb/_/cui/frscaptcha/node_modules/tb-captcha/node_modules/tb-icon/lib/font_af3f10d.css" />
<link rel="stylesheet" type="text/css" href="http://tb1.bdstatic.com/tb/_/cui/frscaptcha/node_modules/tb-captcha/lib/captcha/core/index_6cc78b2.css" />
<link rel="stylesheet" type="text/css" href="http://tb1.bdstatic.com/tb/_/cui/frscaptcha/routes/home/index_1357dd3.css" />
<link rel="stylesheet" type="text/css" href="http://tb1.bdstatic.com/tb/_/cui/frscaptcha/index_75e7e66.css" />
</head>
<body>
<div id="react-dom"></div>
<script type="text/javascript" src="http://tb1.bdstatic.com/tb/_/cui/frscaptcha/mod_c630892.js"></script>
<script type="text/javascript">!function(){var e=500,t=function(){var t=document.documentElement.clientWidth/e;t=screen.width/e;var n=document.querySelector('meta[name="viewport"]');n.setAttribute("content","width="+e+",initial-scale="+t+",maximum-scale="+t+", minimum-scale="+t+",user-scalable=no,target-densitydpi=device-dpi")};t(),window.onload=function(){document.documentElement.clientWidth>750&&(document.getElementById("react-dom").style.margin="0 auto",document.getElementById("react-dom").style.width=e+"px")}}();</script>
<script type="text/javascript" src="http://tb1.bdstatic.com/tb/_/cui/frscaptcha/pkg/aio_1436556.js"></script>
</body></html>
**之前用网上的所谓高匿代理,然后用 python 代码检测是否为高匿名,结果发现 100 个中有 1~2 个高匿。。。之前爬 tieba 的时候,以为自己用了高匿名,就没有加 sleep 并启用了多进程,我主机的 ip 应该就封了。。。
**但是现在用检测好的高匿名代理,去爬网站,也是要输入验证码呀,这是怎回事呢?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.