最近在抓取一个网站内容大概有 400 多万条数据
用的是 php 的 curl 但是抓了大概 800 多条就出现 couldn`t connect to host
谷歌了下有说伪造 IP curl_setopt($ch,CURLOPT_HTTPHEADER,$header);
但是也是没用 出现这个错误时等过段时间又可以访问 不清楚这是为什么
还有棘手的问题就是网站没有接口 它使用 thinkphp 模板生成 只能抓网页
太频繁访问会有验证码 v 友有这方面的经验吗 求指教
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.