V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Nick2VIPUser  ›  全部回复第 22 页 / 共 23 页
回复总数  456
1 ... 14  15  16  17  18  19  20  21  22  23  
markdown 显示不成功。。。大家将就先看,谢谢了!
2018-01-04 20:51:46 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@WuMingyu 好的,谢谢!今天一天收获了好多好东西😁
2018-01-04 20:50:43 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@anasplrt34 您很幽默,说到点上了,我折腾了一天,现在才想清楚,不过收获很大,谢谢!!
2018-01-04 20:49:10 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@qsnow6 谢谢🙏!!
2018-01-04 19:03:42 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@qsnow6 您是否了解质量好点的代理 ip,如果方便透露可以讲一下,目前付费购买的这家感觉质量还是提不上来...
2018-01-04 18:11:23 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@gouchaoer 硬性条件没有提升起来呀,如果不考虑其他要花钱 /额外设备的条件,固定一台主机固定带宽,如果要增加速度还有什么办法?
2018-01-04 18:09:32 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@2ME 有道理,我增加额外的 ip 代理测试一下,感谢!
2018-01-04 18:07:54 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@Zzzzzzzzz
@windfarer
目前还没有用 scrapy,并发太高,怕抓回来一堆异常。也在慢慢的加并发量,尽量不给网站造成太大压力。
2018-01-04 17:14:34 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@2ME 除了 sleep,还设置了 Connect time out 和 Read time out ( Proxy Connect time out 异常较少),同时也发现 Read time out 频繁发生,是否是从代理 ip 读取数据的时候超时,也就意味代理发送请求失败或者回传给本地失败?
2018-01-04 16:58:54 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@qsnow6
@lhx2008
@bazingaterry
这个网站产生的详情页面的 url 和 cookie 有效期都很短,
针对同一个 cookie 在短时间内高频率(大概是小于 1 次 /1s )的访问会立即失效
大概是用来区分是否是机器人

其实为什么每秒才爬一个,是因为对于 10 个线程每个线程都做了延时。每个线程获得一个新的 cookie 后每次请求都会间隔 3 秒,否则就会大量的报异常。这样的话,整体来说最优的情况每秒也只发出了 3 个请求,还没算上`去重入库解析异常处理`的时间。

现在思路也比较清晰,就是提高并发量,尝试加了线程和进程,并没有效果。
所以在研究把异步网络加上来。
2018-01-04 16:39:18 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@luodaoyi
代理 /断点续爬 /去重都做了,非阻塞的意思就是用协程或是异步?我去看看您发的链接 谢谢
2018-01-04 16:37:43 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@qsnow6 不知道是不是线程一多了网络堵塞导致的采集速度过慢。
2018-01-04 16:35:56 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@zhchyu999
这个为什么会被吐槽呀?公司有自己的代理池,但是数量较少;目标站点反爬策略比较敏感,所以使用付费的代理 IP 池,每次请求都会使用不同的 IP。
2018-01-04 14:25:17 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@qsnow6
谢谢您,主要想提升采集速度,测试过 10/15/20 个线程的采集速度,结果发现 10 个线程的采集速度是最快的,非常困惑。这里每次请求都使用不同的经过测试的代理 IP,不知道是不是带宽限制导致。
2018-01-04 14:23:06 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@BiggerLonger
requests 换为 frequests 的话代码可能会变动比较大吧?刚刚只是粗略的看了一下 frequests 的 demo。
2018-01-04 14:21:26 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@dhcn
这个框架没用使用过,会考虑了解一下特性以作比较!谢谢!
2018-01-04 14:20:47 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@exiaohao
@so1n
实际上我才使用十几个线程并发,cpu 资源远远够用,感觉可能是并发请求量或者是带宽的问题。
2018-01-04 14:17:18 +08:00
回复了 Nick2VIPUser 创建的主题 程序员 (请教)如何提高爬虫的效率/采集速度
@ilovebaicai
@wzwwzw
非常感谢,我尝试分别用 scrapy 和 async/await 做一下测试,然后再对比一下效率!
@Lpl
@momocraft
我尝试一下 screen 和 tmux,谢谢啦!!
@Nick 你好 Ncik...哈哈哈
1 ... 14  15  16  17  18  19  20  21  22  23  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2622 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 19ms · UTC 15:32 · PVG 23:32 · LAX 08:32 · JFK 11:32
Developed with CodeLauncher
♥ Do have faith in what you're doing.