Cy86's recent timeline updates
Cy86

Cy86

V2EX member #316181, joined on 2018-05-14 04:55:35 +08:00
Cy86's recent replies
Sep 9, 2025
Replied to a topic by SayHelloHi 生活 兄弟们 跪求 有用的灭蟑螂药~~
别买假了, 我之前住的地方很多蟑螂, 蟑螂药他们都当零食吃
@iorilu 那还是得上手干, 遇到问题处理完了之后再总结出一个通用方案, 爬虫最需要考虑的是反爬, 其他的都比较简单,没太多需要考虑的
楼主不理我,我再捞一下, 目前我负责的爬虫抓取量每天在百万级, 月抓取量在亿级,主做舆情的
推荐:
百条用 requests 就行
几十万条有时效性就 aiohttp
同一个网站大量数据, scrapy 和 feapder 都可以
上亿条自己开发爬虫框架
你说的这几个问题: 访问限制, 需要登陆, 代理轮询, 执行 js, 错误重试
访问限制, 需要登陆: 对于反爬都是针对目标单独定制的,市面上没有能包含所有反爬的的框架
代理轮询最简单的就自己整个队列, 每次爬虫轮着取代理 ip, 对于账号绑定 IP 的,就单独开个服务针对要爬的渠道固定 IP
执行 js 可以单独作为一个服务旁运行, 需要执行的 js 扔进去只关注返回结果就好

感觉你可以说说你的整体目标是啥
我觉得 requests 应该够了吧, 直接把接口抓出来比较简单,我最近也在鼓捣爬虫练手, 你这是要爬啥网站呢
把这活儿外包出去, 嘴上说让他们手动点击(后端是爬虫), 速度别太快, 这样你就安全了
May 20, 2024
Replied to a topic by Cy86 Python Python 爬虫并发极限是多少呢?
@macaodoll #29 感谢建议, 目前只是突然想到了技术上的问题, 在纠结 Python 为啥并发上不去, 卡点在哪
May 20, 2024
Replied to a topic by Cy86 Python Python 爬虫并发极限是多少呢?
@shanyaoxingtong #31 后面接了 5 家的代理池, 每天的总请求 13 亿, qps 能达到 15K, 咱们先讨论技术再讨论代理
May 20, 2024
Replied to a topic by Cy86 Python Python 爬虫并发极限是多少呢?
@chengxiao #28 每错是舆情
May 14, 2024
Replied to a topic by Cy86 Python Python 爬虫并发极限是多少呢?
@chengxiao #26 日常监控 30 万个网站的更新, 每 5 分钟跑一次, 不需要账号和风控, 单站点请求一分钟一次都没有
@fkdtz #42 哦哦, 我以为你用了啥放大原理, 用很小的流量大比如 1:100 打他, 我这是杀敌 1000, 自损 1000
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5380 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms · UTC 08:25 · PVG 16:25 · LAX 01:25 · JFK 04:25
♥ Do have faith in what you're doing.