C#爬虫总是只用一个 CPU 核心怎么排查？

需求是每秒查一次 MySQL ，发现有新任务就开始爬数据，速度要求每分钟 1~2 万个网页（内容有时效性，必须尽快爬完，每个网页的响应速度差别很大），解析出需要的数据后存入 MySQL 。（需要爬取的 URL 在程序运行时动态接收并添加到 MySQL 中，超时 /失败则按 MySQL 中的该域名的指定间隔（大部分是 1 秒，也有一些是 1 小时）重试，达到 MySQL 中的指定次数则在 MySQL 中标记失败不再重试）

目前的做法是 async 异步请求（域名超时和重试次数限制用一个缓存模块自动缓存到 Redis ，失败任务如果设置的重试间隔小于一分钟则 Redis 存下次重试时间，否则存 MySQL ，MySQL 查询任务列表的时候用条件过滤没到时间的）+SemaphoreSlim 限制最大同时执行任务数量为 400 （因为有时候一分钟会添加十几万个网页，同时发这么多请求程序会卡死）。发现爬取速度比较慢，查了下 CPU 有一个核心占用 100%，剩下都不到 1%。带宽因为大部分是下行，阿里云共享不知道多大的下行带宽只用了 18Mbps ，独享 7Mbps 上行带宽只用了 2Mbps 。MySQL 用的是阿里云云数据库。Redis 在本机（指爬数据的服务器上）。

被爬网站均没有限流。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/856525

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.