- 1.通过 User-agent 判断是否为爬虫访问。如果是则通过反向代理或者其他程序代理到一个专门为爬虫准备的服务
- 2.自己通过 nodeJs+puppeteer 或则模拟浏览器访问我们的项目然后返回渲染完成好的 HTML。
下面列出了一些常见的爬虫 agent
User-agent: Googlebot
User-agent: Googlebot-Image
User-agent: Baiduspider-news
User-agent: Baiduspider
User-agent: Baiduspider-image
User-agent: Sosospider
User-agent: bingbot
User-agent: 360Spider
User-agent: HaosouSpider
User-agent: yisouspider
User-agent: YoudaoBot
User-agent: Sogou Orion spider
User-agent: Sogou News Spider
User-agent: Sogou blog
User-agent: Sogou spider2
User-agent: Sogou inst spider
User-agent: Sogou web spider
User-agent: EasouSpider
User-agent: MSNBot
User-agent: ChinasoSpider