前文提要
因为有 SEO 需要,翻了一下 github 没有找到能用的工具,发现一个项目 已经是 3 年前的了,没跑起来。索性自己写了脚本。
这个脚本会访问你启动的 spa 服务,查找页面的所有 a 标签,进行访问爬取。爬取的 html 内容会放到以域名为目录的文件夹下。
核心逻辑是根据 user_agent 字段,判断是否是爬虫,如果是爬虫访问,我们就把请求转发到另外一个专门为 bot 启动的 server 。
项目中也附带了 user_agent 判断的 nginx 配置, 可以参考复用。
如果你也有类似的需求,希望能节省你宝贵的时间。🥴
如果需求大的话, 后续考虑会集成插件,一键使用。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/956997
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.