其实。。。还没有发布,先做个调查
原理很简单,无非就是请求一下文章地址,然后解析 HTML ,把文章内容提取处理后再导入
前段时间因为要爬取大量的公众号文章,用了朋友在 GitHub 上写的微信公众号爬虫 (基于中间人攻击的爬虫核心实现,支持批量爬取公众号所有历史文章)项目,但是爬取完之后需要对这些文章进行处理,而我用的是 Wordpress 搭建的项目,所以为了方便就自己写了一个简单的插件,之前因为只是自己用,所以界面也很简单粗暴,今天开始完善,估计这几天可以搞定,下面是基本的界面
深入交流请扫码,爬虫作者也在,对爬虫有兴趣你们也可以找他谈笑风生(无法加入?请加我微信 always-bee)
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.