如何将自己的 csdn 博客爬虫下来?

2020-02-24 13:31:29 +08:00
 amiwrong123

昨天突然觉得,博客还是本地有一个备份比较好。

然后发现 csdn 自带的 markdown 导出的 md 文件是好用的,

只不过里面的图片是在 csdn 的图床里,我再把图片下载下来,再把 md 文件的图片从链接改成本地图片就好了。

除了大部分的文章是 markdown 写的外,还有小部分是用 html 编辑器写的(这种文章点击编辑,只能进入 html 编辑器,而且这个编辑器没有导出选项)。

现在大概思路是模拟自己登陆,然后点击文章编辑,能进入 markdown 编辑器的,就模拟点击那个导出按钮;进入 html 编辑器的,这种该怎么处理呢?

各位大佬帮忙指点下,这个思路应该对吧?爬虫估计得用 py 吧,本人用过 py 刷过算法题(大概就是常用数据结构、简单处理过文本),但从来没有用来爬虫,这几天先看看 GitHub,有没有什么现成的学习一下

1186 次点击
所在节点    问与答
2 条回复
miao
2020-02-24 13:45:28 +08:00
火车头
ysc3839
2020-02-24 13:47:46 +08:00
这操作用浏览器开发者工具执行 js 脚本应该也能完成。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/647074

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX