写了一个小爬虫,给大家分享一下

2019-02-21 11:05:44 +08:00
 roothub

作用

可以爬取文章的标题、头图、正文、作者名称、作者头像、摘录。

支持将爬取的数据保存到数据库,并将图片上传到对象存储,替换原来的图片链接。

预览

Github

article-spider

如果对您有帮助的话,请点个 star,谢谢啦。

3473 次点击
所在节点    分享创造
11 条回复
zdb1115
2019-02-21 13:04:03 +08:00
点了 star,谢谢分享。
roothub
2019-02-21 14:07:46 +08:00
@zdb1115 谢谢~
DoraMouse
2019-02-21 14:54:17 +08:00
已 start
jisibencom
2019-02-21 16:34:32 +08:00
这个还有通用的?每个采集点结构不同吧。。。还没用
omph
2019-02-21 17:07:06 +08:00
定位为小工具,为了保持通用,简单的单文件可能更好
roothub
2019-02-21 18:05:49 +08:00
@DoraMouse 谢谢~
roothub
2019-02-21 18:08:57 +08:00
@jisibencom 根据配置的 DOM 来采集的
roothub
2019-02-21 18:09:10 +08:00
@omph 好建议
luckbbs
2019-02-22 07:19:01 +08:00
已 start
roothub
2019-02-22 09:23:16 +08:00
@luckbbs 谢谢~
QDavid
2019-02-22 16:16:08 +08:00
@luckbbs #9 老哥故意拼错 star 的?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/537160

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX