有没有开源爬虫能提取到标题跟页面的 url 实现入库

2020-07-08 03:24:47 +08:00
 leihongjiang

可以自己写规则 每天要浏览大量的页面 确实太累了啊。 希望可以找到一款工具可以聚合浏览。 因为每天都需要浏览好多个网站的最新文章 所以希望能找个工具代替一下 也希望能够通过自己搜索关键字 来展现爬取到的内容。 不需要爬取内容,只需要 url 跟标题就可以了,然后根据自己的需求浏览

1913 次点击
所在节点    程序员
9 条回复
tangtaorong
2020-07-08 08:54:56 +08:00
其实你要的就是 gg 或者百度
nightwitch
2020-07-08 10:32:30 +08:00
开源的框架不太清楚,商业的实现我知道一个,八爪鱼,鼠标点点点设立规则就行。
iamverylovely
2020-07-08 10:48:51 +08:00
你蛮懒耶。
renmu123
2020-07-08 10:57:38 +08:00
你需要 rss
leihongjiang
2020-07-08 11:52:43 +08:00
@renmu123 找了很久都没有
leihongjiang
2020-07-08 11:53:01 +08:00
@iamverylovely 不是懒 是工作量太大了啊
leihongjiang
2020-07-08 11:53:32 +08:00
@renmu123 有些站点没有 rss 啊
iamverylovely
2020-07-08 11:56:17 +08:00
@leihongjiang 看你的描述,感觉自己写出来不难啊
lemonEssence
2020-07-08 13:47:45 +08:00
Web Scraper

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/688083

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX