有个新需求很头大来这求教。

2018-12-14 15:06:21 +08:00

zarte

任意添加网站一般是论坛，爬虫每天根据关键词爬取帖子（整个页面应该也行）。
问题:1 不同网站如何爬?目前想的是手动添加内容和分页的 xpath （实际用起来貌似也会有问题）。
2.帖子的日期如何获取
3.如何不重复爬取。

这种需求的难度：低中高？

1452 次点击

所在节点

11 条回复

Bryan0Z

2018-12-14 16:27:47 +08:00

一个爬虫爬遍任意网站？有点厉害

wly19960911

2018-12-14 16:32:17 +08:00

是超高

jinksw

2018-12-14 16:49:40 +08:00

添加网站的时候让他给你然后你挨个添加规则分页规则内容规则日期规则唯一性规则

zarte

2018-12-14 16:59:15 +08:00

@jinksw 嗯，先按这个弄

a62527776a

2018-12-14 17:09:01 +08:00

那以后每天的工作就是研究各个网站的规则了 →。→

maplelin

2018-12-14 17:40:04 +08:00

这是让你去造高达吧

Kinnice

2018-12-14 17:49:24 +08:00

爬虫框架 5k，规则 1k 一条可持续收入 /滑稽

limuyan44

2018-12-14 17:50:45 +08:00

ai 啊，添加一条数据后给你发短信，你把代码写好在放上去，最重要的是要按网址收费。。

zarte

2018-12-14 19:07:35 +08:00

@a62527776a 不愁没工时了(｀・ω・´)

zarte

2018-12-14 19:08:36 +08:00

@maplelin 能做出来的话可以自己拿去卖哈哈￣ω￣=

adrianyoung

2018-12-15 10:23:37 +08:00

url 去重做缓存检查

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.