爬虫自动扩充爬取的 url 范围

2014-11-11 20:04:46 +08:00
 blond
如题,小弟在一家公司做爬虫,老大安排任务,让我自动完成爬虫爬取的url范围扩充,小弟经验浅薄,实在没什么好的办法了,希望各位大大指点一二,在此谢过了。
2846 次点击
所在节点    问与答
6 条回复
jason52
2014-11-11 21:56:34 +08:00
深度优先?广度优先?

布隆过滤器?

题目没说清楚,没法下手啊
blond
2014-11-12 19:17:14 +08:00
@jason52 哦,不好意思,是广度优先,在爬虫爬取url的过程中自动发现现有url库中没有的url,但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢
Melodic
2014-11-12 19:56:22 +08:00
另设path关键字,域名+path分层级比对,没有就加入?
jason52
2014-11-12 21:51:27 +08:00
@blond 在爬虫爬取url的过程中自动发现现有url库中没有的url

这一步还是好做的。。

“但是我该如何来判断这个url的价值呢,这是不是还需要什么算法呢” 对啊,这是问题所在啊。。

你还是需要把问题抽象一点,脱敏后描述一下
blond
2014-11-13 18:42:29 +08:00
@jason52 比如说我只关心房地产方面的信息,这些url要近可能的是关于房地产的新闻
jason52
2014-11-13 21:42:32 +08:00
@blond 那要看新闻类型有没有类似的模式可以匹配上了,还是类似于找规律的问题,既然是尽可能的话,肯定也没要求不重不漏,应该还是不会很难吧。不过关键要看模式好不好匹配出来了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/145710

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX