搜索引擎类爬虫 crawl frequency 策略的设计

2019-06-14 02:26:28 +08:00
 makeapp

请教大家一个设计问题。现在有一个点餐类搜索引擎,爬取 100w 个饭店,有 10 种送餐方式,不同送餐方式的快递费不同,快递费会随时间变化而变化。 要求给定一个邮编,显示附近的饭店和对应的送餐价格。

权衡的因素有: 数据是否实时,数据是否正确,对网站影响尽可能小

1305 次点击
所在节点    程序员
4 条回复
locoz
2019-06-14 08:06:44 +08:00
感觉你的描述有点奇怪,给你细化一下:
1、爬的这 100w 个饭店的数据源来自哪里?
2、10 种送餐方式和爬虫之间的关系?
3、邮编我记得只到区级,怎么精确定位?话说这年头有人用邮编点餐?
4、要数据实时就不可能对对方网站压力小,这是无法调和的矛盾。
silencefent
2019-06-14 08:36:00 +08:00
建议从头学习爬虫入门技术
jc89898
2019-06-14 09:56:07 +08:00
@locoz 人家不一定说的是中国嘛,邮编其实也有可能的。
makeapp
2019-06-14 11:48:12 +08:00
@locoz 假设给定邮编后能知道 gps 的坐标,100w 个饭店的 gps 坐标也都知道。10 种送餐方式相当于是 seed_url,访问其中一个 url 后输入邮编,可以获取附近 10 公里内的饭店和快递费用。想求的是,给定邮编 xxx,对于附近的饭店,最便宜的送餐方式什么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/573752

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX