搭建一个技术类的垂直搜索引擎有什么方案?

2017-03-31 14:11:20 +08:00
 AsaDong
呃 如题。

有哪些开源方案可以组合起来实现,包含爬虫 存储 检索 排名算法。
只定向收录一些网站即可。
3168 次点击
所在节点    程序员
6 条回复
ss098
2017-03-31 14:44:44 +08:00
爬虫得自己写,搜索可以用 ElasticSearch 。
dreampuf
2017-03-31 15:01:47 +08:00
自定义爬虫 + ES
规模几十 T 不是问题
murmur
2017-03-31 15:04:26 +08:00
垂直搜索的问题不是你底层抗不扛得住 是你抓别人数据能抓多少
你能想到的可以聚合的内容基本都有反爬虫设计
gwind
2017-03-31 17:22:47 +08:00
你需要的是:

1. scrapy 抓
2. elasticsearch 搜
jackroyal
2017-04-01 10:23:11 +08:00
最简单的, google 自定义搜索,直接限定域名,哈哈
AsaDong
2017-04-03 11:17:22 +08:00
@jackroyal 自己用倒是可以

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/351743

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX