有没有人交流一下 BT 搜索引擎

2016-07-04 20:39:10 +08:00
 yanyuan2046

现在爬虫写完了, golang 写的,参考了若干开源代码,最后效果是每天约 350G 出口流量,每秒 12k 左右 UDP 请求,每天能记录千万级的唯一 infohash 值。然后问题来了,通过 infohash 获取文件 metadata 效率太低,从各个种子库查询,只能找到大概 3%,也就是每天只能索引几十万资源。有没有人有更好的办法,特别是实现了 bep0009 的同志能不能分享一下经验?

4689 次点击
所在节点    程序员
11 条回复
lzhr
2016-07-04 21:08:36 +08:00
kslr
2016-07-04 21:20:12 +08:00
首先,每天保持足够的更新就好了,否则只是烂数据
yanyuan2046
2016-07-04 21:29:19 +08:00
@lzhr 这个实现也是从种子库查的
geeglo
2016-07-04 21:30:57 +08:00
要种子干嘛? 磁力和 资源名你已经可以获得了。
yanyuan2046
2016-07-04 21:32:37 +08:00
@geeglo DHT 网络只能获取到磁力,只有一个字符串。得找到文件名,大小这些信息,这些东西种子里有
yanyuan2046
2016-07-04 21:34:12 +08:00
@kslr 更新不是问题,量大量小而已
kaner
2016-07-04 21:36:06 +08:00
@yanyuan2046 不是的。我记得能获取到名字的,因为以前也玩过,我去找找看,还有没有代码。

我明确记得名字可以,大小,和文件列表应该没有。
GPU
2016-07-05 08:07:36 +08:00
@kaner 可以获取是应为有些磁力 链接 在后面 & 加上了文件名字的 。


@geeglo 如果只有 磁力和资源名 ,同类产品太多 没有什么特点 。 当然了带有文件名与大小信息的网站也不小了。
yanyuan2046
2016-07-05 09:05:41 +08:00
@GPU 这东西量不是最大的问题,主要看搜索精度,排在前面的得下载速度最快才行
fising
2016-07-05 10:00:01 +08:00
已经有人做磁力搜索被抓了
yanyuan2046
2016-07-05 12:02:24 +08:00
@fising 有新闻出来没有?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/290244

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX