有没有人交流一下 BT 搜索引擎

2016-07-04 20:39:10 +08:00

yanyuan2046

现在爬虫写完了， golang 写的，参考了若干开源代码，最后效果是每天约 350G 出口流量，每秒 12k 左右 UDP 请求，每天能记录千万级的唯一 infohash 值。然后问题来了，通过 infohash 获取文件 metadata 效率太低，从各个种子库查询，只能找到大概 3%，也就是每天只能索引几十万资源。有没有人有更好的办法，特别是实现了 bep0009 的同志能不能分享一下经验？

4716 次点击

所在节点

程序员

11 条回复

lzhr

2016-07-04 21:08:36 +08:00

https://github.com/gitwillsky/btsearcher_engine

kslr

2016-07-04 21:20:12 +08:00

首先，每天保持足够的更新就好了，否则只是烂数据

yanyuan2046

2016-07-04 21:29:19 +08:00

@lzhr 这个实现也是从种子库查的

geeglo

2016-07-04 21:30:57 +08:00

要种子干嘛？磁力和资源名你已经可以获得了。

yanyuan2046

2016-07-04 21:32:37 +08:00

@geeglo DHT 网络只能获取到磁力，只有一个字符串。得找到文件名，大小这些信息，这些东西种子里有

yanyuan2046

2016-07-04 21:34:12 +08:00

@kslr 更新不是问题，量大量小而已

kaner

2016-07-04 21:36:06 +08:00

@yanyuan2046 不是的。我记得能获取到名字的，因为以前也玩过，我去找找看，还有没有代码。

我明确记得名字可以，大小，和文件列表应该没有。

GPU

2016-07-05 08:07:36 +08:00

@kaner 可以获取是应为有些磁力链接在后面 & 加上了文件名字的。

@geeglo 如果只有磁力和资源名，同类产品太多没有什么特点。当然了带有文件名与大小信息的网站也不小了。

yanyuan2046

2016-07-05 09:05:41 +08:00

@GPU 这东西量不是最大的问题，主要看搜索精度，排在前面的得下载速度最快才行

fising

2016-07-05 10:00:01 +08:00

已经有人做磁力搜索被抓了

yanyuan2046

2016-07-05 12:02:24 +08:00

@fising 有新闻出来没有？

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/290244

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.