分享一个 Go 写的 BT 种子爬虫

2016-08-08 00:07:24 +08:00
 Lime
主要实现了 BitTorrent DHT 协议。爬虫的原理主要是利用 DHT 协议监听别人的 announce_peer 消息,然后根据得到的 infohash 利用 BEP-9 下载 medata info(BT 种子文件的主要部分,可以认为是种子文件)。粗略估计了下,不到 24 小时左右下载了 10w+个 BT 种子。

里边的数据看了下,有很多电影、 pdf 、 mp3 、软件等资源,包括很多限制级资源,比如色情视频。你可以拿它做数据分析,也可以用它来建一个 BT 搜索引擎,不过要小心版权问题,也要做好被墙的心理准备(涉及敏感资源)。

最后 http://bthub.io 是用它建的一个 BT search engine 。

Github: https://github.com/shiyanhui/dht
10481 次点击
所在节点    分享发现
42 条回复
Lime
2016-08-08 19:12:54 +08:00
上 Github Go trend 了,内牛满面
doomhack
2016-08-08 21:14:47 +08:00
@Lime 小白一个,求怎么使用
Lime
2016-08-08 21:39:03 +08:00
@doomhack

# 安装 Go ,设定 GOPATH
# go get github.com/shiyanhui/dht
# 进入到 GOPATH/github.com/shiyanhui/dht ,然后执行 go run example/spider/spider.go

就可以看到效果啦
doomhack
2016-08-08 21:55:28 +08:00
@Lime 谢谢指点!
Lime
2016-08-08 22:43:12 +08:00
@doomhack release 了编译好的二进制,你可以下载 https://github.com/shiyanhui/dht/releases
matrix67
2016-08-08 22:46:59 +08:00
配合这两个图有奇效



matrix67
2016-08-08 22:50:48 +08:00
Lime
2016-08-09 09:02:06 +08:00
@matrix67 这个厉害!
Lime
2016-08-09 09:04:10 +08:00
另外,那个软件是什么?
isbase
2016-08-09 13:59:30 +08:00
@matrix67 这个软件是什么呢?
yanyuan2046
2016-08-09 15:55:01 +08:00
实现的相当漂亮,是我见过最好的
tinyproxy
2016-08-09 16:10:17 +08:00
T_T 全是乱码。。。是我打开姿势的问题么

http://bthub.io/search?key=1024

Lime
2016-08-09 18:32:00 +08:00
@tinyproxy 改成 GBK 后是这样的

http://imgur.com/a/Z63wH
Lime
2016-08-09 18:35:53 +08:00
doomhack
2016-08-09 23:12:38 +08:00
@Lime 感谢!!!!
bluesky139
2016-08-10 08:34:58 +08:00
@Lime 请问内网环境下是否有效,能不能抓到?
jasondan
2016-08-10 17:53:55 +08:00
楼主威武
Lime
2016-08-10 22:14:38 +08:00
@bluesky139 在内网还不行,目前还不能穿透 NAT
Garantion
2016-08-11 23:05:43 +08:00
@Lime burp suite
yunji3344
2016-08-12 12:19:37 +08:00
http://www.7tdy.cc 看电影而已

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/297766

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX