[分享] 基于 nodejs 开发的“磁力链接”爬虫

2015-03-30 16:17:20 +08:00
 am0zing
学习nodejs,顺便写来玩玩的,可以抓取dht网络里活跃的资源,也就“bt下载”的资源。

爬虫在一台1核1G的VPS上跑了几个月了,目前收集到300W+资源。

成品地址: http://findit.so

Github地址: https://github.com/keenwon/antcolony
9686 次点击
所在节点    分享创造
20 条回复
Themyth
2015-03-30 17:25:41 +08:00
不错,自动入库的么
am0zing
2015-03-30 17:28:36 +08:00
@Themyth 整个过程分多个进程的,有负责爬资源的(收集种子的infohash);有负责下载资源的(下载种子文件);有负责入库的(解析下载到的种子文件,存入mongodb)
yimity
2015-03-31 09:30:02 +08:00
不错,star 了。
solupro
2015-03-31 09:44:13 +08:00
感谢分享,一直想学习DHT,但一直没静下心来(/´Д`)/
am0zing
2015-03-31 09:58:43 +08:00
@yimity
@solupro
多谢支持!
sewyu
2015-03-31 10:24:13 +08:00
先学习一下怎么用,纯粹是感兴趣,非常感谢分享
kofj
2015-03-31 11:51:25 +08:00
比我golang写的好多了,点个star.之前的codeit.cn也是磁力搜索引擎,结果搜索内容都太敏感了,又是cn域名,不得不停了下来.
am0zing
2015-03-31 12:00:31 +08:00
@kofj 磁力搜索这种东西,内容没有不敏感的,终究只能玩玩了。。。
goodbest
2015-03-31 12:13:21 +08:00
能说一下现在数据库用了多少空间么?
am0zing
2015-03-31 12:48:53 +08:00
@goodbest
mongodb 312W条数据,将近10G,mongo实际占用大概12G,数据备份压缩后大概1.7G
目前VPS总共只有20G,所以爬虫已经停了好些天了
goodbest
2015-03-31 12:53:51 +08:00
@am0zing 感谢。看起来也挺多的。

你代码里的female、male、queen啥的是模拟雌雄蚁的角色么?挺有意思的
am0zing
2015-03-31 12:57:01 +08:00
@goodbest 是滴,动物世界看多了。。。
julor
2015-03-31 16:35:29 +08:00
很不错,刚才用“少妇”做关键字,找到一些好东西!
am0zing
2015-03-31 17:00:36 +08:00
@julor -_-|||
atshow
2015-04-05 02:08:23 +08:00
赞,这得持续抓才有价值。
am0zing
2015-04-08 14:56:23 +08:00
@atshow 是的,但是mongodb真的太tmd浪费硬盘了,已经养不起了
youxiaer
2015-08-17 02:33:19 +08:00
楼主,问一下,从infohash找到对应的种子文件,只能从指定的网站上面去下载吗?
am0zing
2015-10-13 13:48:57 +08:00
@youxiaer
好久没上了,我该设置个邮件提醒什么的。
不一定的要从指定网站下载,你可以根据 infohash 下载种子文件,就像迅雷一样,输入磁力链接,他会先下载种子文件,然后开始下载实际内容。
不过如果从 infohash 下载种子文件这块,我没去研究, bittorrent.org 有相关文档,直接从第三方网站下载是最省事的。
la0wei
2015-11-10 10:54:46 +08:00
有什么 vps 对这方面限制少的?
am0zing
2016-01-03 20:23:47 +08:00
@la0wei vps 限制了什么?可以用 digitalocean : https://www.digitalocean.com/?refcode=6f104d26aad1 ,用这个链接可以赚 10 刀,当然我也可以赚 哈哈。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/180349

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX