给前几天的 NSFW 数据集写了一个多线程下载支持

2019-01-22 22:51:57 +08:00
 Weny

本来是想跑个 CNN classifier 练练手的,结果 3 个小时只下了 16GB 的数据,无奈写了一个多线程支持,刚刚跑了一个小时,已经下了 25GB 数据。

https://github.com/WenyXu/nsfw_data_scrapper

3734 次点击
所在节点    分享创造
9 条回复
billyu
2019-01-22 22:56:25 +08:00
weny 臭傻逼
jiezhi
2019-01-22 23:02:36 +08:00
厉害了 我之前跑了下好像因为并发多 IP 被限制了呀,楼主没这个问题么

最后能文件能共享下😁
Weny
2019-01-22 23:14:38 +08:00
@jiezhi 现在跑下来好像还剩 phncdn imgur 还没可以下载,IP 被限制这个问题就比较麻烦了,上代理池?文件实属太大,一共 20 万条数据,现在下到 14 万条左右已经 30GB 了
fantasylidong
2019-01-23 04:39:16 +08:00
楼主下完提供个网盘地址吧,我也想学学姿势
Weny
2019-01-23 06:57:08 +08:00
@fantasylidong 网盘是不可能网盘的,怕是涉嫌传播淫色内容被抓走
jiezhi
2019-01-23 08:02:09 +08:00
Resilio sync 考虑一下?
123s
2019-01-23 10:02:41 +08:00
哈哈。怎么一楼骂你
locoz
2019-01-23 11:03:00 +08:00
@billyu #1 看来关系不一般
siknet
2019-01-23 13:11:17 +08:00
你们口味真重,大自然也和普通美女照也下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/529614

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX