一个 22 万张 NSFW 图片的鉴黄数据集?你可以有大胆的想法了……

2019-01-14 14:35:26 +08:00
 ljspython
如果你想训练一个内容审核系统过滤不合适的信息,或用 GAN 做一些大胆的新想法,那么数据集是必不可少的。例如图像鉴黄,我们需要使用卷积神经网络训练一个分类器,以区分正常图像与限制级图像。但限制级的图像很难收集,也很少会开源。因此最近有开发者在 GitHub 上开源了一份 NSFW 图像数据集,这是不是你们想要的?



项目地址: https://github.com/alexkimxyz/nsfw_data_scrapper

最后,希望大家注意身体
25129 次点击
所在节点    分享发现
129 条回复
xlcoder166
2019-01-14 19:05:28 +08:00
战略性马克 +1
heiyutian
2019-01-14 19:14:53 +08:00
这是限制级?

ddid
2019-01-14 19:21:17 +08:00
我有个疑问,这些资源都是欧美的,如果是亚洲或者非洲内容,会不会免疫鉴定呢?
hotea
2019-01-14 19:21:38 +08:00
1024
purplewall
2019-01-14 19:23:25 +08:00
讲真这个项目是个爬虫+分类器吧,不过链接是真的多
dissvm
2019-01-14 19:24:54 +08:00
91024
tao1991123
2019-01-14 19:25:20 +08:00
好人一生平安
ddid
2019-01-14 19:26:07 +08:00
好吧,多翻了几张,挺全面的……
michaelcheng
2019-01-14 19:29:32 +08:00
凸(艹皿艹 ),在公司不小心点开
googlefans
2019-01-14 19:38:25 +08:00
懂了
KasuganoSoras
2019-01-14 19:39:19 +08:00
<?php
$data = file_get_contents("/raw_data/pron/pron.txt");
$exp = explode("\n", $data);
foreach($exp as $url) {
exec("wget {$url}");
}
KasuganoSoras
2019-01-14 19:39:45 +08:00
写错了是 porn hhh
earthyan
2019-01-14 19:43:33 +08:00
哈哈哈
wangfei324017
2019-01-14 19:45:55 +08:00
蛮多无关的啊。。
Phariel
2019-01-14 19:48:18 +08:00
这种项目建议不要 fork 会有 ban 号的风险
Loyalsoldier
2019-01-14 20:01:19 +08:00
cat ../urls.txt | xargs -n 1 -P 20 wget -t 3

-P 20 这个 20 上同时下载的数量,这是同时一次下载 20 张图片
-t 3 这个 3 是如果图片第一次下载失败后,尝试 3 次
daxiongz
2019-01-14 20:30:20 +08:00
够了....
mlhorizon
2019-01-14 20:38:45 +08:00
@heiyutian #62 按照绿绿教义,肯定限制级。
weeevv
2019-01-14 20:58:24 +08:00
再来几个人把 GAN 抬上来...
ayase252
2019-01-14 21:21:24 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/526896

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX