[开源]ACG2Vec——ACG 相关深度学习应用（以图搜图、插画评分、文本搜图等）

ACG2vec全称为Anime Comics Games to vector 。本 repo 会持续维护一些基于二次元相关的深度学习领域实践与探索。

在线预览（目前包含文本搜索、以图搜图、文本搜图、图片分数预测）：https://cheerfun.dev/acg2vec/

开源仓库：https://github.com/OysterQAQ/ACG2vec

演示页前端开源仓库：https://github.com/wewewe131/acg2vec-frontend

以上两个仓库求个 star QAQ🌟🌟🌟

目前模块包括：

model：深度神经网络模型模块，目前包括
- acgvoc2vec：基于从维基百科动漫列表、萌娘百科、Bangumi 、pixiv 、AnimeList 等来源获取清洗处理抽取的 510w 语句对微调的 sentence-transformers 模型，生成二次元相关文本的特征向量，用于各种下游任务（标签推荐，标签搜索，推荐系统等）
  
  可以使用 Huggingface 在线体验:https://huggingface.co/OysterQAQ/ACGVoc2vec
- dclip：使用 danburoo2021 数据集对 clip （ ViT-L/14 ）模型进行微调。
  
  可以使用 Huggingface 在线体验:https://huggingface.co/OysterQAQ/DanbooruCLIP
- pix2score：基于 resnet101 的多任务模型，用于预测动漫插图的收藏数、浏览数与琴瑟级别
- illust2vec：从DeepDanbooru模型去除预测头并对末尾层做均值池化的图片语义特征抽取模型
webapp：对外提供 web 服务模块。目前包括开箱即用的二次元插画标签预测服务、以图搜图服务、插画特征抽取服务、文本特征抽取服务
docker：基于容器化的部署模块，包括了部署所需要的配置文件与资源文件

💡预览

语义文本搜索

语义图像搜索

插画综合评分预测

以图搜图

LancerComet

2023-07-27 17:58:37 +08:00

@OysterQAQ

简单试了一下 acgvoc2vec 还行，给自己的小图库晒同义词合并是够了，随便试了一下：

The similarity between '赤井心' and '赤井はあと' is 0.7822584509849548
The similarity between '虚拟主播' and 'VTB' is 0.5672250986099243
The similarity between '虚拟主播' and 'VTuber' is 0.5994329452514648
The similarity between 'VTuber' and 'VTB' is 0.7549457550048828
The similarity between 'JK' and '高中女生' is 0.6553347706794739
The similarity between 'Maid' and '女仆' is 0.7300522327423096

不过还没想好怎么集成，目前只想到做成选择某个标签的时候将评分高的同义词都列出来然后自己筛选，平时只需要往里填同义词之后再筛选就可以，感谢楼主开源

PS：果然最宝贵的还是数据，只看到一条数据库 connect string