需要一个在浏览器内本地运行的名称分类模型(100MB 内),输入一个或者多个关键词,猜测返回他们的共同属性,有没有好的建议?

30 天前
 drymonfidelia
例如:

app-main.html app-main.css => app-main, Webpages
angry-birds.apk flippy-birds.apk => Games, Apk Packages
facebook.ipa tiktok.apk => Social App Packages, Apps, Software
foobar2000 vlc => Media Players, Software
rclone foobar2000 => PC Software

实际输入可能是各种各样奇怪的东西。必须浏览器内本地运行,不能上传到服务器。
1048 次点击
所在节点    程序员
8 条回复
BeijingBaby
30 天前
这不得自己训练?
drymonfidelia
30 天前
实际输入可能是各种类型的奇怪东西,只是我只想到程序相关的例子,以下这些才是大多数:

Queenie, Reba, Fiasco => TV shows
Avatar, Star Wars => Films
Hermes Epsom Constance 24 Black, Hermès Swift Kelly Retourne => Luxury Handbag, Hermes Bags
Gochiusa, Wataten => JP Anime, JP TV shows

如果用字典肯定放不下。最好能有现成的 AI 模型能猜测这个词大概率是影片的名字来实现。
drymonfidelia
30 天前
强调三遍浏览器内本地运行了,应该不会还有人扯 GPT 那些大模型了吧
dayeye2006199
30 天前
分类的规则你可以清楚的定义吗?人看了你的定义之后可以清楚的得到答案吗?
你有标注数据吗?

如果上面都 yes ,那自己搞个模型,输出到 tensorflow.js 这种不难。

上面都是 no ,建议还是老老实实 GPT
murmur
30 天前
关键词匹配不就完了

这东西没法训练吧

facebook 又不是 face (美颜)也不是 book (书籍)

foobar 也不是 bar (工具栏)

只有长内容,能提取出关键字的,才有分类和聚类的必要

单词或者简单词组只能做关键字匹配
godqueue
30 天前
如果是生产就老实的用 gpt 吧。。或者其他大模型也可以。。但是大模型有幻觉,输出的内容很可能第一次和第 2 次的内容不一样。。。这个问题好像没有太好的手段。。
godqueue
30 天前
如果需要非常精确,那好像只能自己写字典来做这个事情。。
forty
30 天前
浏览器内本地运行,那么不可能存储太大的模型数据吧。
不能上传到服务器,和浏览器内本地运行,还是略有区别的,可以在本地启动服务,供浏览器调用,这样不算纯浏览器内运行,但是没有发送到服务器。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1044152

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX