文本内容审核,短文字收费.

2023-10-26 16:47:19 +08:00
 dnjat

文字三方审核,阿里,腾讯都是按次数收费,阿里一次最多 600 字,腾讯一次最多 1000 字.

在短文字场景中,大家有合并审核的习惯吗. 一次审核个 10 个字符,有点浪费.

1894 次点击
所在节点    程序员
14 条回复
coderxy
2023-10-26 17:04:16 +08:00
文本审核很便宜,做合并的意义不是很大
hongfs
2023-10-26 17:14:42 +08:00
不如做一下缓存,频繁的内容也就那些。
dnjat
2023-10-26 18:47:37 +08:00
@coderxy 是的,主要是成本,不然单条好处理多了 ,合并后还得拆结果,对不同来源的内容做后续动作,动作还不统一。就看成本与麻烦度的比例怎么样
dnjat
2023-10-26 18:50:00 +08:00
@hongfs 这个不好缓存吧,改个标点什么的就不一样了。缓存命中关键字也不行,担心本地缓存的关键字不够。
hongfs
2023-10-26 20:54:46 +08:00
@dnjat #4 如果长度小于 N ,那看看缓存有没有。肯定没办法全量缓存的。
luodichen
2023-10-26 21:02:39 +08:00
核酸算法吧(狗头
rekulas
2023-10-26 21:18:07 +08:00
布隆过滤思想,其实没必要全部付费审核,先用开源模型审核一遍,只有判断有风险或可信度太低的才丢给付费接口,至少可以节约 80%
dnjat
2023-10-26 21:30:18 +08:00
@hongfs 有做文件 hash 匹配,但文字的机率应该不合适吧.同样一句话,重新打一遍都有可能会有区别,所以当时就放弃这个缓存方案了. 老兄你的方案是什么样子的.
dnjat
2023-10-26 21:30:56 +08:00
@luodichen 应该不要吧,审核后有返回命中词,本地再过滤一下就好了.
dnjat
2023-10-26 21:35:37 +08:00
@rekulas 机器学习前期投入太大了,不熟悉的话,学习,调优也是个成本. 不怕他误审,怕他识别不出风险,如果不是很相信自己的学习模型,无风险的,你还是得交三方审核再审一次.
ccagml
2023-10-27 08:32:11 +08:00
这也能缓存?这个名字今天可以,明天不行,也没人来通知你这个名字不行了,怎么删掉缓存?
ccagml
2023-10-27 08:37:43 +08:00
有合并审核,如果不通过,就二分看哪些不通过
chanChristin
2023-10-27 10:58:56 +08:00
看一下数美的? https://www.ishumei.com/
whoami9426
2023-10-27 15:51:55 +08:00
交个 gpt 审核,function call 规定好返回的内容,敏感度,敏感词之类的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/985709

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX