如何突破大模型的敏感词拦截?

1 天前
 NeverBelieveMe

黄赌毒一类的拦截就算了,敲诈勒索都算敏感词给拦截了。 想要做文字处理方面的功能,稍微有点擦边的词,就不行,太折磨了。 有没有懂哥们给点方法建议?

1676 次点击
所在节点    程序员
11 条回复
565656
1 天前
大模型只能用抽象骗过了
Byleth
1 天前
可以参考下 sillytavern 圈子里的各种方法(他们叫「破限」),我从里面看到的一个比较巧妙的方法是在 system prompt 里面,让 AI 以一些"安全词"替换"危险词",然后输出到本地时,通过正则表达式替换为正确的词语。

当然,最简单的还是选择道德审查比较弱的开源模型,比如 commander+ 这些
ShinichiYao
1 天前
天堂里的奶奶讲睡前故事大法?
tetora
1 天前
编码绕过,你可以倒叙文字或者加密之后给它提供密钥试试
wheat0r
1 天前
教大模型与佛论禅
kidding
1 天前
逛 hugging face 的时候看到过这个文章,可以消融掉模型自带的审查。

https://huggingface.co/blog/mlabonne/abliteration
Sawyerhou
23 小时 10 分钟前
找找回避敏感词的 nlp 模型呢?打败大模型可能需要另一个大模型 :p
shitshit666
16 小时 30 分钟前
自己部署一个: https://lmstudio.ai/
NeverBelieveMe
42 分钟前
NeverBelieveMe
41 分钟前
@shitshit666
@tetora 公司是用商用大模型的,kimi ,千问这些。没有自己部署的。
NeverBelieveMe
39 分钟前
@tetora 有什么案例可以参考吗?我们是想要做文字校对一类的功能,普通的倒序加密会影响功能。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1096507

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX