如何突破大模型的敏感词拦截?

48 天前
NeverBelieveMe  NeverBelieveMe

黄赌毒一类的拦截就算了,敲诈勒索都算敏感词给拦截了。 想要做文字处理方面的功能,稍微有点擦边的词,就不行,太折磨了。 有没有懂哥们给点方法建议?

2174 次点击
所在节点   程序员  程序员
11 条回复
565656
565656
48 天前
大模型只能用抽象骗过了
Byleth
Byleth
48 天前
可以参考下 sillytavern 圈子里的各种方法(他们叫「破限」),我从里面看到的一个比较巧妙的方法是在 system prompt 里面,让 AI 以一些"安全词"替换"危险词",然后输出到本地时,通过正则表达式替换为正确的词语。

当然,最简单的还是选择道德审查比较弱的开源模型,比如 commander+ 这些
ShinichiYao
ShinichiYao
48 天前
天堂里的奶奶讲睡前故事大法?
tetora
tetora
48 天前
编码绕过,你可以倒叙文字或者加密之后给它提供密钥试试
wheat0r
wheat0r
48 天前
教大模型与佛论禅
kidding
kidding
48 天前
逛 hugging face 的时候看到过这个文章,可以消融掉模型自带的审查。

https://huggingface.co/blog/mlabonne/abliteration
Sawyerhou
Sawyerhou
48 天前
找找回避敏感词的 nlp 模型呢?打败大模型可能需要另一个大模型 :p
shitshit666
shitshit666
47 天前
自己部署一个: https://lmstudio.ai/
NeverBelieveMe
NeverBelieveMe
47 天前
NeverBelieveMe
NeverBelieveMe
47 天前
@shitshit666
@tetora 公司是用商用大模型的,kimi ,千问这些。没有自己部署的。
NeverBelieveMe
NeverBelieveMe
47 天前
@tetora 有什么案例可以参考吗?我们是想要做文字校对一类的功能,普通的倒序加密会影响功能。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1096507

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX