大语言模型提取个人信息返回虚假信息

141 天前

sudoy

最近发现几个主流的大语言模型（包括商业的 openai ，claude ，以及开源的 llama3 ），通过 api 提取个人信息的时候全部返回虚假的信息。比如邮件里面客人的名字叫 Mark Brown ，结果返回的信息是 John Doe ，返回的名字几乎都是这个名字。请问下是否这些大语言模型都设置了某种限制，当大量提取 PII （个人信息）的时候自动用虚假信息填充返回？有什么办法可以使它正常运行？

我们的应用场景是想利用大语言模型从几万封客服邮件里面提取出客户信息，包括邮箱、电话、订单号码、刻绘反馈的问题等。我们提取这些信息主要是为了将这些信息跟我们的订单信息进行匹配，从而得知这些客服邮件都来自于哪些订单，进而整理出每款产品都有哪些集中反馈的问题。

4254 次点击

所在节点

问与答

47 条回复

ladypxy

141 天前

请仔细看你提问的标题的前 5 个字。。。理解下这些模型是干啥的。。。

sudoy

141 天前

@ladypxy 邮件内容排版非常乱，而且不规则，用编程提取经常会提取出错误信息。这就是为什么我上大语言模型的原因，这些语言模型我如果提取几封或者十几封邮件，是能正确提取出来并且按照指令返回 json ，所以我 i 知道这些模型是干啥的。现在问题是通过 api 密集调用，可能触发某种安全机制，全部返回虚假信息

ladypxy

141 天前

@sudoy 我觉得你的需求应该是，用大模型来生成提取邮件内容的代码。而不是直接用大模型来提取邮件

werwer

141 天前

首先你举例的这几项信息用正则搞不定么
其次你并没说清你具体是怎么触发了你所说的安全机制
是前几次调用没问题，达到一定次数后触发，还是你手动对话没问题，调用 api 必定触发？
如果是前者，可以尝试搞多个 api ，或者增加延时来规避

trungdieu031

140 天前

你这个应该确实是触发了某种安全机制。看过美剧刑侦剧的都知道 John Doe 这个名字使用指定未知人物姓名的。大模型返回结果可能处于数据隐私方面的考虑对返回结果做了替换 ~

maolon

140 天前

groq 你试过了么？再不行自己本地部署开源模型解决

trungdieu031

140 天前

你这个问题要解决有一下集中思路：
1. 更换不同厂家的模型，都试试说不定就有安全措施不那么严格的
2. 采用类似反爬虫的机制。增加请求延时，更换 ip , 更换请求账号 ...
3. 编写专门的 prompt 来绕过限制。有点类似 LLM 的越狱机制
4. 部署本地大模型处理。如果是英文邮件的话，可能 llama 的中大模型会好点 ...

TimePPT

140 天前

姓名、地址信息提取可以不用 LLM 的，找个传统的 NER 模型就行。

yinmin

140 天前

自建一个 qwen 2.5 7B 试试，别用公共大模型

EndlessMemory

140 天前

敏感信息肯定是误杀也不能放过

sudoy

140 天前

@ladypxy 我自己写了，也用 ai 写了，编程的方法不稳定，正则提取出来的也经常出错，ai 非常稳定，就是容易触发风控

sudoy

140 天前

@werwer 感谢回复！正则搞不定，比如订单号码，邮件里面有跟订单号码特征一样的字符串，AI 可以轻松判断哪个是订单号码。

我是做成 rest api ，然后 post 文本到后端，后端调用 claude ai api 提取，手动 post 一个两个都能正常返回正确的内容，当用一个 for 循环请求几十个的时候，就返回这些虚假数据。我尝试设置等候机制（也就是延时），每请求完一个，等待十秒钟再请求第二个，同样会出现一样的问题。我有时间再 debug 一下，目前暂时放弃 ai 这个方法了，改用编程的方法提取出不容易出错的信息，然后再人工匹配。

sudoy

140 天前

@maolon 没试过这个，回头试试看。本地部署不知道我的 Mac mini M1 能不能带起来

nuance2ex

140 天前

可以通过 Prompt 工程在一定程度上解决。

1. 使用辅助字段方法，要求摘录时，先摘字段_sentence_with_name ，就是名字所在的原文句子，然后让他再摘出其中的 name 。

2. 解析出的 json ，丢弃_sentence_with_name 辅助字段。

3. 如果上述步骤准确度还是不够，可以加验证手段，就是去核验_sentence_with_name 和 name ，是否能找到对应的原文。如果找不到对应原文，再拿错误的输出去反问大模型（比如，你刚才给我的回复，发生了错误...），让他输出正确结果。一般第二遍就能有正确答案，不行就设个上限五遍。还是不行，就人工介入。

这样应该就能大幅提高准确度。

sudoy

140 天前

@trungdieu031 谢谢回复。

1. 试了 openai ，claude ，llama 3 都被限制了；
2. 增加延时了，提高到 10 秒钟延时都没用；更换 ip 和账号条件不允许，只有一个账号，而且主机都是 aws
3. 这个或许可以，我回头试试看，主要是通过 system prompt 进行强制修改
4. 本地部署主要也是硬件条件有限

nuance2ex

140 天前

@sudoy 如果所有模型都出现这个问题，感觉不太像风控，应该是幻觉。

sudoy

140 天前

@TimePPT 嗯，我目前改成用这个方法了，但是不够完美，还是 ai 方案提取的结果好，只是 ai 被限制了

sudoy

140 天前

@yinmin 我只有 qwen 1.5 ，还没有在这个项目用过，一定要 2.5 吗？

sudoy

140 天前

@nuance2ex 这个方法值得一试，谢谢🙏

sudoy

140 天前

@nuance2ex 哈哈你是说我出现幻觉啦？我最近都没喝酒啊。提取结果明明显示 customer@example.com, John Doe 这种 dummy 数据，肯定是哪里出错了

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1077604

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.