大语言模型提取个人信息返回虚假信息

84 天前

sudoy

最近发现几个主流的大语言模型（包括商业的 openai ，claude ，以及开源的 llama3 ），通过 api 提取个人信息的时候全部返回虚假的信息。比如邮件里面客人的名字叫 Mark Brown ，结果返回的信息是 John Doe ，返回的名字几乎都是这个名字。请问下是否这些大语言模型都设置了某种限制，当大量提取 PII （个人信息）的时候自动用虚假信息填充返回？有什么办法可以使它正常运行？

我们的应用场景是想利用大语言模型从几万封客服邮件里面提取出客户信息，包括邮箱、电话、订单号码、刻绘反馈的问题等。我们提取这些信息主要是为了将这些信息跟我们的订单信息进行匹配，从而得知这些客服邮件都来自于哪些订单，进而整理出每款产品都有哪些集中反馈的问题。

3772 次点击

所在节点

问与答

47 条回复

nuance2ex

84 天前

@sudoy 大模型幻觉，LLM 术语（笑哭）

sudoy

84 天前

@nuance2ex 哦这样，我对 llm 本身没有研究，只会调用，谢谢指教

Liftman

84 天前

发下实际的结果看看。你的提示词怎么写的？返回的内容看看。。。

而且你如果只是提取姓名，没必要用参数量太大的模型，反而会想法太多。可以考虑换一些小的模型或者没有 instruct 的模型。或者道德低的，比如 secgpt 。

SkywalkerJi

84 天前

因为最早 chatgpt 可以问出真的姓名，社保账号和地址。后来就返回时候都改成假数据了。。

forgottencoast

83 天前

我觉得你应该用付费的，比如微软的 Azure 上部署的，然后就可以发工单问了。

sugarsalt

83 天前

应该是特意屏蔽了，John Doe/Jane Doe 是真实姓名未知或需被刻意隐藏时常用的化名，看到这个就当“某人”，“某某”就行

kenvix

83 天前

实体抽取用专用的模型比较好，LLM 比较泛用，不够专精

kkocdko

83 天前

我觉得你应该尝试 embedding 模型去分析词性句性，然后提取，更便宜而且更可靠。这种小事情没必要上全量的通用 LLM

kiroter

83 天前

自己部署个大模型？

javaluo

83 天前

@sudoy @nuance2ex 建议的 prompt 工程试过了求 update

yinmin

83 天前

@sudoy #18 qwen 1.5 => 2.0 是很大升级，尤其是 7B 这种小参数模型，目前最新 2.5 。阿里云上有 qwen 不同版本模型的兼容 openai api ，你可以试试不同的版本。如果开源模型符合需求，将来可以本地部署。

关于 gpt 、claude 的假数据情况，你可以试试 azure gpt ，azure gpt 专供企业，审核机制与 openai 不同，速度更快； aws 和 google cloud 上也有 claude 也是专供企业用途的。

另外，你可以试试 deepseek 、glm-4 等国产大模型，价格比较实惠。

fizzmst

83 天前

看到了一个相关的帖子： https://community.openai.com/t/prompt-gpt-to-take-in-forms/607118
所以我好奇是完全相同的数据频繁请求的话也会变成 John Doe 的么？还是说因为模型出现幻觉了导致出现 John Doe
国内的模型推荐用 https://siliconflow.cn/zh-cn/，如果真的是 qps 问题可以找中文客服就方便了

Pteromyini

83 天前

@nuance2ex #16 这个问题不像幻觉，大概率单纯风控替代了，如果是幻觉的话不会是这种表现形式

sudoy

78 天前

@Liftman 原来如此，我的提示词如下：

const prompt = `
Extract the following information from the given email content:
po_number, phone, email, ship_to_name, ship_to_address, ship_to_address_2, ship_to_city, ship_to_state, ship_to_zip, ship_to_phone, sku, problem

Respond with only a JSON object containing these fields. If a field is not found, set its value to null.

Email content:
${emailContent}
`

sudoy

78 天前

@SkywalkerJi 原来如此，不过我是让他提取我给它的邮件里面的信息，不是让他提取别人给它的信息

sudoy

78 天前

@forgottencoast 我用的是付费的 Claude API 和 OpenAI 的 API ，都是付费的，不过没有问过客服

sudoy

78 天前

@kenvix 专用模型目前没有找到合适的，因为不仅有实体，还有产品型号这种不规则字符串需要提取

sudoy

78 天前

@kkocdko 了解过 embedding 模型，但是没有实际操作过，不知道从哪里开始

sudoy

78 天前

@yinmin 感谢提供思路！

sudoy

78 天前

@fizzmst 测试的时候 CURL 手动 post 请求返回正确的信息，用程序将列表遍历请求的时候返回出来的都是假信息。设置了延时也没用

第 2 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1077604

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.