发现一个神奇的现象, gpt 貌似对于汉字个数相关的问题很迷茫?有人了解为啥会这样么

135 天前
 soar0712

事情的起因是我需要一个正好 12 个汉字的句子用来做测试,我就让 gpt 给我生成一个,要求句子通顺且没有逗号等间隔符号。结果 gpt3.5 死活生成不好,要么长度不对,要么给我加上了逗号或者顿号什么的。

随来了兴趣,各种尝试,总是不行。没有试 4.0 ,不知道有没有改善。

纯讨论,有人知道为啥会这样么

1121 次点击
所在节点    OpenAI
10 条回复
soar0712
135 天前
不知道为啥我贴的图不显示
opengps
135 天前
这段需求让我想起了刘慈欣的小说《诗云》。诗歌级别的要求,可能还真不是现阶段 GPT 能推理到足够水平的
linhongjun
135 天前
免费账户不是有 gpt4 吗? 虽然每天有限额
fulajickhz
135 天前
@soar0712 图片已经显示

因为 AI 本质是词语接龙,不是计数器

你可以试试换一种说法

让他生成一个句子,然后提出你的要求,最后设计一种程序来检验生成的内容是否符合你的要求

输出句子和程序以及验证结果
InDom
135 天前
好像是因为大模型不是逐字识别的,而是 token ,一个 token 可能不是一个汉字,对与大模型来说,可能并不能确定你发的原文到底是啥吧?
InDom
135 天前
Morriaty
135 天前
应该是和 tokenizer 有关,有个不同模型的在线 tokenizer https://huggingface.co/spaces/Xenova/the-tokenizer-playground 你可以测试下
soar0712
135 天前
![]( )
继续试了一下,很神奇,他觉得自己的句子有 15 个汉字,我让逐个打印并编号的时候 ,他打印到 15 个就自己截断了,没搞懂原理
aiqinxuancai
135 天前
就是 tokenizer 算法的问题,里面根本没有汉字的分词和单字,GPT 的汉字基本上都是通过字节压缩生成的 token 。你看到的是汉字,他看到的是一串数值,而一些数值是有多个汉字压缩进去的。
randychoi
134 天前
chatgpt 直接调用 Python 可以得出正确答案。
加关键字“请用 python 计算”

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1056486

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX