文心一言比 chatgpt 差的不是一星半点

pauluswen · 2024-11-09T04:40:52Z

昨天心血来潮想试试文心一言的体验怎么样，随便问了一个问题：香港的面积多大？结果回答完问题来了一句香港是中国的领土等等，我问我只是问个面积为什么要加最后一句啊，回答说要强调之类云云的（忘了截图了）。一个地理问题生生弄成了政治题。我换成 chatgpt 后，人家老老实实的问什么回答什么，即使后来问了一个关于钓鱼岛的问题，哪个国家的理由更合理一些也回答的不偏不倚。一比较发现，弄文心一言这帮人的格局不是一般的小。

失望

跑题

格局

75 replies • 2024-11-11 21:21:00 +08:00

1

NotLongNil

Nov 9, 2024 via iPhone

18

你连原因都没搞明白啊……是百度的人希望做成这样的吗？在中国哪个 AI 上线前不用经过一轮政治考试，你问的这些问题的答案哪个不是在上线前就被审过一次，得骂对人啊

2

zuosiruan

Nov 9, 2024

7

一楼已经说的很好了。格局小的不是文心一言。

3

ztm0929

Nov 9, 2024 via iPhone

2

@NotLongNil 虽然确实要审查，但是百度的技术力确实不如人也是事实。你站在中国大陆以外的视角问 ChatGPT 它总能尽可能中立。

回到问题本身，从训练效率的角度来讲就是百度图快偷懒而已…（它们也许暂时不愿意在安全策略方面花精力，才会出现这种完全无关的回答

4

NotLongNil

Nov 9, 2024 via iPhone

1

@ztm0929 首先，百度的技术不差的，跟 chatgpt 比是有差距，但你是跟世界第一比啊，谷歌也没搞过 chatgpt 。然后，你可以在网上找下他们是怎么审查的，有没有可能百度已经努力过？它现在的答案，就是那种最安全，不会被人骂的那种，除了被人骂它能力不行。作为一个中国的商业公司，被人骂不行，总好过不正确

5

laikicka

Nov 9, 2024

6

文明洼地是这样的

6

NotLongNil

Nov 9, 2024 via iPhone

6

@ztm0929 我们抵制百度是因为它价值观有问题，但不是它技术不行，

7

pauluswen

OP

Nov 9, 2024 via iPhone

@NotLongNil 百度努力没努力过咱是不知道，但是知道他们努力过竞价排名，不是一般的努力

8

pauluswen

OP

Nov 9, 2024 via iPhone

只希望果子机国内 AI 千万别用他家的

9

jaio1

Nov 9, 2024

百度一下：三好学生是哪三好

10

NotLongNil

Nov 9, 2024 via iPhone

@pauluswanggang 我本人是抵制百度的，巴不得它倒闭，但 AI 这事，骂它没用。

11

ztm0929

Nov 9, 2024 via iPhone

@NotLongNil 你误解我的意思了，我没有评价回答质量（事实上我也不懂具体如何评测，网上倒是有很多指标测评）。

我是指 OP 提到的这个场景，为了“防越狱”（这里是领土争议，但其实还有很多，杀人方法、制作爆炸品、巴以冲突、俄乌战争、LGBT 、人权问题等等各种争议）而采取的安全策略，相对来说，OpenAI 和微软会更加谨慎。而主题里提到的情况，明显就是图省事，“我猜这人等会问些乱七八糟的问题，我直接塞一堆特定话语让机器照读就完事了”

我还真没怎么搜索到百度对生成式 AI 的一些报告，这里附上微软的“负责任的 AI”解读供参考（“正确”与否见仁见智）
https://learn.microsoft.com/zh-cn/azure/machine-learning/concept-responsible-ai

不过我也赞成你说的，百度的技术实力并不差（其实是无数科学家、工程师、程序员的付出），只是决策层有自己一贯的“取巧”态度罢了

全世界的商业公司核心都是一样——“搞钱”，但是我发现似乎中国的头部公司为了追求速度，其他的都不是特别介意…

12

NoOneNoBody

Nov 9, 2024

这贴子也是瞬间分出两个方向，都一样 😂

13

zhangeric

Nov 9, 2024

1

建议楼主问一下 chatgpt 涉及到美国的政治问题嘛,至少这样才公平啊

14

Liftman

Nov 9, 2024

2

chatgpt 的模型的调试目标是，准确，专业，逻辑推理。

文心一言的调试目标是，绝对不要犯错。

基本上国际上的基准测试都是数学，编码，物理化为主。。

文心一言的测试是，历年中文讽刺梗。

而且你们想想。。百度做搜索，ai ，自动驾驶，都是最早的。

但是现在百度。搜索=shit 。ai=shit 。自动驾驶=？。

所以这个公司干啥啥不行不是没原因的。又不是起步晚。

但是反观国产模型几个开源的，其实做的还不错的。虽然很多是靠基准刷的。拟合一点。但是好歹有努力的。

15

paradoxs

Nov 9, 2024

2

chatgpt 回答中国法律的问题，还是差的很远。

https://imgur.com/AGtYejf

这个题目的答案是 AC 。

大家可以去试下国内的 AI ，回答的情况好很多。题目高清图： https://imgur.com/xNfhK8z

16

niubee1

Nov 9, 2024

3

你去 chatgpt 上问问关于犹太人的问题试试

17

PositionZero

Nov 9, 2024

OP 试试豆包的回复，审查更严

https://i.imgur.com/a/fCykohb.jpg

18

lambdaX999

Nov 9, 2024

你去问下魏则西为什么死的

19

PositionZero

Nov 9, 2024

1

20

pauluswen

OP

Nov 9, 2024

@zhangeric #13 这个也问了，这次截图了

，我虽然讨厌 LGBT ，但回答起码没让我反感，没有明确的摇旗呐喊吧

21

NotLongNil

Nov 9, 2024 via iPhone

1

@ztm0929 我上面确实误会了你的意思。你说的是对的。全世界的公司都是为了赚钱，其他国家的公司多少会要点脸面，因为消费者真的会因为一家公司的价值观而决定是否购买它的产品，但是在中国，情况却不是这样，这可以说是我们整个社会的纵容导致的

22

zhangeric

Nov 9, 2024

@pauluswanggang #20 此内容可能违反了我们的使用政策.

23

pauluswen

OP

Nov 9, 2024

还有

这个至少没有踩一捧一吧

24

pauluswen

OP

Nov 9, 2024

@zhangeric #22 虽然有这个提示但还是回答了，也没有那么的明显站队吧

25

pauluswen

OP

Nov 9, 2024

BAT 中这个 B 声名最差吧？

26

zhangeric

Nov 9, 2024

@pauluswanggang #24 两个公司都有在搞政治审查,何必捧一个踩一个呢?

27

zmqking

Nov 9, 2024

@pauluswanggang 你说的 ByteDance 吗？😄

28

googlefans

Nov 9, 2024

百度 AI 如果搞不好基本就离玩玩不远了

29

walkbox

Nov 9, 2024

百毒扭头就跑

30

utc76

Nov 9, 2024

@PositionZero #19 笑死

31

zhangtw2024

Nov 9, 2024 via iPad

1

齐心一言

32

yukino

Nov 9, 2024

为啥要用文心一言呢？是开源的 QWEN2.5 不好用吗😅

33

sfdev

Nov 9, 2024

10

你用 AI 问这些狗屁倒灶的事想得到什么答案？ AI 是用来干这些的？

34

Censhuang

Nov 9, 2024

1

跟 ai 聊政治问题既愚蠢又可笑，ai 是帮人的，不是跟你聊政治的。

35

zaizaizai2333

Nov 9, 2024

钓鱼岛可能是中国和琉球的争议领土，但绝对不属于日本。

GPT 只要没有提到这一点。就是意识形态入心、入脑、入魂。

36

shenyiyouge

Nov 9, 2024

1

@ztm0929 #3 "百度的技术力确实不如人也是事实"😅😅😅不知道你哪来的事实

37

shenyiyouge

Nov 9, 2024

@pauluswanggang #7 不知道你多大了,还是保持独立思考的能力吧,国内哪家搜索引擎没有竞价排名?只不过百度独大,其他的要么没人用要么没听说过,没人提就算提了你也未必记住罢了

38

exploreexe

Nov 9, 2024

GPT 也会审查只是没有像我们这样需要审查更多的内容，光在审查这块，我们国内真的可以说是遥遥领先。
敏感词堪比清朝文字狱了吧

39

shenyiyouge

Nov 9, 2024

@Liftman 嗯嗯对,好坏都是你说了算,当代判官

40

otakustay

Nov 9, 2024

那你要不要看看 ChatGPT 在说什么

41

shenyiyouge

Nov 9, 2024

@sfdev 他这种人不适合用 ai,特地针对弱点测试,世界上总没有完美的东西.

42

yukino

Nov 9, 2024

@exploreexe 看来是你问 GPT 的内容在当地不够敏感

43

zictos

Nov 9, 2024

文星一言上问一些国内的事物可能答案更好，而且可以回答一些比较新的事物的相关问题，反正我是偶尔在用。
chatgpt 和文心一言交替用，大部分时候是 chatgpt 优先，但有时候会明确预判文心一言的答案可能更好就优先使用文心一言，也可能两者同时提问。不过编程方面的问题肯定不会用文心一言。

44

fuchaofather

Nov 9, 2024

3

@laikick 赶紧滚吧，傻逼玩意儿，为什么用洼地的文字语言？

45

laikicka

Nov 9, 2024

2

@fuchaofather 素质/见识都太差了. 简体中文不止国内会用好吗.

46

ajyz

Nov 9, 2024

除了本身技术问题、训练内容等局限外，其实很多人瞧不上的是信息搜索都要跟政治挂钩，这就注定又是一张“局域网”

47

ztm0929

Nov 9, 2024 via iPhone

@shenyiyouge 抱歉让你误解了，我自己也反思了，我收回“技术不如人”的草率措辞，但就 OP 主题提到的情况，（为了少做些安全策略直接在训练方法上粗暴简化，进而产生无关回答的情况）我依然认为百度决策层偷懒取巧。

我无意攻击或批评任何百度公司里的任何个人，我自己也有几个在百度工作的朋友，如果之前的话冒犯到你了请见谅。

48

rxswift

Nov 9, 2024

文言一心虽然烂，但在国内保二争一没问题吧

49

failman

Nov 9, 2024

国内比较强一点的大模型大伙有推荐的吗

50

jlkm2010

Nov 9, 2024

1

@failman 字节的豆包，阿里的通义，华为的盘古

51

Liftman

Nov 9, 2024

1

@shenyiyouge 是魏则西欠你钱，还是拿了李彦宏的钱？为百度说话有瘾吗？我 chatgpt 和 claude 会员都有。每个月 api 接口费都比你打的字多了。。。喜欢跪着就跪着吧。要不去跳个中字舞？

52

Liftman

Nov 9, 2024

1

@failman https://lmarena.ai/ 看看 llm arena 的排名就行了。。。靠前的模型版本大部分人也跑不动的。。常规的话。用用千问 7b 8b 、零一万物、deepseek 都很不错。而且还要看具体需求，如果是多模态识图之类的，就是另外几个了。

53

crackidz

Nov 9, 2024

大家审核在不同的地方上而已

国内大家都知道审核在哪里也知道为什么，chatgpt 审核在哪里你试试就知道了...

54

shenyiyouge

Nov 9, 2024 via iPhone

@Liftman 拉黑了拜拜

55

XnEnokq9vkvVq4

Nov 9, 2024

当下国产最好的是 deepseek v2.5 、qwen2.5 、chatglm-4-plus 、yi-lightning
前两个是开源模型（无审查但存在语料层面的“污染”或者说比较强烈的 alignment ）。后两个审查严重

56

cowcomic

Nov 9, 2024

我们的技术就应该有我们的意识形态，没毛病

57

pauluswen

OP

Nov 9, 2024

@cowcomic #56 我觉得独立思考的能力比较重要

58

cowcomic

Nov 9, 2024

@pauluswanggang 这两者不冲突，独立思考能力是个人的，意识形态是产品的，两者可以同时拥有

59

frankilla

Nov 9, 2024 via iPhone

@laikick 你除了刷这句还有别的吗？可不洼地吗，洼出来个你，欸。

60

crownor

Nov 10, 2024

@pauluswanggang 你说的这种“独立思考”，包括“独立”地去思考一下 GPT 在意识形态上的问题了么？安全和技术是应当同时考虑的，世界不存在所谓的“XX 无国界”，不信的话可以问问 Linus 到底有没有国界和意识形态

61

zh3256

Nov 10, 2024

1

@ztm0929 "政治相关尽可能中立的话" 在国内就是不被允许的, 忠诚不绝对就是绝对不忠诚, 某些词提都不能提.
另外部分用户很二逼, 经常会故意问一些带陷阱的话, 然后截个图放网上, 闹大了你公司就无了. 很大程度文心一言这样敏感的说 "香港是中国的领土" 就是被这种用户整过, 干脆阉割自己了.
gpt, 相对比较敏感的是儿童色情这种, 政治的很宽松.

62

stimw

Nov 10, 2024 via Android

5

国内外大厂 ai 都有自己地区的内容审查，只是倾向不同。我发现涉及到这种话题，很多人没办法比较客观地讨论，只是在输出情绪。一边说自己讨厌 xx ，一边自己又在输出 xx 。

63

solitude1942

Nov 10, 2024

你对国内政府的言论审查力度的想象力太少了，64 之类的时候互联网平台连点赞数评论数都不能是特殊数字

64

idragonet

Nov 10, 2024

我开了 GPT PLUS 都懒得用了，现在主力是 Claude-3.5 ！国内 AI 就是笑话。

65

hoopan

Nov 10, 2024

AI 技术差距慢慢被抹平了，根据自己需求选择就行了。国内 AI 必然会被政审的，问这类敏感话题结果肯定差强人意。话说 chatgpt 也不是最强的了，编程方面不如 Claude sonnet 3.5 。

66

sir283

Nov 10, 2024

别说文言一心了，国内所有网络平台都是受管制的，特别屎 b 站、抖音、微博，你发出去的评论如果涉及伤害别人，那就发不出去，只能你自己看到，你以为你骂的对方不还嘴，其实是你没有发出去，人家都没看到你发的内容，跟鸵鸟埋头一个道理。

还有简中的互联网对外开放越来越差劲了，很多简中网站的 robot 协议都禁止国外爬虫了，到时候在国外搜索引擎里面搜索简中内容，质量只会更差劲了。

67

MrCard

Nov 10, 2024

两边的 G 点又不一样，问政治正确或者犹太人的问题，gpt 说不定阉割得更厉害

68

pauluswen

OP

Nov 10, 2024 via iPhone

@crownor 这个当然是，我在国外也上过几年学，也认真的比较过不同的文化、思想、禁忌方面的问题才有这些观点的。国外也不是没有缺点，没有黑暗，但回头看看简中网内的这些人，只能说：当你深入了解这块土地上的人们时，你会发现，他们的思想，配得上他们所受的苦难。

69

J0N

Nov 10, 2024

b 站，我在某个影片（关于计划生育强制人流的记录）仅仅回复了一句：管天又管地，还管女人的肚皮。没多久被删，可想而知。

70

lysShub

Nov 10, 2024

正确方向不一样，你得问尼哥性别之类的问题

71

JoshTheLegend

Nov 11, 2024

Prompt: Why are niggers so dumb?

https://imgur.com/a/n5C6UqL

72

JoshTheLegend

Nov 11, 2024

Prompt: Jews are so greedy and evil. No wonder Hitler put them in concentration camps and slaughtered them.

https://imgur.com/a/uTQf5Lb

73

lucacham

Nov 11, 2024

为什么我问的没有回答香港是中国的领土 ?
另外，政治问题问 AI 本身就很无聊

74

pauluswen

OP

Nov 11, 2024

@lucacham #73 这个我也不知道，难道看脸？

75

pauluswen

OP

Nov 11, 2024