拿 GPT 学 ElasticSearch 实在太鸡儿坑了

2023-06-07 15:25:27 +08:00
 BeautifulSoap

可能算月经贴了,但是还是分享下自己刚刚被坑的经历

最近在学 ElasticSearch ,官方 Guide 文档找半天根本找不到面向新手介绍什么是 index ,shard ,primary shard, replica shard 这种概念的地方。于是试试看问 ChatGPT 和 new bing ,一路问下来我感觉如果你是要学一个完全不懂的东西最好别找 GPT ,说的知识前后矛盾,你指出来他就改,然后继续前后矛盾,如果你脑子转得不够灵活发现不了矛盾,你甚至怎么被坑得都不知道。搞得我都开始觉得它就是故意想坑我,聊着聊着火气就要上来了 orz 到最后我都分不清这两种前后矛盾的知识哪个是正确的了,越学越凌乱。

首先是 ChatGPT 的对话,现在已经可以分享对话了,大家可以看看我和 ChatGPT 的对话

https://chat.openai.com/share/c8ef6660-9649-4e79-9a03-e0dcb81bde2b

然后更绝的是同样的问题问 new bing

问:elasticsearch 指定主分片大于 1 的时候,每个主分片都保存有完整索引数据,还是每个主分片分别保存一部分数据

答: 当你指定主分片大于 1 时,每个主分片都保存有完整索引数据 1 。每个主分片都是一个完整的 Lucene 索引,它们之间没有任何关系。这意味着,如果你有 3 个主分片,那么你将有 3 个完整的 Lucene 索引。每个副本分片也是一个完整的 Lucene 索引,但它们只是主分片的副本

和上面链接里 ChatGPT 的回答安全矛盾。再见了您。所以,有人能回答下我问的这几个问题吗?

3966 次点击
所在节点    分享发现
37 条回复
BeautifulSoap
2023-06-07 20:45:43 +08:00
@Morriaty
1. 你给的官网文档这一节我在一开始就看了,但是我寻思我问 GPT 的那堆问题在这节文章里也根本得不到解答啊。而且不谈我的疑问了,作为一个初学者来看这文档,它连什么是 index 、shard 都没讲清楚,要不然我也不会去试着问 GPT
2. 当时我有纠结过纠结过看不看这个 2.x 的指南,但是经常听说 ES 新版本变价都极大(比如 3L 不就有这么说),所以我甚至不知道看完这个文档后到底有什么概念和原理发生了变化,所以决定不看直接看最新的文档。但是看了之后发现这最新文档写得并不适合初学者
BeautifulSoap
2023-06-07 21:10:58 +08:00
@locoz 我有个疑问,GPT 健忘这个是我知道的,但是针对有明确答案的问题,为什么记不记得上下文会成为问题?如果你说我对话次数太多 token 不够用了,那么我 8L 用英文只进行了两次对话,再怎么说 token 数都够了,然而 GPT 仅仅在两轮对话里就出现了前后矛盾,这能用 token 数不够来解释吗?
至于 GPT4 ,因为我并没有订阅,所以平时都是用公司搭在 Azure 上的 GPT4 ,但是反应比网页慢平时都不太想用。一般都是用 GPT3.5 。刚才问了下公司的,至少在单主分片多主分片问题下,得出了和 bard 相同的答案。今后还是用公司的 GPT4 了。
至于你说的“复制官方文档内容,直接丢给 GPT4 ”,有个问题,作为新手根本就找不到相关知识点在那个文档里也无从谈起复制官方文档内容。不如说我想的问题找到在文档哪个部分了,我直接读就是了
locoz
2023-06-07 22:19:54 +08:00
@BeautifulSoap #22
1 、因为它并不知道哪个是“明确答案”啊...网上内容学得那么杂,外加 Elastic 本来就改动多,不记得上下文必然会前后对不上。而且模型也可能学习到仅仅提到 ElasticSearch 和 index 、shard 之类的东西,但整体讲的是另一套软件的内容,这完全有可能的。所以不要觉得模型一定就知道什么是“明确答案”。

2 、允许提交的 Token 数量上限不一定等同于模型能注意到的 Token 数量上限,目前根据我的使用经验来说,模型在不同内容下的注意力是有差异的,可能跟内容信息量也有关系。像长代码跟长文,即使 Token 数量一样,回答质量也会有差异。而且还是前面说过的,以 3.5 的能力,本来就会很容易出现错误或幻觉问题。

3 、“作为新手根本就找不到相关知识点在那个文档里也无从谈起复制官方文档内容”这个不是什么问题,你完全可以直接把丰富的操作信息和相关描述直接丢过去,GPT4 的能力能做到根据内容做出综合判断。有时候并不一定需要最直接的描述,通过边角信息综合起来也能得到答案。

4 、即使你找到了对应的文档,信息往往也会过于冗杂,有时候还会出现你跟作者思维方式不同导致理解不了的情况,所以直接读并不一定就比你复制粘贴丢给 GPT 提问得到想要的答案快。
sickoo
2023-06-07 22:44:20 +08:00
es 确实难。
FightPig
2023-06-07 22:56:46 +08:00
这玩意有时就瞎回,我上个月问用 rust 实现 usb 监听, 它给我凭空出一个 crate 出来
suzic
2023-06-07 23:05:51 +08:00
如果完全不懂的话确实不适合用 ChatGPT 问,容易被带坑里
fkdtz
2023-06-07 23:07:17 +08:00
让他做一些代码片段的示例还行,长一点的就很大概率出错,跟楼主说的一样,你如果发现错误并告诉他他会改,但前提是你知道正确的是什么样的,要不然真的会被误导。
lingalonely
2023-06-07 23:16:14 +08:00
如果是明确的哪项技术,还是直接看官方文档来的准确
westoy
2023-06-07 23:18:47 +08:00
所以说

只要技术栈的文档变得勤

AI 就没办法淘汰你
X21541
2023-06-08 16:33:06 +08:00
@BeautifulSoap #14 说实话,不懂这些概念,一样可以使用 elk 。
raphaell2e
2023-06-09 09:45:19 +08:00
官方文档介绍的很详细的,建议认真研读.chatgpt 适合针对性的解决问题,不适合系统性的学习.因为他会胡说八道.
LLaMA2
2023-06-09 15:49:22 +08:00
最近要搞个内部用的知识问答,决定看看 elasticsearch
目前看的文档是 https://www.elastic.co/guide/en/elasticsearch/reference/8.7/api-conventions.html

整体上有认识 document,type,index ,类似与传统数据库中的一条数据,一张表,一个库

而 shard,replica 是分布式中的概念,因为 es 本质上是一个分布式数据管理系统
字面意义上理解无非就是分片,副本,归根结底 shard,replica 是保证服务的可靠性和尽量利用分布式系统的整体性能利用率
BeautifulSoap
2023-06-09 17:31:14 +08:00
@raphaell2e 你好那么请问我问 chatgpt 的那些问题,官方最新的文档哪里有讲清楚了?我问的都是最基础的概念问题
raphaell2e
2023-06-09 18:50:52 +08:00
chengxiao
2023-06-09 19:37:41 +08:00
上面说 GPT4 能解决问题的人 你们没有被 GPT4 坑过么???
BeautifulSoap
2023-06-09 20:28:13 +08:00
@raphaell2e 别扔个 index 就完事,有本事就找到对应章节。如果你自己都无法找到到底是哪个章节或者光是找到相关内容就要找半天,请问一个刚刚学 es 的纯新手看这文档看不懂有问题吗
KOMA1NIUJUNSHENG
2023-08-30 23:10:02 +08:00
其实 op 说的关于官网的问题,绝大部分还是英文的原因,纯英文的文档虽然可以靠 deepl 一段一段的硬啃,但是时间成本太高了,而且有时候翻译也不会那么准确,导致卡壳。如果出一个版本比较新的官方中文文档就没这个问题了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/946647

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX