不服 GPT4-Turbo!马斯克发布最新多模态大模型 Grok-1.5V

217 天前
 spoock1024

原文链接:挑战 GPT-4V !马斯克发布 Grok-1.5V

OpenAI 刚刚发布了最强的 GPT4-Turbo 模型。

就在 4 月 12 号,马斯克就推出了 Grok-1.5V ,Grok-1.5V 模型不仅能理解文本,还能处理文档、图表、截图和照片中的内容。

Introducing Grok-1.5V, our first-generation multimodal model. In addition to its strong text capabilities, Grok can now process a wide variety of visual information, including documents, diagrams, charts, screenshots, and photographs. Grok-1.5V will be available soon to our early testers and existing Grok users.

官方博文表示:「 Grok-1.5V 在许多领域都能媲美当前顶尖的多模态模型,从多学科推理到理解文档、科学图表、图表、截图和照片。」 xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。

我们看到了 Grok-1.5V 与 GPT-4V 、Claude 3Sonnet 、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。

Grok 表示:「 Grok 在理解物理世界方面的能力尤其令我们兴奋。在我们新推出的 RealWorldQA 基准测试中,Grok 的表现优于同类产品。对于下面的所有数据集,我们都是在没有思维链提示的情况下对 Grok 进行评估的。」

但是从我自己的使用体验来看,GPT4-Turbo 目前还是最好用的,尤其是在编码方面,其他的大模型还是和 GPT4-Turbo 有很大的差距。

按照 ChatGPT4 Turbo 升级教程 ,可以升级体验下最新版本 GPT4-Turbo 。

referer:https://x.ai/blog/grok-1.5v

目前,Grok-1.5V 将很快对我们的早期测试者和现有 Grok 用户开放,还没有开放源代码。

Grok-1.5V 实际表现

referer:https://x.ai/blog/grok-1.5v

虽然 Grok-1.5V 没有完全对用户开放,但是在博客中展示了 Grok-1.5V 的七个示例。

这所有的例子中,都是要求 Grok-1.5V 识别图像,然后回答问题

分别是:

看下最后解决 LeetCode 中等难度题目的例子吧

提示词

Prompt:Can you write Python code that solves this?(你能编写 Python 代码来解决这个问题吗?)

Grok 回答

def find_triplets(nums):
    result = []
    nums.sort()
    
    for i in range(len(nums) - 2):
        if i > 0 and nums[i] == nums[i - 1]:
            continue
        
        target = -nums[i]
        left = i + 1
        right = len(nums) - 1
        
        while left < right:
            if nums[left] + nums[right] == target:
                result.append([-target, nums[left], nums[right]])
                left += 1
                right -= 1
                while left < right and nums[left] == nums[left - 1]:
                    left += 1
                while left < right and nums[right] == nums[right + 1]:
                    right -= 1
            elif nums[left] + nums[right] < target:
                left += 1
            else:
                right -= 1
    
    return result

我看了下官方给出的示例,看起来 Grok 1.5V 的 OCR 功能确实还可以。

大家有兴趣,也可以去看看官网给出的例子。

希望 Grok-1.5V 给出的例子是真是的,不要到后面开放的时候被打脸了。(不过马斯克这个人真不太好说

总结

从 Grok-1.5V 放出来的实例来看,Grok-1.5V 的图片识别能力还是很强的。毕竟 Grok-1.5V 是马斯克的,估计是借鉴了特斯拉的图像识别技术。

ChatGPT 刚刚更新了最新最强大的 GPT4-Turbo ,马斯克这边立马放出来了 Grok-1.5V 。

看来各家的大模型技术又要卷起来了啊。

现在的大模型的竞争,让我想起了当年国产手机的发布会的感觉,各家都不断迭代开发新技术发布新手机,都给我卷起来!

现在工作都离不开 ChatGPT 了。希望后面的大模型可以给我们带来更多的惊喜,最终收益的还是我们这些普通用户,

1572 次点击
所在节点    OpenAI
2 条回复
feirisu
216 天前
总感觉这些评测指标不是很靠谱。
我测试过一段字节压缩算法给 AI 解释并让给出优化方案,测试了 Opus ,和 GPT4 ,Opus 回答很明显不行,而 GPT4 确实能指出可优化的点,不知道是否是内置 prompt 的差距。
如果评测上各项指标都接近,我觉得至少应该给出类似的或接近的答案。
spoock1024
216 天前
@feirisu 我自己体验,GPT4 也是最好用的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032435

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX