V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
kai4tech111
V2EX  ›  OpenAI

openai o1 有哥们体验吗?说说感受

  •  
  •   kai4tech111 · 5 天前 · 4950 次点击

    个人感觉还是不如 claude 家 3.5 强,没有续费的必要

    44 条回复    2024-09-15 11:46:33 +08:00
    ibazhx
        1
    ibazhx  
       5 天前
    一周只能 30 次
    zmxnv123
        2
    zmxnv123  
       5 天前
    听说擅长的方向是推理,比如做做奥赛什么的?,跟 claude 的使用场景不太一样
    hardto
        3
    hardto  
       5 天前
    推理吊打 claude ,感觉 o1-mini 吊打 o1
    Avafly
        4
    Avafly  
       5 天前
    感觉就是话贼多, 一个回答能老长了看起来都费劲.
    话说从 4o 开始回答就变得长了很多, 是不是以为字越多回答越有含金量啊.
    haoji
        5
    haoji  
       5 天前
    o1-preview 一个劲的给你分析,最后出结果,适合需要“解题过程”的场景
    kai4tech111
        6
    kai4tech111  
    OP
       5 天前
    @Avafly #4 是的 gpt 家族风格,应该和后期人工对齐有关
    cherryas
        7
    cherryas  
       5 天前
    cot 是数学推理的必要方向这是楼下李奶奶都知道的事。强是强,也确实跨时代,但是本质就是 cot+agent ,其它模型半年内应该能追上来
    kai4tech111
        8
    kai4tech111  
    OP
       5 天前
    @haoji #5 有点像做数学题多写解题过程就能多拿分一样
    kai4tech111
        9
    kai4tech111  
    OP
       5 天前
    @ibazhx #1 看看公开的 api 价格就知道了,15$/1M input token, 60$/1M output token
    (之前还听说要增加一个 pro 套餐才能用,看来还是太人道了)
    kai4tech111
        10
    kai4tech111  
    OP
       5 天前
    @cherryas #7 虽然大家都知道,但敢为先还是值得肯定的,不然都等着抄别人那就完了
    yena
        11
    yena  
       5 天前 via iPhone
    出了一道补全至完全二叉树的题,还是做不出来
    bhy
        12
    bhy  
       5 天前
    @yena 能具体说说,或者分享下对话记录吗?
    wweerrgtc
        13
    wweerrgtc  
       5 天前
    肯定是比以前厉害不少, 但是和 claude 3.5 比, 我不知道, 只开了一个会员

    看演示视频, 其实也是一些简单问题, 不是很复杂的
    lunafreya
        14
    lunafreya  
       5 天前 via iPhone
    但人家拿出了新的 Scaling Law, 把玄学变成了科学,至少是经验科学
    kyro00000
        16
    kyro00000  
       5 天前
    到底有 ai 能做有机化学题吗? 头疼..
    otakustay
        17
    otakustay  
       5 天前
    @Avafly 因为 Transformer 注定了前文越准确生成就越准确嘛,话多不就是为了替用户你把前文补上
    easyii
        18
    easyii  
       5 天前
    那写代码的话 是 Claude 好用 还是 ChatGPT 现在是 ChatGPT 会员
    meeop
        19
    meeop  
       5 天前   ❤️ 1
    用我最喜欢的写 todolist 测试,和之前的 4o 差不多,但是因为新模型多了一个分析用户输入的步骤,自动扩展完善了我的 promot,todolist 自带了删除,划掉按钮,还有已完成的 todo 的过滤器

    但是上述要求我并没有说

    对于普通用户,这可能更好,输出效果变好
    对于生产或者更专业的用户,这就有点坑了,ai 自动帮你脑补了你没要求的功能
    lihanst
        20
    lihanst  
       5 天前
    @ibazhx poe 一个月只能用 30 来次..,
    SLKun
        21
    SLKun  
       5 天前
    在做数学题方面感觉显著好于之前的所有模型 就是太贵了
    guanchayuan
        22
    guanchayuan  
       5 天前
    解答这题还不如 4o:

    有 5 个重量都互不相同的箱子,每个的重量都小于 100 千克。将这些箱子两两组合在一起称重,得到的结果分别是:113 ,116 ,110 ,117 ,112 ,118 ,114 ,121 ,120 与 115 千克,请问最重的箱子为多少千克?

    你们可以试试。
    Hyxiao
        23
    Hyxiao  
       5 天前
    这玩意输出太猛了,我反复跟他强调几遍了,别给出这么多的信息,还是不肯改
    wweerrgtc
        24
    wweerrgtc  
       5 天前
    @guanchayuan #22
    o1 给的答案:62.5 千克

    正确答案是多少?
    Avafly
        25
    Avafly  
       5 天前 via iPhone
    @otakustay 很多是没用的废话,比如把我的内容重复一次然后回答,莫名其妙附上一大段代码,以前不这样的。特别用了 claude 之后对比更强烈了。
    HKzy
        26
    HKzy  
       5 天前
    摆烂了,俺们现在都用豆包
    zmxnv123
        27
    zmxnv123  
       5 天前
    @guanchayuan 这题就不对啊,五个箱子分别重?
    zmxnv123
        28
    zmxnv123  
       5 天前
    5 个箱子重量从大到小 x_1, x_2, x_3, x_4, x_5

    x_1 + x_2 = 121
    x_4 + x_5 = 110
    zmxnv123
        29
    zmxnv123  
       5 天前
    x_1 + x_3 = 120,
    x_5 + x_3 = 112,
    x_1 + x_2 + x_3 + x_4 + x_5 = (重量和) / 4 = 289

    解上面五个方程得到 54, 56, 58, 59,62
    aiqinxuancai
        30
    aiqinxuancai  
       5 天前
    我感觉实际上他是对某个模型进行多次调用,实现类似 dify 多步工作流的处理方式。

    比如:
    第 1 次调用,拆分问题
    第 2 次调用,针对拆分后的问题进行解答
    第 3 次调用,纠正解答的中存在的问题并重新解答

    再或者:
    第 1 次调用,解决问题
    第 2 次调用,指出解决方案中存在的问题
    第 3 次调用,根据指出的问题再次解答
    kai4tech111
        31
    kai4tech111  
    OP
       5 天前
    @easyii #18 省流,claude
    kai4tech111
        32
    kai4tech111  
    OP
       5 天前
    @aiqinxuancai #30 是的 有额外的推理过程,看他们的 api 介绍里就能发现,而且计费也包含这部分
    guanchayuan
        33
    guanchayuan  
       5 天前
    @zmxnv123 你这个是哪个 AI 模型解答的。 还是人工解答的。
    h272377502
        34
    h272377502  
       5 天前
    @hardto 怎么个吊打 claude ,你比了啥,就得出这结论
    ztmzzz
        35
    ztmzzz  
       5 天前 via iPhone   ❤️ 1
    o1 更新了训练数据,现在学到了 lean4 了,4o 只学到了 lean3
    xuelang
        36
    xuelang  
       5 天前
    https://selfboot.cn/2024/09/13/gpto1_hands_on/
    早上就把 preview 额度干完了。。 试了下,代码和推理有一点提高,不过也没有和 Claude 拉开很大差距。
    中文理解和生成,还得是 Claude3.5
    piero66
        37
    piero66  
       5 天前
    很强,有一定的思维能力,更接近懂点东西的真人的解题方式了
    LanhuaMa
        38
    LanhuaMa  
       5 天前
    @guanchayuan

    ```text
    There are 5 crates, each has a unique weight less than 100kg. The crates are weighted in groups of two and the results obtained are 113, 116, 110, 117, 112, 118, 114, 121, 120 and 115 kg. What's the weight of the heaviest crate?```

    ```text
    To solve this problem, we’ll need to find the unique weights of the five crates based on the sums of all possible pairs. Here’s a step-by-step explanation:

    Step 1: List the given sums and identify the smallest and largest sums.

    ...

    Conclusion:

    The weights of the crates are:

    • a = 54 kg
    • b = 56 kg
    • c = 58 kg
    • d = 59 kg
    • e = 62 kg

    Answer: 62 kg

    ```

    鸡巴啰嗦了一大堆最后总算是解出来了,就这题的表现来看确实不如 gpt4o 。
    guanchayuan
        39
    guanchayuan  
       4 天前
    @LanhuaMa 我用中文没解出来,英文可以?那下次是不是可以先翻译,然后用英语来解数学题?
    LanhuaMa
        40
    LanhuaMa  
       4 天前
    @guanchayuan 我日常问 gpt 都是英文的,中文 gpt 感觉有点唐,不敢让他指导我写代码...

    图省事可以让 GPT 先把你上一句话翻译一遍,然后叫他根据翻译的内容用英文输出,这样也能取得类似英文的质量的
    NiaoBlush
        41
    NiaoBlush  
       4 天前 via iPhone
    搜了好几道题目分别用 4o 和 o1 试了下,大多数给的答案是对的,以下是一道给出答案不一样的:

    题目:一个人在林中散步时,无意中听到了几个强盗在商量如何分赃。强盗们说,如果每人分 6 匹布,则剩余 5 匹;如果每人分 7 匹布,则少 8 匹。请问:共有几个强盗?几匹布?

    4o 给的答案:设共有 \( x \) 个强盗,布匹总数为 \( y \)。

    根据题意,列出以下方程:
    1. 每人分 6 匹布,剩余 5 匹:即 \( y \equiv 5 \pmod{6} \),表示 \( y = 6x + 5 \)。
    2. 每人分 7 匹布,少 8 匹:即 \( y \equiv -8 \pmod{7} \),也就是 \( y \equiv -8 + 7 = -1 \equiv 6 \pmod{7} \),表示 \( y = 7x - 8 \)。

    于是我们有两组同余条件:
    \[
    y \equiv 5 \pmod{6}
    \]
    \[
    y \equiv 6 \pmod{7}
    \]

    通过解这组同余方程,可以求出总共有多少强盗以及多少匹布。根据求解得出,最终答案为:
    **总共有 59 匹布,9 个强盗**。


    o1 给的答案:
    NiaoBlush
        42
    NiaoBlush  
       4 天前 via iPhone
    接上面,o1 给的答案:**答案:**

    共有 **13** 个强盗,**83** 匹布。

    ---

    **解题过程:**

    设强盗人数为 \( x \),布的总数为 \( y \)。

    1. **每人分 6 匹布,剩余 5 匹:**

    \[
    y = 6x + 5 \quad \text{( 1 )}
    \]

    2. **每人分 7 匹布,还差 8 匹:**

    \[
    y + 8 = 7x \quad \text{( 2 )}
    \]

    3. **解方程组:**

    将方程( 1 )代入方程( 2 ):

    \[
    6x + 5 + 8 = 7x \\
    6x + 13 = 7x \\
    7x - 6x = 13 \\
    x = 13
    \]

    4. **求布的总数:**

    将 \( x = 13 \) 代入方程( 1 ):

    \[
    y = 6 \times 13 + 5 = 78 + 5 = 83
    \]

    **结论:**

    共有 **13** 个强盗,**83** 匹布。
    assassing
        43
    assassing  
       4 天前   ❤️ 1
    怼了两天把额度用完,结论是在编程方面不如 GPT-4 。注意不是 4o ,这个 o1 像在 4o 路线上演变出来的。o1mini 回答大概率和 o1 一模一样,不用纠结他们之间的区别。

    特点 1:输出超长,但如果持续对话会发现它经常重复前面回答过的内容。生成代码方面会有优势,以前代码要分多次输出,有时会中断,现在不担心这个问题。当然我还没来得及考察代码质量。

    特点 2:输出稳定,多次问同一个问题,回答大概只有 10% 不同,如果应用在图像生成上会很有用。但由于幻觉依旧,也就是你的问题它给你错误回答,重复问它还是给你同样的错误答案,而不像以前重新生成会有改观。

    特点 3:有所保留,这点从 4o 开始感受明显。就像一个高中数学老师被调任教小学,你问它初中数学知识,它反复给你讲解小学数学概念。只有在追问 5 轮之后它才开始说一些真正的重点,浪费很多时间。

    也许是时候试试 Claude 了?
    rebeccaMyKid
        44
    rebeccaMyKid  
       3 天前
    @Avafly 输出太长+1 ,日常使用感觉有点倒退。可能适合拿来一些需要详细 reasoning 的问题?目前就我浅浅的常识,感觉还是 4o 好用。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1270 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 23:26 · PVG 07:26 · LAX 16:26 · JFK 19:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.