V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ugpu
V2EX  ›  OpenAI

GPT-4o 实时语音对话是如何实现的?

  •  
  •   ugpu · 41 天前 · 2409 次点击
    这是一个创建于 41 天前的主题,其中的信息可能已经有所发展或是发生改变。

    GPT-4o 实时语音对话是如何实现的? 现在 iPad iPhone 有这些应用吗? 我看视频里 可汗学院 XX 教小孩子做数学题目 还能可视化? 如何实现有老铁分享下吗.

    21 条回复    2024-05-27 11:50:02 +08:00
    sentinelK
        1
    sentinelK  
       41 天前
    1 、这不是 4o 的新功能。gpt3.5 、4 早就可以语音对聊了。
    2 、语音对聊本质上就是语音识别>转换成文字上下文提交给 gpt>gpt 回复>口语化模型>文字转音频。
    sentinelK
        2
    sentinelK  
       41 天前
    3 、你所谓的“可视化”,其实就是上下文增加图片附件。
    itskingname
        3
    itskingname  
       41 天前   ❤️ 3
    之前的语音对话,都是语音->文字->问答->文字转语音

    GPT-4o 改成直接使用语音训练模型。它背后直接能够根据你的语音来回答,跳过了语音转文字的这一步。
    love060701
        4
    love060701  
       41 天前   ❤️ 1
    GPT-4o 是原生多模态模型,直接语音输入、语音输出,没有中间的其他步骤,现在没有应用能做到。视频里用的是 ChatGPT 客户端,把课程界面分享给 ChatGPT ,然后 ChatGPT 回答的。
    stonesirsir
        5
    stonesirsir  
       41 天前 via Android
    gpt-4o 的 api 可以语音对话吗?
    cannotagreemore
        6
    cannotagreemore  
       41 天前   ❤️ 1
    @sentinelK 可以看下他们的文章中专门有一段说了 GPT-4o 并不需要做额外的 ASR 和 TTS 而是原生的多模态模型,语音对话的延迟会明显降低
    James2099
        7
    James2099  
       41 天前
    之前是文本视觉音频分开训练的,现在文本、音频、视觉丢到一起训练,用的的是一个神经网络,以前要互相转换文字转语音,音频转文字,中间的时间就更久,还有会丢失细节,现在延迟几百毫秒
    James2099
        8
    James2099  
       41 天前
    现在的视觉是基于多帧图片不是真正的视觉,后面算力足够应该会加上 sora 级别的视觉感知,从视觉到视觉,有对物理世界的理解,现在只是平面图片级别的理解
    James2099
        9
    James2099  
       41 天前
    特斯拉做的 FSDV12 现在应该就是端到端的视觉,八个摄像头输入,然后输出控制,还有他的人形机器人
    xiaohundun
        10
    xiaohundun  
       41 天前
    啊?竟让不是 ASR\TTS ,这怎么做到的。。
    justfindu
        11
    justfindu  
       41 天前
    可打断并根据要求继续输出 我觉得这个有意思 怎么做的
    ugpu
        12
    ugpu  
    OP
       41 天前
    emmm 你们不觉得响应速度过快了吗? 所以我对背后真实的方案有存疑 仅仅他们的网络导致这么快的相应速度 以及中断速度吗?
    ugpu
        13
    ugpu  
    OP
       41 天前
    @sentinelK 纯 API 接口? 有这么快吗?
    mmdsun
        14
    mmdsun  
       41 天前 via iPhone   ❤️ 1
    gpt 那个没开放接口不知道,说下用过微软 Azure 语音,底层 websocket 当然可以实时语音了。

    https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/index-speech-to-text
    xsen
        15
    xsen  
       41 天前   ❤️ 1
    底层有可能走的是 webrtc ,直接就是端到端对话;若 gpt4o 可以 audio in audio out ,那延迟是可以做到 300ms 左右的——就是实时对话
    Hozoy
        16
    Hozoy  
       41 天前   ❤️ 1
    OpenAI:“我们计划在未来几周内以 alpha 版的形式推出具有这些新功能的新语音模式,随着我们更广泛地推出,Plus 用户可以抢先体验。”
    ETiV
        17
    ETiV  
       41 天前 via iPhone
    我也觉得是 WebRTC ,音视频以“流”的形式在本地和远程之间互动
    Tink
        18
    Tink  
       41 天前
    多模态就是这样的呀
    DIO
        19
    DIO  
       41 天前
    以后智能语音客服真假难辨喽
    DigitalG
        20
    DigitalG  
       41 天前
    4o 有新增的语音对话 feature ( voice model ),还在“rolling to Plus users in the coming weeks.” (来源 openai 的社区),跟之前的模型有复用部分,单不完全是同一个东西。目前 app 里的后端模型应该有混合吧,我猜。不知道有没有什么分辨的办法。
    silencelixing
        21
    silencelixing  
       29 天前
    你们都是在哪里体验的语音对话?我怎么找不到入口在哪儿?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1662 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 16:49 · PVG 00:49 · LAX 09:49 · JFK 12:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.