顽固性失眠吃什么药| 淋巴结有血流信号预示着什么| 生育登记服务单是什么| 提心吊胆是什么意思| 生肖牛和什么生肖最配| 胃字出头念什么| 冰箱里有什么细菌| 阎王爷姓什么| 复光是什么意思| 抵抗是什么意思| 硅胶是什么材料做的| 纣王叫什么名字| 王为念和王芳什么关系| 血糖高能喝什么粥| 五指毛桃长什么样子| 巨蟹男喜欢什么类型的女生| 有氧运动和无氧运动有什么区别| 月经刚完同房为什么痛| 胃溃疡是什么原因引起的| 重睑术是什么意思| 心理学属于什么学科| 口引念什么| 什么什么害命| 什么叫野鸡大学| 要强是什么意思| 什么叫点映| 咖啡加什么最好喝| 藏红花不能和什么一起吃| 山药跟淮山有什么区别| 31岁属什么生肖| 羊水破了有什么感觉| 口甜是什么原因引起的| 吃中药不能吃什么东西| 蛋白质变性的本质是什么| 五味子有什么作用| 银子有什么功效与作用| 棕色是什么颜色| 梵是什么意思| 吃什么可以去脂肪肝| 甲状腺不能吃什么食物| 低压高是什么意思| hpv感染后有什么症状| 胸闷是什么症状| 诺如病毒是什么| vam是什么意思| 什么玉最好有灵性养人| hpv16是什么| 白色加红色等于什么颜色| ed50是什么意思| 什么东西越生气越大| 寂寞是什么意思| cosmo是什么意思| 烤冷面是什么材料做的| 紫菜是什么植物| 优思明是什么| 闫学晶是什么军衔| 尖锐湿疣是什么| 下蛊是什么意思| 12月29号是什么星座| 鲱鱼在中国叫什么鱼| 胃食管反流什么症状| 白电油对人体有什么危害| 仇在姓氏中读什么| 音序是什么意思| 8月份是什么星座| 车工是做什么的| 特别能睡觉是什么原因引起的| 什么时候闰十月| 望穿秋水的意思是什么| 血小板吃什么补得快点| 什么是PC出轨| 伏天是什么意思| 百合病是什么病| 小孩子晚上睡觉磨牙是什么原因| 高回声结节是什么意思| 天相是什么意思| 多囊性改变是什么意思| 麦麸是什么意思| 贫血三项是指什么检查| 打三个喷嚏代表什么| barry什么意思| 中单是什么意思| 为什么痣上面会长毛| 压箱钱是什么意思| 备考是什么意思| 主治医师是什么级别| 中国的国菜是什么| 太息是什么意思| 手指关节疼痛挂什么科| 男人第一次什么 感觉| 吃什么水果对肾好| 小儿割包皮挂什么科| 虎头蜂泡酒有什么功效| 7月7号是什么星座| crp是什么| 藏在我回忆里的那个人什么歌| 家里起火代表什么预兆| 同化是什么意思| 一个山一个脊念什么| 神经痛吃什么药| 看望病人送什么花| 白蚂蚁长什么样子图片| 乳腺结节3类什么意思| 作精是什么意思| 甲状腺功能检查挂什么科| 小孩子包皮挂什么科| 克罗恩病是什么病| 蚊子的幼虫叫什么| 梦见死蛇是什么预兆| 脚趾甲变黑是什么原因| 无量寿佛是什么意思| 涤棉是什么材质| 917是什么意思| 窜稀是什么意思| vivian是什么意思| 什么情况下需要做肠镜| 依非韦伦片治什么病的| 本科属于什么学位| 基围虾为什么叫基围虾| 乙肝两对半25阳性是什么意思| 为什么总是长口腔溃疡| 今天是什么节气| 炖排骨放什么调料| 胆结石吃什么药可以化掉结石| 急火攻心是什么生肖| 十一月五号是什么星座| 胃反酸水是什么原因| 什么叫多动症| 不妄作劳什么意思| 糖尿病吃什么主食最好| 尿浑浊是什么原因| 身上起红点是什么原因| 窗口期什么意思| 火头鱼是什么鱼| 商业保险报销需要什么材料| 皮肤镜能检查出什么| 肝血不足吃什么| 什么是钙化点| 孩子咳嗽有痰吃什么药| 松花蛋是什么蛋| 痘痘挤出来的白色东西是什么| 狗生小狗前有什么征兆| 回复是什么意思| 为什么一吃饭就肚子疼| 多囊卵巢综合症是什么原因造成的| lcc是什么意思| 两鬓长白发是什么原因| 臆想症是什么意思| 查血糖血脂挂什么科| 人事是做什么的| 永五行属什么| 为什么泡完脚后非常痒| 何以笙箫默什么意思| 抱薪救火是什么意思| 清浅是什么意思| 老是拉肚子什么原因| 我国的国球是什么球| 9月12是什么星座| 毛囊炎是什么引起的| 医生为为什么建议不吃生菜| 梦见生小孩是什么征兆| 皮赘用什么药膏去除| 梦见自己给自己剪头发是什么意思| 柠檬泡水喝有什么作用| 02年的属什么| 私处痒是什么原因| 布五行属什么| 瑞舒伐他汀钙片什么时候吃| 吃葡萄有什么好处| beko是什么牌子| 心脏供血不足吃什么药好| 梦到屎是什么意思| 虚岁28岁属什么生肖| das是什么意思| 猫代表什么数字| 无花果和什么不能一起吃| dove什么意思| 风湿三项检查是什么| 硬不起来吃什么好| 精湛是什么意思| qty什么意思| 狗狗感冒了是什么症状| 老公梦见老婆出轨是什么意思| 大连焖子是什么做的| 子衿什么意思| 鳝鱼吃什么| 多种维生素什么牌子的效果最好| 肾结水是什么原因造成的| 祖马龙香水什么档次| 印度为什么那么热| mssa是什么细菌| 梦见金项链是什么意思| 反流性食管炎是什么症状| 肝郁有什么症状| 血清铁蛋白是检查什么| 县级干部是什么级别| 女性什么时候绝经| 儿童胃肠型感冒吃什么药| 什么叫活佛| 慎重是什么意思| 宝宝老是摇头是什么原因| crayon是什么意思| 两个马念什么| 乌龟一般吃什么东西| 金骏眉茶是什么茶| 蓝精灵是什么药| 定妆喷雾什么时候用| 脖子皮肤黑是什么原因| 唐僧肉是什么意思| 为什么油耳朵就有狐臭| 路由器什么牌子好| 忌诸事不宜是什么意思| 心境情感障碍是什么病| avia是什么牌子| 海星吃什么食物| 隔桌不买单是什么意思| 山的五行属什么| 怀孕什么时候可以同房| 虾米吃什么| 悬壶济世是什么意思| 愚孝什么意思| 肾积水吃什么药最好| 脱肛是什么症状| 孩子打喷嚏流鼻涕吃什么药| 酵母是什么东西| tpo是什么| 被螨虫咬了用什么药膏| 什么是跑马| chick什么意思| 梅花手表属于什么档次| 盔甲是什么意思| 经常生气会得什么病| 遗忘的遗是什么意思| 食物中毒什么症状| 不过是什么意思| 湿疹为什么晚上特别痒| 隐喻的意思是什么| 吃什么通大便最快| 膀胱过度活动症吃什么药| 下水是什么意思| 菓是什么意思| 新诺明又叫什么| 几天不大便是什么原因| 过敏能吃什么| 晚上两点是什么时辰| 圣诞节送什么好| 刺身是什么意思| 指甲上的白色月牙代表什么| 你喜欢吃什么用英语怎么说| 淋巴结增大是什么原因严重吗| 送镜子代表什么意思| 大头瘟现代叫什么病| 男的为什么喜欢男的| 什么时期最容易怀孕| 什么是真心| 蝴蝶兰什么时候开花| 血铅是什么| 水生木是什么意思| 墙头是什么意思| 落花雨你飘摇的美丽是什么歌| 1968年五行属什么| 今年什么时候起伏| 送什么生日礼物给妈妈| 什么季节减肥效果最快最好| 百度
资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

校服需要国标也需要破除垄断

接口描述

百度端到端语音语言大模型基于业内首创的Cross-Attention跨模态语音大模型,具备极速响应、拟人音色,实现真人级别语音对话交互。极致共情、超高双商,支持深度需求理解与复杂任务执行。广泛应用于实时语音交互的情感陪伴、社交娱乐以及知识问答等场景。请点击链接进入端到端语音大模型详情。

申请试用

本接口处于邀测阶段,如需使用,请先提交合作咨询,或者提交工单,提供公司名称、Cloud ID、应用场景,工作人员协助开通权限后方可使用。

产品优势

超低时延:基于业内创新的Cross-Attention技术,在对话过程中将用户等待时长从行业常见的3-5秒大幅缩短至1秒左右,实现了比拟真人对话的即时响应速度,树立行业标杆。
极致共情:基于真正的端到端跨模态语音大模型,能够感知原始语音携带的情绪与语气信息,充分理解用户意图与情境要求,更好地服务情感陪伴、 社交娱乐等场景。
超拟人音色:合成前端融入大语言模型,成就高自然度、高表现力的语音合成系统,使合成音频听感更加自然流畅,语气更加符合情境,情感更加接近真人,语调更加具有韵律。

接口调用详情

交互流程

79d54b3b3c405ed8a4e6f701644e6cda.png

response事件交互

41a84ad036f65574aedf4be18e92127e.png

接口说明

请求地址

请求地址:wss://aip.baidubce.com/ws/2.0/speech/v1/realtime

认证鉴权

支持 API Key 和 access_token 两种方式,具体请参考鉴权认证机制

请求参数

URL中放置请求参数,参数如下:

参数名称 类型 是否必填 说明
model string 必填 模型名称,目前支持audio-realtime

示例:wss://aip.baidubce.com/ws/2.0/speech/v1/realtime?model=audio-realtime


客户端事件

session.update

事件描述

客户端session.update事件用于更新会话的默认配置,服务端以session.updated包含完整有效配置的事件进行响应

事件参数

参数名称 类型 是否必填 说明
type string 必填 事件类型,必须是session.update
event_id string 可选 事件唯一标识
session UpdateSession 必填 会话配置

示例

{
    "type": "session.update",
    "session": {
        "input_audio_transcription": {
            "model": "default"
        }
    }
}

input_audio_buffer.append

事件描述

客户端input_audio_buffer.append事件用于将音频字节附加到输入音频缓冲区

事件参数

参数名称 类型 是否必填 说明
type string 必填 事件类型,必须是input_audio_buffer.append
event_id string 可选 事件唯一标识
audio string 必填 Base64 编码的音频字节

示例

{
    "type": "input_audio_buffer.append",
    "audio": "audio_base64"
}

服务端事件

session.created

事件描述

服务端session.created事件是建立新连接时的第一个服务器事件,此事件会使用默认会话配置创建并返回一个新会话

事件参数

参数名称 类型 说明
type string 事件类型,必须是session.created
event_id string 事件唯一标识
session Session 会话配置

示例

{
    "type": "session.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_Hjr7Au95",
    "session": {
        "id": "sess_ywqGIVMsrQKh8jY4WhYZ",
        "object": "realtime.session", 
        "expires_at": 1752218581, 
        "input_audio_format": "pcm16", 
        "input_audio_noise_reduction": null, 
        "input_audio_transcription": null, 
        "instructions": "", 
        "max_response_output_tokens": "inf", 
        "modalities": [
            "text",
            "audio"
        ], 
        "model": "audio-realtime", 
        "output_audio_format": "pcm16", 
        "speed": 1, 
        "temperature": 0.8, 
        "tool_choice": "auto", 
        "tools": [], 
        "tracing": null, 
        "turn_detection": {
            "type": "server_vad", 
            "threshold": 0.5, 
            "prefix_padding_ms": 300, 
            "silence_duration_ms": 200, 
            "create_response": true, 
            "interrupt_response": true
            }, 
        "voice": "default"
        }
}

session.updated

事件描述

服务端session.updated对客户端用于更新会话默认配置的session.update事件进行响应,响应事件包含完整有效配置

事件参数

参数名称 类型 说明
type string 事件类型,必须是session.updated
event_id string 事件唯一标识
session Session 会话配置

示例

{
    "type": "session.updated", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_hSIhy0aC", 
    "session": {
        "id": "sess_ywqGIVMsrQKh8jY4WhYZ", 
        "object": "realtime.session", 
        "expires_at": 1752218581, 
        "input_audio_format": "pcm16", 
        "input_audio_noise_reduction": null, 
        "input_audio_transcription": {
            "model": "default", 
            "language": null,
            "prompt": null
        }, 
        "instructions": "", 
        "max_response_output_tokens": "inf", 
        "modalities": [
            "text",
            "audio"
        ], 
        "model": "audio-realtime", 
        "output_audio_format": "pcm16", 
        "speed": 1, 
        "temperature": 0.8, 
        "tool_choice": "auto",
        "tools": [], 
        "tracing": null, 
        "turn_detection": {
            "type": "server_vad", 
            "threshold": 0.5, 
            "prefix_padding_ms": 300, 
            "silence_duration_ms": 200, 
            "create_response": true, 
            "interrupt_response": true
        }, 
        "voice": "default"
    }
}

conversation.created

事件描述

会话创建后,立即返回服务端conversation.created事件

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.created
event_id string 事件唯一标识
conversation Conversation 会话资源

示例

{
    "type": "conversation.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_bt89NXfx", 
    "conversation": {
        "id": "conv_auVpdUi6cvWu5ANDjL25", 
        "object": "realtime.conversation"
        }
}

conversation.item.created

事件描述

客户端发过来的音频已加入到对话中时,返回conversation.item.created服务端事件

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.created
event_id string 事件唯一标识
previous_item_id string 在对话中此项目之前的项目的 ID,创建的首个项目该值为null
item ConversationItem 创建的消息

示例

{
    "type": "conversation.item.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_CklwHSkg", 
    "previous_item_id": null, 
    "item": {
        "id": "item_ywqGIVMsrQKh8jY4WhYZ_001", 
        "object": "realtime.item", 
        "type": "message", 
        "status": "completed", 
        "role": "user", 
        "content": [{
            "type": "input_audio", 
            "transcript": "今天天气怎么样?"
            }]
        }
}

conversation.item.input_audio_transcription.delta

事件描述

输入音频对应的ASR识别结果

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.input_audio_transcription.delta
event_id string 事件唯一标识
item_id string 用户消息项目的 ID
content_index integer 默认0
delta string 识别文本

示例

{
    "type": "conversation.item.input_audio_transcription.delta", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_8o0XL7DD", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001", 
    "content_index": 0, 
    "delta": "今"
}

conversation.item.input_audio_transcription.completed

事件描述

服务端conversation.item.input_audio_transcription.completed事件是将语音的音频转录写入音频缓冲区的结果

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.input_audio_transcription.completed
event_id string 事件唯一标识
item_id string 包含音频的用户消息项目的 ID
content_index integer 包含音频的内容部分的索引
transcript string 转录出的文本

示例

{
    "type": "conversation.item.input_audio_transcription.completed", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_sCk3x7cv", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001", 
    "content_index": 0, 
    "transcript": "今天天气怎么样?"
}

conversation.item.input_audio_transcription.failed

事件描述

当配置了输入音频转录,并且用户消息的转录请求失败时,会返回服务器conversation.item.input_audio_transcription.failed事件。此事件与其他事件分开,error以便客户端可以识别相关项目

事件参数

参数名称 类型 说明
type string 事件类型,必须是conversation.item.input_audio_transcription.failed
event_id string 事件唯一标识
item_id string 用户消息项目的ID
content_index integer 包含音频的内容部分的索
error Error 转录错误的详细信息。

示例

{
    "type": "conversation.item.input_audio_transcription.failed",
    "event_id": "event_Ula21nRHDN0DDc4GT280_3f38VTVO",
    "item_id": "item_Ula21nRHDN0DDc4GT280_001",
    "content_index": 0,
    "error": {
        "type": "server_error",
        "code": "internal",
        "message": "error message"
    }
}

input_audio_buffer.committed

事件描述

当输入音频缓冲区提交时,返回服务端事件input_audio_buffer.committed

事件参数

参数名称 类型 说明
type string 事件类型,必须为input_audio_buffer.committed
event_id string 事件唯一标识
previous_item_id string 在对话中此项目之前的项目的 ID,创建的首个项目该值为null
item_id string 创建消息项目的ID

示例

{
    "type": "input_audio_buffer.committed", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_kyvsH2Ur", 
    "previous_item_id": null, 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001"
}

input_audio_buffer.speech_started

事件描述

当在音频缓冲区中检测到语音时,在server_vad模式下返回服务端input_audio_buffer.speech_started事件

事件参数

参数名称 类型 说明
type string 事件类型必须是input_audio_buffer.speech_started
event_id string 事件唯一标识
item_id string 服务端检测到客户端会话时,语音停止时会创建的用户消息项的ID

示例

{
    "type": "input_audio_buffer.speech_started", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_W3Zas9hP", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001"
}

input_audio_buffer.speech_stopped

事件描述

当服务端检测到音频缓冲区中的语音结束时,返回input_audio_buffer.speech_stopped服务端事件

事件参数

参数名称 类型 说明
type string 事件类型,必须是input_audio_buffer.speech_stopped
event_id string 事件唯一标识
item_id string 用户消息项目的 ID

示例

{
    "type": "input_audio_buffer.speech_stopped", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_s0ROBCxD", 
    "item_id": "item_ywqGIVMsrQKh8jY4WhYZ_001"
}

response.created

事件描述

当初次响应被创建时,会返回服务端response.created事件。这是响应创建的第一个事件,响应的初始状态为in_progress

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.created
event_id string 事件唯一标识
response Response 响应对象

示例

{
    "type": "response.created", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_nclqvTp", 
    "response": {
        "id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
        "object": "realtime.response", 
        "status": "in_progress", 
        "status_details": {
            "type": "in_progress"
        }, 
        "output": [], 
        "conversation_id": "conv_auVpdUi6cvWu5ANDjL25", 
        "modalities": [
            "text",
            "audio"
        ], 
        "voice": "default", 
        "output_audio_format": "pcm16", 
        "temperature": 0.8, 
        "max_output_tokens": "inf"
        }
}

response.done

事件描述

当响应流式传输完成后,无论最终状态如何,会返回服务器事件response.done,事件中包含的响应对象包含响应中的所有输出项,但会省略原始音频数据

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.done
response Response 响应对象

示例

{
    "type": "response.done", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_07u3tDT3", 
    "response": {
        "id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
        "object": "realtime.response", 
        "status": "cancelled", 
        "status_details": {
            "type": "cancelled", 
            "reason": "turn_detected"
        }, 
        "output": [{
            "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
            "object": "realtime.item", 
            "type": "message", 
            "status": "incomplete", 
            "role": "assistant", 
            "content": [{
                "type": "audio", 
                "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
            }]
        }], 
        "conversation_id": "conv_auVpdUi6cvWu5ANDjL25", 
        "modalities": [
            "text",
            "audio"
        ], 
        "voice": "default", 
        "output_audio_format": "pcm16", 
        "temperature": 0.8, 
    "max_output_tokens": "inf"
    }
}

response.output_item.added

事件描述

response.output_item.added在响应生成期间创建新项目消息

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.output_item.added
event_id string 事件唯一标识
response_id string 该项目所属的响应的 ID
output_index integer 响应中输出项的索引
item ConversationItem 已添加的项目

示例

{
    "type": "response.output_item.added", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_yvrV5UAs", 
    "response_id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
    "output_index": 0, 
    "item": {
        "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
        "object": "realtime.item", 
        "type": "message", 
        "status": "in_progress", 
        "role": "assistant", 
        "content": []
        }
}

response.output_item.done

事件描述

当项目流式传输完成时或响应被中断、不完整或取消时,将返回此服务器事件response.output_item.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.output_item.added
event_id string 事件唯一标识
response_id string 该项目所属的响应的 ID
output_index integer 响应中输出项的索引
item ConversationItem 已添加的项目

示例

{
    "type": "response.output_item.done", 
    "event_id": "event_ywqGIVMsrQKh8jY4WhYZ_TDVWUShW", 
    "response_id": "resp_ywqGIVMsrQKh8jY4WhYZ_001", 
    "output_index": 0, 
    "item": {
        "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
        "object": "realtime.item", 
        "type": "message", 
        "status": "incomplete", 
        "role": "assistant", 
        "content": [{
            "type": "audio", 
            "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
            }]
        }
}

response.content_part.added

事件描述

在响应生成期间将新的内容部分添加到助手消息项时,将返回服务器事件response.content_part.added

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.content_part.added
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
part ConversationItemContent 新增的内容部分

示例

 {
        "type": "response.content_part.added",
        "event_id": "event_Ula21nRHDN0DDc4GT280_wa1BMTuP",
        "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
        "item_id": "item_Ula21nRHDN0DDc4GT280_002",
        "output_index": 0,
        "content_index": 0,
        "part": {
            "type": "audio",
            "transcript": ""
        }
}

response.content_part.done

事件描述

在响应生成期间将内容部分添加到助手消息项完成时,将返回服务器事件response.content_part.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.content_part.done
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
part ConversationItemContent 内容部分

示例

{
    "type": "response.content_part.done",
    "event_id": "event_Ula21nRHDN0DDc4GT280_L6W3WslV",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "part": {
        "type": "audio",
        "transcript": "当然会呀!一闪一闪亮晶晶,满天都是小星星,挂在天上放光明,好像许多小眼睛!要不要我再唱一段给你听呀?"
    }
}

response.audio.delta

事件描述

在响应生成期间音频内容发生变化时,将返回服务器事件response.audio.delta

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio.delta
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
delta string 音频内容的base64编码

示例

 {
    "type": "response.audio.delta",
    "event_id": "event_Ula21nRHDN0DDc4GT280_yZemLoGb",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "delta": "audio_base64"
}

response.audio.done

事件描述

在响应生成期间音频内容完成时,将返回服务器事件response.audio.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio.done
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引

示例

{
    "type": "response.audio.done",
    "event_id": "event_Ula21nRHDN0DDc4GT280_WLL6zFxV",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0
}

response.audio_transcript.delta

事件描述

在响应生成期间将新的内容部分添加到助手消息项时,将返回服务器事件response.audio_transcript.delta

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio_transcript.delta
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
delta string 转录文本

示例

 {
    "type": "response.audio_transcript.delta",
    "event_id": "event_Ula21nRHDN0DDc4GT280_4iuzQnqh",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "delta": "当然会呀"
}

response.audio_transcript.done

事件描述

在响应生成期间将新的内容部分添加到助手消息项时,将返回服务器事件response.audio_transcript.done

事件参数

参数名称 类型 说明
type string 事件类型,必须是response.audio_transcript.done
event_id string 事件唯一标识
response_id string 响应的 ID
item_id string 添加了内容部分的消息项目的 ID
output_index integer 响应中输出项的索引
content_index integer 项目内容数组中内容部分的索引
transcript string 转录文本

示例

{
    "type": "response.audio_transcript.done",
    "event_id": "event_Ula21nRHDN0DDc4GT280_eS2AxK1L",
    "response_id": "resp_Ula21nRHDN0DDc4GT280_001",
    "item_id": "item_Ula21nRHDN0DDc4GT280_002",
    "output_index": 0,
    "content_index": 0,
    "transcript": "当然会呀!一闪一闪亮晶晶,满天都是小星星,挂在天上放光明,好像许多小眼睛!要不要我再唱一段给你听呀?"
}

数据类型

Session

类型描述

该session数据类型代表API中的会话

类型参数

参数名称 类型 说明
id string 会话的唯一 ID
object string 固定值realtime.response
expires_at integer 会话过期的时间戳,以秒为单位
input_audio_format string 输入音频的格式,默认pcm16
input_audio_noise_reduction InputAudioNoiseReduction 输入音频降噪配置,null表示不开启
input_audio_transcription InputAudioTranscription 输入音频转录配置,null表示不开启
instructions string 系统指令
max_response_output_tokens integer / string 模型生成输出的最大token数,默认"inf"
modalities string [] 输出模态,仅支持["text", "audio"]
model string 模型名称
output_audio_format string 目前仅支持pcm16
speed float 语速,默认1.0
temperature float 模型的采样温度
turn_detection TurnDetection 轮次检测VAD配置,null表示关闭VAD
voice string 模型用于响应的语音

示例

{
    "id": "sess_ywqGIVMsrQKh8jY4WhYZ", 
    "object": "realtime.session", 
    "expires_at": 1752218581, 
    "input_audio_format": "pcm16", 
    "input_audio_noise_reduction": null, 
    "input_audio_transcription": {
        "model": "default", 
        "language": null,
        "prompt": null
    }, 
    "instructions": "", 
    "max_response_output_tokens": "inf", 
    "modalities": [
        "text",
        "audio"
    ], 
    "model": "audio-realtime", 
    "output_audio_format": "pcm16", 
    "speed": 1, 
    "temperature": 0.8, 
    "tool_choice": "auto",
    "tools": [], 
    "tracing": null, 
    "turn_detection": {
        "type": "server_vad", 
        "threshold": 0.5, 
        "prefix_padding_ms": 300, 
        "silence_duration_ms": 200, 
        "create_response": true, 
        "interrupt_response": true
     }, 
     "voice": "default"
}

UpdateSession

类型描述

如果想通过session.update事件更新会话配置时,可以使用该对象

类型参数

参数名称 类型 说明
input_audio_format string 输入音频的格式,默认pcm16
input_audio_transcription InputAudioTranscription 输入音频转录配置,null表示不开启
instructions string 系统指令,不超过2500个字符
max_response_output_tokens integer / string 模型生成输出的最大token数,"inf"或者1~1500范围内的整数
output_audio_format string 目前仅支持pcm16
speed float 语速,目前仅支持1.0
turn_detection TurnDetection 轮次检测VAD配置,null表示关闭VAD
voice string 模型用于响应的语音

示例

{
    "input_audio_format": "pcm16", 
    "input_audio_transcription": {
        "model": "default", 
    }, 
    "output_audio_format": "pcm16", 
    "speed": 1, 
    "turn_detection": {
        "type": "server_vad", 
        "create_response": true, 
        "interrupt_response": true
     }, 
     "voice": "default"
}

InputAudioNoiseReduction

类型描述

输入音频降噪配置。

类型参数

参数名称 类型 说明
type string 降噪类型,支持near_field、far_field

InputAudioTranscription

类型描述

输入音频转录配置。

类型参数

参数名称 类型 说明
model string 转录模型,该配置为必填项,支持的值:default
language string 输入音频的语言,支持值:zh
prompt string 音频转录的提示词,暂不支持

TurnDetection

类型描述

轮次检测VAD配置。

类型参数

参数名称 类型 说明
type string 检测类型,目前仅支持server_vad
create_response boolean 是否在检测到静音后自动生成响应,目前仅支持true
interrupt_response boolean 是否允许在播放语音响应过程中被打断,目前仅支持true

Conversation

类型描述

表示一个对话对象

类型参数

参数名称 类型 说明
id string 对话唯一ID
object string 固定值realtime.conversation

示例

{
    "id": "conv_auVpdUi6cvWu5ANDjL25", 
    "object": "realtime.conversation"
}

ConversationItem

类型描述

代表对话中的一个项目

类型参数

参数名称 类型 说明
id string 唯一ID
object string 固定值realtime.item
type string 类型。允许的值:message
status string 当前内容状态,"in_progress" 表示生成中,"completed" 表示已完成,"incompleted" 表示不完整
role string 发言者角色,user、assistant、system
content ConversationItemContent[] 项目内容

示例

{
    "id": "item_ywqGIVMsrQKh8jY4WhYZ_002", 
    "object": "realtime.item", 
    "type": "message", 
    "status": "incomplete", 
    "role": "assistant", 
    "content": [{
        "type": "audio", 
        "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
        }]
}

ConversationItemContent

参数名称 类型 说明
type string 内容类型。枚举值有:input_text、input_audio、item_reference、text、audio
text string 文本内容,用于 input_text 和 text 内容类型
audio string Base64 编码的音频字节,用于 input_audio 和 audio 内容类型
transcripts string 音频的转录,用于"input_audio" 和"audio" 内容类型

示例

{
    "type": "audio", 
    "transcript": "今天的天气呀,我其实不太清楚呢,因为这得看具体的地方呀。你可以告诉我你在哪里,或者你自己看看窗外的天气怎么样呀,对不对?"
}

Response

类型描述

Response代表服务端返回的响应类型

类型参数

参数名称 类型 说明
id string 响应的唯一ID
object string 固定为realtime.response
status string 响应的状态:in_progress、completed、cancelled、incomplete、failed
status_details ResponseStatusDetails 响应状态的详细信息
output ConversationItem[] 响应的输出项目
conversation_id string 响应对应的对话id
modalities string[] 模型可以响应的模态集合:["text", "audio"]
voice string 输出语音模型
output_audio_format string 目前仅支持pcm16
temperature float 模型的采样温度
max_output_tokens string / integer 此响应使用的最大输出令牌数,包括工具调用

示例

{
    "id": "resp_0mYKGHLhTPGZ4BoeM7Bs_031",
    "object": "realtime.response",
    "status": "completed",
    "status_details": {
        "type": "completed"
    },
    "output": [
        {
            "id": "item_0mYKGHLhTPGZ4BoeM7Bs_096",
            "object": "realtime.item",
            "type": "message",
            "status": "completed",
            "role": "assistant",
            "content": [
                {
                    "type": "audio",
                    "transcript": "那真好呀!希望你能一直保持这样的好心情哦,超级超级开心呢!"
                }
            ]
        }
    ],
    "conversation_id": "conv_gL76z3pV3JhACstARqkX",
    "modalities": [
        "text",
        "audio"
    ], 
    "voice": "default",
    "output_audio_format": "pcm16",
    "temperature": 0.8,
    "max_output_tokens": "inf"
}

ResponseStatusDetails

类型描述

表示服务端响应状态的详细信息

类型参数

参数名称 类型 说明
type status 状态类型。与response的status保持一致
reason string 当响应未完成时显示原因
  • 若响应状态为cancelled,原因包括turn_detected或client_cancelled
  • 若响应状态为incomplete,原因包括max_output_tokens或content_filter
error Error 若响应状态为failed,包括错误类型与具体错误代码

Error

类型描述

表示服务端响应状态的错误信息。

事件参数

参数名称 类型 说明
type string 错误的类型
code string 错误代码
message string 人类可读的错误消息
event_id string 触发该错误的客户端事件ID(如果有)
param string 与错误相关的参数(如果有)

示例

{
    "type": "invalid_request_error", 
    "code": "missing_required_parameter",
    "message": "Missing required parameter: 'session.input_audio_transcription.model'."
    "param": "session.input_audio_transcription.model"
}

DEMO

python

通过iam API_KEY调用时需要删除TOKEN = 'YOUR_TOKEN'中的YOUR_TOKEN。

realime-ws-demo

上一篇
大模型声音复刻
下一篇
端到端语音语言大模型Android SDK
躺枪是什么意思 有什么无什么 反应停是什么药 上学是为了什么 雪莲果什么季节成熟
生殖器疱疹用什么药 93岁属什么生肖 细佬是什么意思 漏尿是什么原因 女人养颜抗衰老吃什么最好
榆钱是什么 车厘子不能和什么一起吃 other是什么意思 天丝是什么 吃饭吧唧嘴有什么说法
北京市长什么级别 什么的小鸡 大便排不出来是什么原因 女人肾虚吃什么药调理 上呼吸道感染吃什么药
肺部肿瘤吃什么好hcv9jop7ns0r.cn 脐带血能治疗什么病bysq.com 前列腺炎有什么征兆hcv8jop6ns5r.cn 体育生能报什么专业bjhyzcsm.com 左下腹疼痛是什么原因hcv8jop6ns1r.cn
吃什么能提高性功能youbangsi.com 血脂高吃什么蔬菜好hcv9jop1ns7r.cn wb是什么wmyky.com 典史是什么官zsyouku.com cd什么意思hcv8jop3ns1r.cn
命里缺什么怎么看hcv9jop2ns1r.cn 右眼流泪是什么原因hcv8jop4ns6r.cn 老炮是什么意思jiuxinfghf.com 一路卷风迎大年是什么生肖hcv8jop0ns1r.cn 油性皮肤适合用什么护肤品hcv8jop4ns5r.cn
命理是什么意思ff14chat.com pp材质是什么意思hcv8jop8ns9r.cn 精力旺盛是什么意思hcv8jop5ns7r.cn 嘴巴起水泡是什么原因hcv7jop5ns2r.cn pg什么意思hcv9jop7ns5r.cn
百度