| 模型ID | 可用性 | 使用场景 | 主要特性 |
|---|---|---|---|
| gemini-live-2.5-flash-native-audio | 已全面推出 | 推荐。低延迟语音代理。支持无缝多语言切换和情感基调。 | 原生音频、音频转写、语音活动检测、共情对话、主动音频、工具使用 |
| 音色名称 | 风格特点 | 音色名称 | 风格特点 | 音色名称 | 风格特点 |
|---|---|---|---|---|---|
| Zephyr | 明快 | Puck | 欢快 | Charon | 信息丰富 |
| Kore | 坚定 | Fenrir | 兴奋 | Leda | 青春活力 |
| Orus | 坚定 | Aoede | 轻快 | Callirrhoe | 轻松愉快 |
| Autonoe | 明快 | Enceladus | 气声 | Iapetus | 清晰明了 |
| Umbriel | 轻松 | Algieba | 流畅 | Despina | 流畅自然 |
| Erinome | 清晰 | Algenib | 沙哑 | Rasalgethi | 信息丰富 |
| Laomedeia | 欢快 | Achernar | 柔和 | Alnilam | 坚定有力 |
| Schedar | 平稳 | Gacrux | 成熟 | Pulcherrima | 积极向上 |
| Achird | 友好 | Zubenelgenubi | 随意 | Vindemiatrix | 温柔舒缓 |
| Sadachbia | 活泼 | Sadaltager | 博学 | Sulafat | 温暖舒适 |
| 语言 | 代码 | 语言 | 代码 |
|---|---|---|---|
| 阿拉伯语(埃及) | ar-EG | 德语(德国) | de-DE |
| 英语(美国) | en-US | 西班牙语(美国) | es-US |
| 法语(法国) | fr-FR | 印地语(印度) | hi-IN |
| 印度尼西亚语 | id-ID | 意大利语(意大利) | it-IT |
| 日语(日本) | ja-JP | 韩语(韩国) | ko-KR |
| 葡萄牙语(巴西) | pt-BR | 俄语(俄罗斯) | ru-RU |
| 荷兰语(荷兰) | nl-NL | 波兰语(波兰) | pl-PL |
| 泰语(泰国) | th-TH | 土耳其语(土耳其) | tr-TR |
| 越南语(越南) | vi-VN | 罗马尼亚语 | ro-RO |
| 乌克兰语 | uk-UA | 孟加拉语 | bn-BD |
| 英语(印度) | en-IN | 马拉地语(印度) | mr-IN |
| 泰米尔语(印度) | ta-IN | 泰卢固语(印度) | te-IN |
| 中文(简体) | zh-CN |
{
"setup": {
"model": "gemini-live-2.5-flash-native-audio",
"generationConfig": {
"temperature": 0.7,
"responseModalities": ["AUDIO"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Zephyr"
}
},
"languageCode": "zh-CN"
}
},
"systemInstruction": {
"parts": [
{"text": "你是一个友好的助手,请用自然、对话式的方式回答问题。"}
]
}
}
}{
"setup": {
"model": "gemini-live-2.5-flash-native-audio",
"generationConfig": {
"temperature": 0.7,
"responseModalities": ["AUDIO", "TEXT"],
"speechConfig": {
"voiceConfig": {
"prebuiltVoiceConfig": {
"voiceName": "Zephyr"
}
},
"languageCode": "zh-CN"
}
},
"systemInstruction": {
"parts": [
{"text": "你是一个友好的助手,请用自然、对话式的方式回答问题。"}
]
},
"tools": {
"googleSearch": {}
},
"proactivity": {
"proactiveAudio": false,
"empatheticMode": true
},
"outputAudioTranscription": {},
"realtimeInputConfig": {
"automaticActivityDetection": {
"disabled": false,
"startOfSpeechSensitivity": "START_SENSITIVITY_LOW",
"endOfSpeechSensitivity": "END_SENSITIVITY_HIGH",
"prefixPaddingMs": 0,
"silenceDurationMs": 0
}
}
}
}responseModalities: 响应模态,只能选择以下两种之一:["AUDIO"] - 仅音频输出["AUDIO", "TEXT"] - 音频 + 文本转录(推荐,可同时获得音频和文本)voiceName: 音色名称,支持 30 种预设音色(见上方音色配置表)languageCode: 语言代码,支持 24 种语言(见上方语言配置表)googleSearch: 启用 Google 搜索功能proactiveAudio: 主动音频,模型可以选择不回应无关音频empatheticMode: 共 情对话,根据情绪调整回答风格outputAudioTranscription: 启用输出音频转文本(需要在 responseModalities 中包含 "TEXT" 才能看到转录文本)automaticActivityDetection: 语音活动检测配置| 消息类型 | 说明 |
|---|---|
setup | 会话配置 |
clientContent | 客户端内容(文本/音频) |
realtimeInput | 实时音频输入 |
toolResponse | 工具响应 |
| 消息类型 | 说明 |
|---|---|
setupComplete | 设置完成确认 |
serverContent | 服务器内容(文本/音频/转录) |
toolCall | 工具调用 |
toolCallCancellation | 工具调用取消 |
usageMetadata | 使用量统计 |
usageMetadata 消息中返回:usageMetadata 消息中返回详细的使用量统计,包括文本和音频的输入/输出 token 数量。