1. 音频Audio
AboAI
  • 首页
  • AboAi-API
    • 模型Model
      • 原生OpenAI格式
      • 原生Gemini格式
    • 聊天Chat
      • 原生OpenAI格式
      • 原生Gemini格式
      • 原生Claude格式
      • Responses 请求(openai)
    • 音频Audio
      • Gemini Live
      • 原生OpenAI格式 TTS
        POST
      • 原生Gemini格式 TTS
        POST
    • 图像Images
      • 原生OpenAI格式 图像生成
      • 原生Gemini格式 图像生成
      • 原生OpenAI格式 图像编辑(JSON)
      • 原生OpenAI格式 图像编辑(Multipart)
    • 视频Video
      • Seedance2.0格式
        • 创建视频生成任务
        • 查询视频生成任务状态
    • 向量 Vector
      • Embeddings
        • 创建 Embedding
    • 翻译Translation
      • 语音翻译
  • AI应用
    • AboAI API 对接Claude Code
    • AboAI API 对接Cursor
    • AboAI API 对接Codex-cli
    • AboAi API 对接Codex Desktop
    • AboAI API 对接 Hermes-Agent
  1. 音频Audio

Gemini Live

/v1beta/models/{model}/liveStream
实时语音和视频交互接口

简介#

Gemini Live API 支持与 Gemini 进行低延迟、实时的语音和视频交互。它能够处理连续的音频、视频或文本流,以提供即时、自然逼真的语音回答。

主要特性:#

✅ 高音质:提供多种语言的自然、逼真的语音
✅ 多语言支持:支持用 24 种语言进行对话
✅ 打断功能:用户可以随时中断模型,以便进行响应式互动
✅ 共情对话:根据用户输入内容的情绪表达调整回答风格和语气
✅ 工具使用:集成函数调用和 Google 搜索等工具
✅ 音频转写:提供用户输入和模型输出的文本转写内容
✅ 主动音频:可控制模型何时响应以及在哪些情境下响应
特点:
使用 Gemini Live API 原生格式
直接透传,无协议转换
支持 Gemini 所有原生特性

支持的模型#

模型ID可用性使用场景主要特性
gemini-live-2.5-flash-native-audio已全面推出推荐。低延迟语音代理。支持无缝多语言切换和情感基调。原生音频、音频转写、语音活动检测、共情对话、主动音频、工具使用

音色和语言配置#

音色配置#

Gemini Live API 支持 30 种不同风格的预设音色,每种音色都有独特的表达特点:
音色名称风格特点音色名称风格特点音色名称风格特点
Zephyr明快Puck欢快Charon信息丰富
Kore坚定Fenrir兴奋Leda青春活力
Orus坚定Aoede轻快Callirrhoe轻松愉快
Autonoe明快Enceladus气声Iapetus清晰明了
Umbriel轻松Algieba流畅Despina流畅自然
Erinome清晰Algenib沙哑Rasalgethi信息丰富
Laomedeia欢快Achernar柔和Alnilam坚定有力
Schedar平稳Gacrux成熟Pulcherrima积极向上
Achird友好Zubenelgenubi随意Vindemiatrix温柔舒缓
Sadachbia活泼Sadaltager博学Sulafat温暖舒适
默认音色: Zephyr(明快)

语言配置#

支持 24 种语言,通过 BCP-47 语言代码指定:
语言代码语言代码
阿拉伯语(埃及)ar-EG德语(德国)de-DE
英语(美国)en-US西班牙语(美国)es-US
法语(法国)fr-FR印地语(印度)hi-IN
印度尼西亚语id-ID意大利语(意大利)it-IT
日语(日本)ja-JP韩语(韩国)ko-KR
葡萄牙语(巴西)pt-BR俄语(俄罗斯)ru-RU
荷兰语(荷兰)nl-NL波兰语(波兰)pl-PL
泰语(泰国)th-TH土耳其语(土耳其)tr-TR
越南语(越南)vi-VN罗马尼亚语ro-RO
乌克兰语uk-UA孟加拉语bn-BD
英语(印度)en-IN马拉地语(印度)mr-IN
泰米尔语(印度)ta-IN泰卢固语(印度)te-IN
中文(简体)zh-CN

使用示例#

JavaScript示例#

Python示例#

配置示例#

示例1:仅音频模式#

{
  "setup": {
    "model": "gemini-live-2.5-flash-native-audio",
    "generationConfig": {
      "temperature": 0.7,
      "responseModalities": ["AUDIO"],
      "speechConfig": {
        "voiceConfig": {
          "prebuiltVoiceConfig": {
            "voiceName": "Zephyr"
          }
        },
        "languageCode": "zh-CN"
      }
    },
    "systemInstruction": {
      "parts": [
        {"text": "你是一个友好的助手,请用自然、对话式的方式回答问题。"}
      ]
    }
  }
}

示例 2:音频 + 文本转录模式(推荐)#

{
  "setup": {
    "model": "gemini-live-2.5-flash-native-audio",
    "generationConfig": {
      "temperature": 0.7,
      "responseModalities": ["AUDIO", "TEXT"],
      "speechConfig": {
        "voiceConfig": {
          "prebuiltVoiceConfig": {
            "voiceName": "Zephyr"
          }
        },
        "languageCode": "zh-CN"
      }
    },
    "systemInstruction": {
      "parts": [
        {"text": "你是一个友好的助手,请用自然、对话式的方式回答问题。"}
      ]
    },
    "tools": {
      "googleSearch": {}
    },
    "proactivity": {
      "proactiveAudio": false,
      "empatheticMode": true
    },
    "outputAudioTranscription": {},
    "realtimeInputConfig": {
      "automaticActivityDetection": {
        "disabled": false,
        "startOfSpeechSensitivity": "START_SENSITIVITY_LOW",
        "endOfSpeechSensitivity": "END_SENSITIVITY_HIGH",
        "prefixPaddingMs": 0,
        "silenceDurationMs": 0
      }
    }
  }
}
配置说明:
responseModalities: 响应模态,只能选择以下两种之一:
["AUDIO"] - 仅音频输出
["AUDIO", "TEXT"] - 音频 + 文本转录(推荐,可同时获得音频和文本)
voiceName: 音色名称,支持 30 种预设音色(见上方音色配置表)
languageCode: 语言代码,支持 24 种语言(见上方语言配置表)
googleSearch: 启用 Google 搜索功能
proactiveAudio: 主动音频,模型可以选择不回应无关音频
empatheticMode: 共情对话,根据情绪调整回答风格
outputAudioTranscription: 启用输出音频转文本(需要在 responseModalities 中包含 "TEXT" 才能看到转录文本)
automaticActivityDetection: 语音活动检测配置

消息类型#

客户端消息#

消息类型说明
setup会话配置
clientContent客户端内容(文本/音频)
realtimeInput实时音频输入
toolResponse工具响应

服务器消息#

消息类型说明
setupComplete设置完成确认
serverContent服务器内容(文本/音频/转录)
toolCall工具调用
toolCallCancellation工具调用取消
usageMetadata使用量统计

Token 统计#

系统会分别统计:
文本 Token(输入/输出)
音频 Token(输入/输出)
总 Token 数
使用量信息会在 usageMetadata 消息中返回:

定价说明#

重要提示: 模型价格可能会变动,具体定价请以模型广场显示的最新价格为准。
Gemini Live API 按 token 计费,分别统计文本和音频 tokens:
文本 Token: 用于输入的文本内容和输出的文本转录
音频 Token: 用于输入的音频和输出的音频内容
系统会在 usageMetadata 消息中返回详细的使用量统计,包括文本和音频的输入/输出 token 数量。

技术规范#

音频格式#

输入音频:#
格式:16-bit PCM
采样率:16kHz
字节序:小端
编码:Base64
输出音频:#
格式:16-bit PCM
采样率:24kHz
字节序:小端
编码:Base64

Request

Path Params

Header Params

Modified at 2026-05-06 02:00:05
Previous
Responses 请求(openai)
Next
原生OpenAI格式 TTS
Built with