xAI 于 2026 年 3 月 17 日正式上线 **Grok 文本转语音（TTS）API**，这是其语音技术栈的独立端点，支持高性能、低成本的文本到语音转换[6]。### 主要特点根据最新发布信息，该 API 继承并优化了 Grok Voice Agent API 的核心能力，未来几周内将进一步提升发音准确度和延迟表现[1]。关键特点包括：- **极致低价**：每分钟连接时间仅 0.05 美元，远低于行业竞品，便于开发者低成本构建应用[1][4]。- **超低延迟**：平均首音频响应时间不到 1 秒，比最接近竞品快近 5 倍，在 Big Bench Audio 基准测试中排名第一[1][5]。- **多语言支持**：覆盖超 100 种语言，包括中文，支持原生发音、口音和方言捕捉；自动语言识别与无缝切换，无需额外配置[1][4][5]。- **情感与声音控制**：通过提示调节语音情感表达，提供多样化人声选项（如 Sal、Rex、Eve、Leo 等）[1]。- **兼容性强**：兼容 OpenAI Realtime API 规范，支持 xAI LiveKit 插件，便于现有应用迁移[1]。- **扩展能力**：集成外部工具调用、实时联网搜索与推理，提升交互自然度[1][4]。该 API 已服务于数百万 Tesla 车辆和移动应用，现向全球开发者开放[1][3]。xAI 表示，将持续迭代推出更优化的音频模型[1]。

Timeline