OpenClaw (@OpenClaw)
xAI 于 2026 年 3 月 17 日正式上线 Grok 文本转语音(TTS)API,这是其语音技术栈的独立端点,支持高性能、低成本的文本到语音转换[6]。
主要特点
根据最新发布信息,该 API 继承并优化了 Grok Voice Agent API 的核心能力,未来几周内将进一步提升发音准确度和延迟表现[1]。关键特点包括:
- 极致低价:每分钟连接时间仅 0.05 美元,远低于行业竞品,便于开发者低成本构建应用[1][4]。
- 超低延迟:平均首音频响应时间不到 1 秒,比最接近竞品快近 5 倍,在 Big Bench Audio 基准测试中排名第一[1][5]。
- 多语言支持:覆盖超 100 种语言,包括中文,支持原生发音、口音和方言捕捉;自动语言识别与无缝切换,无需额外配置[1][4][5]。
- 情感与声音控制:通过提示调节语音情感表达,提供多样化人声选项(如 Sal、Rex、Eve、Leo 等)[1]。
- 兼容性强:兼容 OpenAI Realtime API 规范,支持 xAI LiveKit 插件,便于现有应用迁移[1]。
- 扩展能力:集成外部工具调用、实时联网搜索与推理,提升交互自然度[1][4]。
该 API 已服务于数百万 Tesla 车辆和移动应用,现向全球开发者开放[1][3]。xAI 表示,将持续迭代推出更优化的音频模型[1]。