语音识别 & 语音合成

语音识别

实时听写（Sherpa-ONNX）

WebSocket 地址

未连接

语音合成

文字转语音（Edge-TTS）

TTS 接口地址发音人合成文本

就绪

API 文档

接口说明

单端口统一服务，默认 8090。所有 HTTP 接口支持 CORS。

WS /ws/asr

Sherpa-ONNX 流式语音识别。持续发送 PCM 音频帧，服务端实时返回识别结果；结束时发送文本 Done 获取尾段结果并关闭。

客户端 → 服务端

类型	说明
`Binary`	float32 PCM，单声道，采样率 16000 Hz
`Text`	发送 `Done` 表示音频结束

服务端 → 客户端（JSON 文本）

{
  "partial": "识别中的中间结果"
}
{
  "text": "一句完整识别结果（端点检测后）"
}

POST /api/tts

Edge-TTS 文字转语音。成功返回 audio/mpeg 二进制流；失败返回 JSON 错误信息。

请求头

Content-Type: application/json

请求体

字段	类型	必填	说明
`text`	string	是	待合成文本，最长 5000 字符
`voice`	string	否	发音人 ID，默认 `zh-CN-XiaoxiaoNeural`
`rate`	string	否	语速，如 `+0%`、`+10%`
`volume`	string	否	音量，如 `+0%`、`-10%`

请求示例

curl -X POST http://127.0.0.1:8090/api/tts \
  -H "Content-Type: application/json" \
  -d '{"text":"你好","voice":"zh-CN-XiaoxiaoNeural"}' \
  --output speech.mp3

错误响应

{ "error": "text 不能为空" }