识别:Sherpa-ONNX(/ws/asr)。合成:Edge-TTS(/api/tts)。经 Nginx 部署时自动使用当前域名。
单端口统一服务,默认 8090。所有 HTTP 接口支持 CORS。
Sherpa-ONNX 流式语音识别。持续发送 PCM 音频帧,服务端实时返回识别结果;结束时发送文本 Done 获取尾段结果并关闭。
| 类型 | 说明 |
|---|---|
Binary | float32 PCM,单声道,采样率 16000 Hz |
Text | 发送 Done 表示音频结束 |
{
"partial": "识别中的中间结果"
}
{
"text": "一句完整识别结果(端点检测后)"
}
Edge-TTS 文字转语音。成功返回 audio/mpeg 二进制流;失败返回 JSON 错误信息。
Content-Type: application/json
| 字段 | 类型 | 必填 | 说明 |
|---|---|---|---|
text | string | 是 | 待合成文本,最长 5000 字符 |
voice | string | 否 | 发音人 ID,默认 zh-CN-XiaoxiaoNeural |
rate | string | 否 | 语速,如 +0%、+10% |
volume | string | 否 | 音量,如 +0%、-10% |
curl -X POST http://127.0.0.1:8090/api/tts \
-H "Content-Type: application/json" \
-d '{"text":"你好","voice":"zh-CN-XiaoxiaoNeural"}' \
--output speech.mp3
{ "error": "text 不能为空" }