ASR(语音识别)
算力舱内置了一个高性能的语音识别服务.
当前使用的大模型是 Systran/faster-whisper-large-v2,较原版 openai/whisper-large-v2 模型优化了运行速度,并且默认支持多国语言。
实测 whisper-large-v3 相较于 whisper-large-v2 更频繁的出现错误识别和幻觉的情况,所以并未在算力舱中默认使用。
文档
asr 服务的 api 可以通过 查看。
接口兼容 OpenAI API 格式,可直接作为 OpenAI API 调用。模型名可以随意指定,在后端会自动转换为实际模型名。
注意受限于 HTTP 协议规范,不能直接在 Swagger UI 网页发起携带音频文件的请求,会报错 422 Unprocessable Entity,这是正常的,可通过 API 调用、
curl等工具发起请求。
本地使用示例(依赖微服)
bash
curl -X 'POST' \
'https://asr-ai.13gxg.heiyu.space/v1/audio/transcriptions' \
-F 'stream=false' \
-F 'timestamp_granularities=segment' \
-F 'prompt=よろしくお願いします. 你好,请多关照。 hello, please take care of me.' \
-F 'batch_size=1' \
-F 'model=Systran/faster-whisper-large-v2' \
-F 'temperature=0' \
-F 'response_format=text' \
-F 'file=@/home/nvidia/Videos/a.mp4' \
-F 'hotwords=string' \
-F 'vad_filter=false'单独部署使用
- 将下面的内容保存到一个 docker-compose.yml 文件中
services:
asr:
image: registry.lazycat.cloud/x/videorag/asr:c21af88
ports:
- 3000:3000
healthcheck:
test: ["CMD", "curl", "-f", "http://localhost:3000/health"]
interval: 10s
timeout: 30s
retries: 100
start_period: 1s- 然后在目录上使用 docker-compose up -d 启动
- 使用 http://127.0.0.1:3000/docs