Skip to content

ASR(语音识别)

算力舱内置了一个高性能的语音识别服务.

当前使用的大模型是 Systran/faster-whisper-large-v2,较原版 openai/whisper-large-v2 模型优化了运行速度,并且默认支持多国语言。

实测 whisper-large-v3 相较于 whisper-large-v2 更频繁的出现错误识别和幻觉的情况,所以并未在算力舱中默认使用。

文档

asr 服务的 api 可以通过 查看。

接口兼容 OpenAI API 格式,可直接作为 OpenAI API 调用。模型名可以随意指定,在后端会自动转换为实际模型名。

注意受限于 HTTP 协议规范,不能直接在 Swagger UI 网页发起携带音频文件的请求,会报错 422 Unprocessable Entity,这是正常的,可通过 API 调用、curl 等工具发起请求。

本地使用示例(依赖微服)

bash
curl -X 'POST' \
    'https://asr-ai.13gxg.heiyu.space/v1/audio/transcriptions' \
    -F 'stream=false' \
    -F 'timestamp_granularities=segment' \
    -F 'prompt=よろしくお願いします. 你好,请多关照。 hello, please take care of me.' \
    -F 'batch_size=1' \
    -F 'model=Systran/faster-whisper-large-v2' \
    -F 'temperature=0' \
    -F 'response_format=text' \
    -F 'file=@/home/nvidia/Videos/a.mp4' \
    -F 'hotwords=string' \
    -F 'vad_filter=false'

单独部署使用

  1. 将下面的内容保存到一个 docker-compose.yml 文件中
services:
  asr:
    image: registry.lazycat.cloud/x/videorag/asr:c21af88
    ports:
      - 3000:3000
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:3000/health"]
      interval: 10s
      timeout: 30s
      retries: 100
      start_period: 1s
  1. 然后在目录上使用 docker-compose up -d 启动
  2. 使用 http://127.0.0.1:3000/docs