update

2024-07-17 10:27:34 +08:00 · 2024-07-17 10:27:34 +08:00 · 09641b5188
commit 09641b5188
parent 21d3cf9f23
1 changed files with 7 additions and 4 deletions
--- a/README.md
+++ b/README.md
@ -93,6 +93,8 @@ model_dir = "iic/SenseVoiceSmall"

 model = AutoModel(
    model=model_dir,
+    trust_remote_code=True,
+    remote_code="./model.py",  
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cpu",
@ -113,7 +115,8 @@ print(text)
 ```
 参数说明：
 - `model_dir`：模型名称，或本地磁盘中的模型路径。
- `max_single_segment_time`: 表示`vad_model`最大切割音频时长, 单位是毫秒ms。
+- `vad_model`：表示开启VAD，VAD的作用是将长音频切割成短音频，此时推理耗时包括了VAD与SenseVoice总耗时，为链路耗时，如果需要单独测试SenseVoice模型耗时，可以关闭VAD模型。
+- `vad_kwargs`：表示VAD模型配置,`max_single_segment_time`: 表示`vad_model`最大切割音频时长, 单位是毫秒ms。
 - `use_itn`：输出结果中是否包含标点与逆文本正则化。
 - `batch_size_s` 表示采用动态batch，batch中总音频时长，单位为秒s。
 - `merge_vad`：是否将 vad 模型切割的短音频碎片合成，合并后长度为`merge_length_s`，单位为秒s。
@ -147,18 +150,18 @@ m, kwargs = SenseVoiceSmall.from_pretrained(model=model_dir)


 res = m.inference(
-    data_in="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav",
+    data_in=f"{kwargs['model_path']}/example/en.mp3",
    language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=False,
    **kwargs,
 )

-text = rich_transcription_postprocess(res[0]["text"])
+text = rich_transcription_postprocess(res[0][0]["text"])
 print(text)
 ```

 ## 模型下载
-
+上面代码会自动下载模型，如果您需要离线下载好模型，可以通过下面代码，手动下载，之后指定模型本地路径即可。

 SDK下载
 ```bash