This commit is contained in:
游雁 2024-07-17 10:27:34 +08:00
parent 21d3cf9f23
commit 09641b5188

View File

@ -93,6 +93,8 @@ model_dir = "iic/SenseVoiceSmall"
model = AutoModel( model = AutoModel(
model=model_dir, model=model_dir,
trust_remote_code=True,
remote_code="./model.py",
vad_model="fsmn-vad", vad_model="fsmn-vad",
vad_kwargs={"max_single_segment_time": 30000}, vad_kwargs={"max_single_segment_time": 30000},
device="cpu", device="cpu",
@ -113,7 +115,8 @@ print(text)
``` ```
参数说明: 参数说明:
- `model_dir`:模型名称,或本地磁盘中的模型路径。 - `model_dir`:模型名称,或本地磁盘中的模型路径。
- `max_single_segment_time`: 表示`vad_model`最大切割音频时长, 单位是毫秒ms。 - `vad_model`表示开启VADVAD的作用是将长音频切割成短音频此时推理耗时包括了VAD与SenseVoice总耗时为链路耗时如果需要单独测试SenseVoice模型耗时可以关闭VAD模型。
- `vad_kwargs`表示VAD模型配置,`max_single_segment_time`: 表示`vad_model`最大切割音频时长, 单位是毫秒ms。
- `use_itn`:输出结果中是否包含标点与逆文本正则化。 - `use_itn`:输出结果中是否包含标点与逆文本正则化。
- `batch_size_s` 表示采用动态batchbatch中总音频时长单位为秒s。 - `batch_size_s` 表示采用动态batchbatch中总音频时长单位为秒s。
- `merge_vad`:是否将 vad 模型切割的短音频碎片合成,合并后长度为`merge_length_s`单位为秒s。 - `merge_vad`:是否将 vad 模型切割的短音频碎片合成,合并后长度为`merge_length_s`单位为秒s。
@ -147,18 +150,18 @@ m, kwargs = SenseVoiceSmall.from_pretrained(model=model_dir)
res = m.inference( res = m.inference(
data_in="https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ASR/test_audio/asr_example_zh.wav", data_in=f"{kwargs['model_path']}/example/en.mp3",
language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech" language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
use_itn=False, use_itn=False,
**kwargs, **kwargs,
) )
text = rich_transcription_postprocess(res[0]["text"]) text = rich_transcription_postprocess(res[0][0]["text"])
print(text) print(text)
``` ```
## 模型下载 ## 模型下载
上面代码会自动下载模型,如果您需要离线下载好模型,可以通过下面代码,手动下载,之后指定模型本地路径即可。
SDK下载 SDK下载
```bash ```bash