This commit is contained in:
北念 2024-06-27 20:59:35 +08:00
parent 381b26b06b
commit 8c50e5acbb

View File

@ -58,7 +58,7 @@ tasks:
SenseVoice多语言音频理解模型支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力采用工业级数十万小时的标注音频进行模型训练保证了模型的通用识别效果。模型可以被应用于中文、粤语、英语、日语、韩语音频识别并输出带有情感和事件的富文本转写结果。 SenseVoice多语言音频理解模型支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力采用工业级数十万小时的标注音频进行模型训练保证了模型的通用识别效果。模型可以被应用于中文、粤语、英语、日语、韩语音频识别并输出带有情感和事件的富文本转写结果。
<p align="center"> <p align="center">
<img src="fig/sensevoice.png" alt="SenseVoice模型结构" width="500" /> <img src="fig/sensevoice.png" alt="SenseVoice模型结构" width="800" />
</p> </p>
SenseVoice-Small是基于非自回归端到端框架模型为了指定任务我们在语音特征前添加四个嵌入作为输入传递给编码器 SenseVoice-Small是基于非自回归端到端框架模型为了指定任务我们在语音特征前添加四个嵌入作为输入传递给编码器
@ -163,7 +163,7 @@ Undo
我们在开源基准数据集(包括 AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上比较了SenseVoice与Whisper的多语言语音识别性能和推理效率。在中文和粤语识别效果上SenseVoice-Small模型具有明显的效果优势。 我们在开源基准数据集(包括 AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice上比较了SenseVoice与Whisper的多语言语音识别性能和推理效率。在中文和粤语识别效果上SenseVoice-Small模型具有明显的效果优势。
<p align="center"> <p align="center">
<img src="fig/asr_results.png" alt="SenseVoice模型在开源测试集上的表现" width="500" /> <img src="fig/asr_results.png" alt="SenseVoice模型在开源测试集上的表现" width="800" />
</p> </p>
@ -178,7 +178,7 @@ SenseVoice-small模型采用非自回归端到端架构推理延迟极低。
<p align="center"> <p align="center">
<img src="fig/inference.png" alt="SenseVoice模型的推理效率" width="500" /> <img src="fig/inference.png" alt="SenseVoice模型的推理效率" width="800" />
</p> </p>
<p style="color: lightgrey;">如果您是本模型的贡献者,我们邀请您根据<a href="https://modelscope.cn/docs/ModelScope%E6%A8%A1%E5%9E%8B%E6%8E%A5%E5%85%A5%E6%B5%81%E7%A8%8B%E6%A6%82%E8%A7%88" style="color: lightgrey; text-decoration: underline;">模型贡献文档</a>,及时完善模型卡片内容。</p> <p style="color: lightgrey;">如果您是本模型的贡献者,我们邀请您根据<a href="https://modelscope.cn/docs/ModelScope%E6%A8%A1%E5%9E%8B%E6%8E%A5%E5%85%A5%E6%B5%81%E7%A8%8B%E6%A6%82%E8%A7%88" style="color: lightgrey; text-decoration: underline;">模型贡献文档</a>,及时完善模型卡片内容。</p>