update
This commit is contained in:
parent
f4e5bb3ac7
commit
6c075ce3ca
12
README.md
12
README.md
@ -58,7 +58,7 @@ tasks:
|
||||
SenseVoice多语言音频理解模型,支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力,采用工业级数十万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于中文、粤语、英语、日语、韩语音频识别,并输出带有情感和事件的富文本转写结果。
|
||||
|
||||
<p align="center">
|
||||
<img src="fig/sensevoice.png" alt="SenseVoice模型结构" width="1200" />
|
||||
<img src="fig/sensevoice.png" alt="SenseVoice模型结构" width="1500" />
|
||||
</p>
|
||||
|
||||
SenseVoice-Small是基于非自回归端到端框架模型,为了指定任务,我们在语音特征前添加四个嵌入作为输入传递给编码器:
|
||||
@ -163,7 +163,7 @@ Undo
|
||||
我们在开源基准数据集(包括 AISHELL-1、AISHELL-2、Wenetspeech、Librispeech和Common Voice)上比较了SenseVoice与Whisper的多语言语音识别性能和推理效率。在中文和粤语识别效果上,SenseVoice-Small模型具有明显的效果优势。
|
||||
|
||||
<p align="center">
|
||||
<img src="fig/asr_results.png" alt="SenseVoice模型在开源测试集上的表现" width="1200" />
|
||||
<img src="fig/asr_results.png" alt="SenseVoice模型在开源测试集上的表现" width="1500" />
|
||||
</p>
|
||||
|
||||
|
||||
@ -172,13 +172,13 @@ Undo
|
||||
由于目前缺乏被广泛使用的情感识别测试指标和方法,我们在多个测试集的多种指标进行测试,并与近年来Benchmark上的多个结果进行了全面的对比。所选取的测试集同时包含中文/英文两种语言以及表演、影视剧、自然对话等多种风格的数据,在不进行目标数据微调的前提下,SenseVoice能够在测试数据上达到和超过目前最佳情感识别模型的效果。
|
||||
|
||||
<p align="center">
|
||||
<img src="fig/ser_table.png" alt="SenseVoice模型SER效果1" width="1200" />
|
||||
<img src="fig/ser_table.png" alt="SenseVoice模型SER效果1" width="1500" />
|
||||
</p>
|
||||
|
||||
同时,我们还在测试集上对多个开源情感识别模型进行对比,结果表明,SenseVoice-Large模型可以在几乎所有数据上都达到了最佳效果,而SenseVoice-Small模型同样可以在多数数据集上取得超越其他开源模型的效果。
|
||||
|
||||
<p align="center">
|
||||
<img src="fig/ser_figure.png" alt="SenseVoice模型SER效果2" width="1200" />
|
||||
<img src="fig/ser_figure.png" alt="SenseVoice模型SER效果2" width="1500" />
|
||||
</p>
|
||||
|
||||
## 事件检测效果
|
||||
@ -186,7 +186,7 @@ Undo
|
||||
尽管SenseVoice只在语音数据上进行训练,它仍然可以作为事件检测模型进行单独使用。我们在环境音分类ESC-50数据集上与目前业内广泛使用的BEATS与PANN模型的效果进行了对比。SenseVoice模型能够在这些任务上取得较好的效果,但受限于训练数据与训练方式,其事件分类效果专业的事件检测模型相比仍然有一定的差距。
|
||||
|
||||
<p align="center">
|
||||
<img src="fig/aed_figure.png" alt="SenseVoice模型AED效果" width="1200" />
|
||||
<img src="fig/aed_figure.png" alt="SenseVoice模型AED效果" width="1500" />
|
||||
</p>
|
||||
|
||||
|
||||
@ -196,7 +196,7 @@ SenseVoice-small模型采用非自回归端到端架构,推理延迟极低。
|
||||
|
||||
|
||||
<p align="center">
|
||||
<img src="fig/inference.png" alt="SenseVoice模型的推理效率" width="1200" />
|
||||
<img src="fig/inference.png" alt="SenseVoice模型的推理效率" width="1500" />
|
||||
</p>
|
||||
|
||||
<p style="color: lightgrey;">如果您是本模型的贡献者,我们邀请您根据<a href="https://modelscope.cn/docs/ModelScope%E6%A8%A1%E5%9E%8B%E6%8E%A5%E5%85%A5%E6%B5%81%E7%A8%8B%E6%A6%82%E8%A7%88" style="color: lightgrey; text-decoration: underline;">模型贡献文档</a>,及时完善模型卡片内容。</p>
|
||||
|
||||
Loading…
Reference in New Issue
Block a user