diff --git a/README.md b/README.md index 3ffd0b8..41f322f 100644 --- a/README.md +++ b/README.md @@ -169,9 +169,27 @@ Undo ## 情感识别效果 +由于目前缺乏被广泛使用的情感识别测试指标和方法,我们在多个测试集的多种指标进行测试,并与近年来Benchmark上的多个结果进行了全面的对比。所选取的测试集同时包含中文/英文两种语言以及表演、影视剧、自然对话等多种风格的数据,在不进行目标数据微调的前提下,SenseVoice能够在测试数据上达到和超过目前最佳情感识别模型的效果。 + +

+SenseVoice模型SER效果1 +

+ +同时,我们还在测试集上对多个开源情感识别模型进行对比,结果表明,SenseVoice-Large模型可以在几乎所有数据上都达到了最佳效果,而SenseVoice-Small模型同样可以在多数数据集上取得超越其他开源模型的效果。 + +

+SenseVoice模型SER效果2 +

## 事件检测效果 +尽管SenseVoice只在语音数据上进行训练,它仍然可以作为事件检测模型进行单独使用。我们在环境音分类ESC-50数据集上与目前业内广泛使用的BEATS与PANN模型的效果进行了对比。SenseVoice模型能够在这些任务上取得较好的效果,但受限于训练数据与训练方式,其事件分类效果专业的事件检测模型相比仍然有一定的差距。 + +

+SenseVoice模型AED效果 +

+ + ## 推理效率 SenseVoice-small模型采用非自回归端到端架构,推理延迟极低。在参数量与Whisper-Small模型相当的情况下,比Whisper-Small模型推理速度快7倍,比Whisper-Large模型快17倍。同时SenseVoice-small模型在音频时长增加的情况下,推理耗时也无明显增加。 diff --git a/fig/aed_figure.png b/fig/aed_figure.png new file mode 100644 index 0000000..995cedf Binary files /dev/null and b/fig/aed_figure.png differ diff --git a/fig/ser_figure.png b/fig/ser_figure.png new file mode 100644 index 0000000..e334890 Binary files /dev/null and b/fig/ser_figure.png differ diff --git a/fig/ser_table.png b/fig/ser_table.png new file mode 100644 index 0000000..da432df Binary files /dev/null and b/fig/ser_table.png differ