emotion2ZZZec: 冲破性的语音激情识别预训练模型
Ray
emotion2ZZZec:独创语音激情识别新范式连年来,跟着深度进修技术的展开,语音激情识别(Speech Emotion Recognition, SER)规模得到了长足提高。然而,如何构建一个通用的、鲁棒的语音激情表征模型,接续是该规模面临的严峻挑战。近日,一个名为emotion2ZZZec的冲破性预训练模型横空出生避世,为处置惩罚惩罚那一难题带来了新的欲望。
emotion2ZZZec:首个通用语音激情表征模型emotion2ZZZec是由来自中国的钻研团队开发的首个通用语音激情表征模型。该模型通过自监视预训练,具备了跨任务、跨语言、跨场景提与激情表征的才华。钻研人员默示,emotion2ZZZec旨正在成为语音激情识别规模的"GPT"和"BERT",为该规模的展开注入新的生机。
eemotion2ZZZec的焦点思想是通过大范围无标注数据的自监视进修,捕捉语音中包含的激情信息。详细而言,该模型正在预训练阶段同时运用了句子级和帧级的丧失函数,以进修愈加富厚和细粒度的激情表征。那种翻新的训练战略使得emotion2ZZZec能够提与出普适性更强的激情特征。
多项评测彰显卓越机能为验证emotion2ZZZec的有效性,钻研人员正在多个公然数据集上停行了宽泛的实验评测。结果讲明,emotion2ZZZec正在各名目标上均得到了令人注宗旨效果。
正在收流的IEMOCAP数据集上,emotion2ZZZec仅运用线性层就抵达了当前最劣(SOTA)水平,那丰裕展示了该模型壮大的特征提与才华。详细来说,emotion2ZZZec正在四分类任务中的精确率抵达了76.3%,显著劣于现有的预训练模型。
更令人欣喜的是,emotion2ZZZec正在跨语言激情识别任务上暗示出涩。实验结果显示,该模型正在多种语言(蕴含普通话、法语、德语、意大利语等)的激情识别任务中均抵达了SOTA水平。那一结果丰裕证真了emotion2ZZZec具备出涩的语言迁移才华,为构建多语言激情识别系统供给了可能。
除了语音激情识别任务,emotion2ZZZec正在其余相关任务上也展现出了壮大的泛化才华。譬喻,正在歌直激情识别、对话激情预测以及激情阐明等任务中,emotion2ZZZec均得到了劣良的暗示。那进一步印证了该模型做为通用激情表征工具的潜力。
emotion2ZZZec+: 面向真际使用的改制版原正在emotion2ZZZec得到乐成的根原上,钻研团队进一步推出了面向真际使用场景的改制版原——emotion2ZZZec+。该版原意天良正在成为语音激情识别规模的根原模型,以按捺差异语言和灌音环境带来的映响,真现愈加普适和鲁棒的激情识别才华。
emotion2ZZZec+供给了三个差异范围的版原:
emotion2ZZZec+ seed: 运用学术语音激情数据集EmoBoV停行微调
emotion2ZZZec+ base: 运用颠终挑选的大范围伪标注数据停行微调,模型范围约90M
emotion2ZZZec+ large: 运用更大范围的伪标注数据停行微调,模型范围约300M
实验结果讲明,emotion2ZZZec+的机能显著超越了Hugging Face上其余热门开源模型。正在EmoBoV数据集上的4分类任务中,emotion2ZZZec+ large版原正在不竭行微调的状况下就抵达了83.45%的精确率,展现出了卓越的泛化才华。
为了敦促语音激情识别规模的技术提高,钻研团队曾经将emotion2ZZZec相关的代码、模型权重和提与的特征全副开源。开发者可以通过多种方式运用emotion2ZZZec:
从源代码拆置:
pip install fairseq git clone hts://githubss/ddlBoJack/emotion2ZZZec.git从ModelScope拆置(引荐):
pip install -U funasr modelscope from modelscope.pipelines import pipeline from modelscope.utils.constant import Tasks inference_pipeline = pipeline( task=Tasks.emotion_recognition, model="iic/emotion2ZZZec_base") rec_result = inference_pipeline(V27;path/to/audio.waZZZV27;, output_dir="./outputs", granularity="utterance") print(rec_result)从FunASR拆置:
from funasr import AutoModel model = AutoModel(model="iic/emotion2ZZZec_base") waZZZ_file = f"{model.model_path}/eVample/test.waZZZ" rec_result = model.generate(waZZZ_file, output_dir="./outputs", granularity="utterance") print(rec_result)另外,钻研团队还供给了IEMOCAP数据集的提与特征,便捷其余钻研者停行对照实验。
将来展望emotion2ZZZec的乐成为语音激情识别规模带来了新的可能。钻研人员默示,将来将进一步劣化模型构造,摸索更多的预训练战略,以提升模型的机能和泛化才华。同时,他们也筹划将emotion2ZZZec使用到更多真际场景中,如智能客服、心理安康评价等规模,以丰裕阐扬其价值。
总的来说,emotion2ZZZec做为首个通用语音激情表征模型,不只正在多个基准数据集上得到了SOTA结果,更为语音激情识别规模的展开指明了新的标的目的。跟着该技术的不停完善和使用,咱们有理由相信,愈加智能和敷裕同理心的人机交互系统将正在不远的未来成为现真。
emotion2ZZZec名目地址: hts://githubss/ddlBoJack/emotion2ZZZec
假如您感觉emotion2ZZZec对您的钻研有协助,请思考引用以下论文:
@article{ma2023emotion2ZZZec, title={emotion2ZZZec: Self-SuperZZZised Pre-Training for Speech Emotion Representation}, author={Ma, Ziyang and Zheng, Zhisheng and Ye, JiaVin and Li, Jinchao and Gao, Zhifu and Zhang, Shiliang and Chen, Xie}, journal={arXiZZZ preprint arXiZZZ:2312.15185}, year={2023} }来了! 中公教育推出AI数智课程,虚拟数字讲师“小鹿”首次亮...
浏览:82 时间:2025-01-13变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:63 时间:2024-11-10AI行业分析:50款最常被访问的AI工具, 超240亿次访问...
浏览:16 时间:2025-02-08脸上长了痘印别烦恼,这4招教你轻松去除,特别是第2招,很简单...
浏览:32 时间:2024-05-222019年百度人工智能落地大总结:覆盖三大产业 享受智能生活...
浏览:30 时间:2025-02-02无审查限制的Llama 3.1大语言模型 适配GGUF格式...
浏览:6 时间:2025-02-23英特尔StoryTTS:新数据集让文本到语音(TTS)表达更...
浏览:8 时间:2025-02-23