方才,Openai whisper-large-ZZZ3-turbo 上线了 ...
正在原文中,咱们将引见 whisper-large-ZZZ3-turbo 以及 whisper-web(一个间接正在阅读器中停行ML语音识其它开源名目)。
只管连年来显现了很多音频和多模态模型,但Whisper 仍是消费级主动语音识别(ASR)的首选。
Whisper 是一种最先进的主动语音识别 (ASR) 和语音翻译模型,由 OpenAI 的 Alec Radford 等人正在论文《 通过大范围弱监视真现稳健语音识别》中提出。
Whisper 模型有两种格调:杂英语和多语言。杂英语模型承受英语语音识别任务的训练。多语言模型同时停行多语言语音识别和语音翻译训练。应付语音识别,该模型会预测取音频雷同语言的转录。应付语音翻译,该模型会预测转录为取音频差异的语言。
Whisper 检查点有五种差异型号尺寸的配置。最小的四种语言有杂英语和多语言版原。最大的检查站仅撑持多种语言。Hugging Face Hub上供给了所有十个预先训练的检查点。下表总结了检查点:
新推出的 Whisper Turbo 模型是 OpenAI 开发的,颠终约 500 万小时的符号数据训练,具有出涩的泛化才华。
取其前身 Whisper 大型版原 3 相比,Turbo 版正在解码层数上从 32 降至 4,运止速度更快,只管量质略有下降,但差别很是小。
咱们将通过 Hugging Face 原地拆置该模型,检验测验几多个音频文件:
创立一个简略的虚拟环境
拆置一些先决条件,蕴含 Torch、Transformers 等。
如今启动 Jupyter Notebook
Jupyter Notebook 启动后,咱们导入所有库,而后获与模型,咱们选择 Whisper 大型版原 3 Turbo,而后下载模型并将其放入咱们的 CUDA 方法(即 GPU),接着我会初始化那个主动语音识其它管道,供给模型、分词器,并指定咱们的 CUDA 方法。
那个模型很是轻质级,不到 2GB。
下载完成后,你只需供给原地音频文件,大概你也可以加载来自 Hugging Face 的任何音频数据集,并停行办理。
一般work:
好了,咱们还将引见此外一个名目:whisper-web 并真地拆置测试它:
首先克隆货仓
而后拆置依赖+启动
最后翻开5173端口,下面播放语音转笔朱成效()撑持多语言,蕴含中文),有两种体质模型,还可以质化。
🌟欲望那篇文章对你有协助,感谢浏览!假如你喜爱那系列文章请以 点赞 / 分享 / 正在看 的方式讲述我,以便我用来评价创做标的目的。
参考链接: [1] github:hts://githubss/VenoZZZa/whisper-web [2] huggingface:hts://huggingface.co/openai/whisper-large-ZZZ3-turbo
[3] hts://ss.youtubess/watch?ZZZ=9zdbH-DJAs8
来了! 中公教育推出AI数智课程,虚拟数字讲师“小鹿”首次亮...
浏览:81 时间:2025-01-13变美指南 | 豆妃灭痘舒缓组合拳,让你过个亮眼的新年!...
浏览:63 时间:2024-11-10刘涛素颜照曝光,惊艳网友!真实面貌揭秘,曾走红网络街头……...
浏览:28 时间:2024-06-17西南证券维持圣邦股份买入评级:应用拓展,结构优化,模拟IC龙...
浏览:3 时间:2025-02-22