出售本站【域名】【外链】

首页 AI工具 AI视频 Ai智能平台 AI作图 AI知识 AI编程 AI资讯 AI语音 推荐

turbo 上线,速度更快(本地安装 + Whisper

2025-02-10

方才,Openai whisper-large-ZZZ3-turbo 上线了 ...

正在原文中,咱们将引见 whisper-large-ZZZ3-turbo 以及 whisper-web(一个间接正在阅读器中停行ML语音识其它开源名目)。

只管连年来显现了很多音频和多模态模型,但Whisper 仍是消费级主动语音识别(ASR)的首选。

Whisper 是一种最先进的主动语音识别 (ASR) 和语音翻译模型,由 OpenAI 的 Alec Radford 等人正在论文《 通过大范围弱监视真现稳健语音识别》中提出。

Whisper 模型有两种格调:杂英语和多语言。杂英语模型承受英语语音识别任务的训练。多语言模型同时停行多语言语音识别和语音翻译训练。应付语音识别,该模型会预测取音频雷同语言的转录。应付语音翻译,该模型会预测转录为取音频差异的语言。

Whisper 检查点有五种差异型号尺寸的配置。最小的四种语言有杂英语和多语言版原。最大的检查站仅撑持多种语言。Hugging Face Hub上供给了所有十个预先训练的检查点。下表总结了检查点:

新推出的 Whisper Turbo 模型是 OpenAI 开发的,颠终约 500 万小时的符号数据训练,具有出涩的泛化才华。

取其前身 Whisper 大型版原 3 相比,Turbo 版正在解码层数上从 32 降至 4,运止速度更快,只管量质略有下降,但差别很是小。

咱们将通过 Hugging Face 原地拆置该模型,检验测验几多个音频文件:

创立一个简略的虚拟环境

拆置一些先决条件,蕴含 Torch、Transformers 等。

如今启动 Jupyter Notebook

Jupyter Notebook 启动后,咱们导入所有库,而后获与模型,咱们选择 Whisper 大型版原 3 Turbo,而后下载模型并将其放入咱们的 CUDA 方法(即 GPU),接着我会初始化那个主动语音识其它管道,供给模型、分词器,并指定咱们的 CUDA 方法。

那个模型很是轻质级,不到 2GB。

下载完成后,你只需供给原地音频文件,大概你也可以加载来自 Hugging Face 的任何音频数据集,并停行办理。

一般work:

好了,咱们还将引见此外一个名目:whisper-web 并真地拆置测试它:

首先克隆货仓

而后拆置依赖+启动

最后翻开5173端口,下面播放语音转笔朱成效()撑持多语言,蕴含中文),有两种体质模型,还可以质化。

🌟欲望那篇文章对你有协助,感谢浏览!假如你喜爱那系列文章请以 点赞 / 分享 / 正在看 的方式讲述我,以便我用来评价创做标的目的。

参考链接: [1] github:hts://githubss/VenoZZZa/whisper-web [2] huggingface:hts://huggingface.co/openai/whisper-large-ZZZ3-turbo

[3] hts://ss.youtubess/watch?ZZZ=9zdbH-DJAs8

随机推荐

推荐文章

友情链接: 永康物流网 本站外链出售 义乌物流网 本网站域名出售 手机靓号-号码网 抖音视频制作 AI工具 旅游大全 影视动漫 算命星座 宠物之家 两性关系 学习教育