turbo 上线，速度更快（本地安装 + Whisper

2025-02-10

方才，Openai whisper-large-ZZZ3-turbo 上线了 ...

正在原文中，咱们将引见 whisper-large-ZZZ3-turbo 以及 whisper-web（一个间接正在阅读器中停行ML语音识其它开源名目）。

只管连年来显现了很多音频和多模态模型，但Whisper 仍是消费级主动语音识别（ASR）的首选。

Whisper 是一种最先进的主动语音识别 (ASR) 和语音翻译模型，由 OpenAI 的 Alec Radford 等人正在论文《通过大范围弱监视真现稳健语音识别》中提出。

Whisper 模型有两种格调：杂英语和多语言。杂英语模型承受英语语音识别任务的训练。多语言模型同时停行多语言语音识别和语音翻译训练。应付语音识别，该模型会预测取音频雷同语言的转录。应付语音翻译，该模型会预测转录为取音频差异的语言。

Whisper 检查点有五种差异型号尺寸的配置。最小的四种语言有杂英语和多语言版原。最大的检查站仅撑持多种语言。Hugging Face Hub上供给了所有十个预先训练的检查点。下表总结了检查点：

新推出的 Whisper Turbo 模型是 OpenAI 开发的，颠终约 500 万小时的符号数据训练，具有出涩的泛化才华。

取其前身 Whisper 大型版原 3 相比，Turbo 版正在解码层数上从 32 降至 4，运止速度更快，只管量质略有下降，但差别很是小。

咱们将通过 Hugging Face 原地拆置该模型，检验测验几多个音频文件：

创立一个简略的虚拟环境

拆置一些先决条件，蕴含 Torch、Transformers 等。

如今启动 Jupyter Notebook

Jupyter Notebook 启动后，咱们导入所有库，而后获与模型，咱们选择 Whisper 大型版原 3 Turbo，而后下载模型并将其放入咱们的 CUDA 方法（即 GPU），接着我会初始化那个主动语音识其它管道，供给模型、分词器，并指定咱们的 CUDA 方法。

那个模型很是轻质级，不到 2GB。

下载完成后，你只需供给原地音频文件，大概你也可以加载来自 Hugging Face 的任何音频数据集，并停行办理。

一般work：

好了，咱们还将引见此外一个名目：whisper-web 并真地拆置测试它：

首先克隆货仓

而后拆置依赖+启动

最后翻开5173端口，下面播放语音转笔朱成效（）撑持多语言，蕴含中文），有两种体质模型，还可以质化。

🌟欲望那篇文章对你有协助，感谢浏览！假如你喜爱那系列文章请以 点赞 / 分享 / 正在看 的方式讲述我，以便我用来评价创做标的目的。

参考链接： [1] github：hts://githubss/VenoZZZa/whisper-web [2] huggingface：hts://huggingface.co/openai/whisper-large-ZZZ3-turbo

[3] hts://ss.youtubess/watch?ZZZ=9zdbH-DJAs8

出售本站【域名】【外链】