首页 1 2 3 4 5 6 7

whisperX 语音识别本地部署

WhisperX 是一个优秀的开源Python语音识别库。
下面记录Windows10系统下部署Whisper
1、在操作系统中安装 Python环境
2、安装 CUDA环境
3、安装Annaconda或Minconda环境
4、下载安装ffmpeg
下载release-builds包，如下图所示
在这里插入图片描述
将下载的包解压到你想要的路径，然后配置系统环境：我的电脑->高级系统设置->环境变量->Path

设置完成后打开cmd窗口输入

ffmpeg

在这里插入图片描述
5、conda环境安装指定位置的虚拟环境

6、激活虚拟环境

conda activate D:\Projects\LiimouDemo\WhisperX\Code\whisperX\whisperXVenv

7、安装WhisperX库

pip install git+https://github.com/m-bain/whisperx.git

8、更新WhisperX库

pip install git+https://github.com/m-bain/whisperx.git --upgrade

9、在Python中使用

import whisperx
import time
import zhconv
device = "cuda"
audio_file = "data/test.mp3"
batch_size = 16 # reduce if low on GPU mem
compute_type = "float16" # change to "int8" if low on GPU mem (may reduce accuracy)
# compute_type = "int8" # change to "int8" if low on GPU mem (may reduce accuracy)
print('开始加载模型')
start = time.time()
# 1. Transcribe with original whisper (batched)
model = whisperx.load_model("large-v2", device, compute_type=compute_type)
# model = whisperx.load_model("small", device, compute_type=compute_type)
end = time.time()
print('加载使用的时间：',end-start,'s')
start = time.time()
audio = whisperx.load_audio(audio_file)
result = model.transcribe(audio, batch_size=batch_size)

print(result["segments"][0]["text"]) # before alignment
end = time.time()
print('识别使用的时间：',end-start,'s')

封装上述代码，初始化时调用一次loadModel()方法，之后使用就直接调用asr(path)方法

import whisperx
import zhconv
from whisperx.asr import FasterWhisperPipeline
import time

class WhisperXTool:
    device = "cuda"
    audio_file = "data/test.mp3"
    batch_size = 16  # reduce if low on GPU mem
    compute_type = "float16"  # change to "int8" if low on GPU mem (may reduce accuracy)
    # compute_type = "int8" # change to "int8" if low on GPU mem (may reduce accuracy)
    fast_model: FasterWhisperPipeline

    def loadModel(self):
        # 1. Transcribe with original whisper (batched)
        self.fast_model = whisperx.load_model("large-v2", self.device, compute_type=self.compute_type)
        print("模型加载完成")

    def asr(self, filePath: str):
        start = time.time()
        audio = whisperx.load_audio(filePath)
        result = self.fast_model.transcribe(audio, batch_size=self.batch_size)
        s = result["segments"][0]["text"]
        s1 = zhconv.convert(s, 'zh-cn')
        print(s1)
        end = time.time()
        print('识别使用的时间：', end - start, 's')
        return s1

zhconv是中文简体繁体转换的库，安装命令如下

pip install zhconv

LeetCode 258

Add Digits Given a non-negative integer num, repeatedly add all its digits

虚拟内存，虚拟内存地址，物理内存，物理内存地址

在解释第一个问题之前，先说明一下计算机内存管理的中的四个名词：虚拟内存，虚拟内存地址，物理内存，物理内存地址。先说说为什么会有虚拟内存和物理内存的区别。正在运行的一个进程，他所需的内

百度java实验报告心得_20155327 实验一《Java开发环境的熟悉》实验报告

实验内容 1.使用JDK编译、运行简单的Java程序； 2.使用Eclipse 编辑、编译、运行、调试Java程序。实验知识点 JVM、JRE、JDK的安装位置与区别；命令行运行javac；java；jav

Python kmean

# -*- coding: utf-8 -*-from sklearn.cluster import KMeansfrom sklearn.externals impor

angular学习之路（从无到有）

一. 安装脚手架 npm install -g @angular/cli 二. 通过脚手架创建项目 n

039_特殊方法（魔术方法）.py

#-*- coding = utf-8 -*- #@Time:2020/8/5 16:41

正则表达式 python_Python 正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 Python 自1.5版本起增加了re 模块，它提供 Perl 风格的正则表达式模式。 re 模块使 Python 语言拥有全部的正则表达式功能。 com

RSA ~ 非对称加密算法

RSA：非对称加密，加密与解密使用的密钥不是同一密钥，对中一个对外公开，称为公钥，另一个只有所有者知道，称为私钥。用公钥加密的信息只有私钥才能解开，反之，用私钥加密的信息只有公钥才能解开（签名验签）。代表：RSA算

python依赖包整体迁移方法

apt-get包的位置 ubuntu中由apt-get获得的文件包保存在/var/cache/apt/archives；通过apt-get命令下载的软件包，放在/

go有哪些快速开发的web框架？

本文首发自「慕课网」，想了解更多IT干货内容，程序员圈内热闻，欢迎关注！不知不觉间，Go语言已经火遍大江南北了。自2015年以来，除了绑在Java战车上的公司，大部分国内一线大厂的新业务几乎一边倒地选择了使用Go语言来编写。 2020年腾讯使