爱吱声
标题:
faster-whisper 更快的语音到文字的识别 ASR
[打印本页]
作者:
nanimarcus
时间:
2023-6-4 02:10
标题:
faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
; [- ^" T% K% H& r5 x, W: W1 _8 r
5 M& f' U# H9 x/ V* a
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
. {7 _' [2 ^5 @* y# |
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
6 j/ p+ S3 r4 q- ?5 Q
----------------------------------------
0 `* l5 @0 |6 i2 y' u
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
1 h" y; v0 U8 r6 S
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
3 s+ q3 V: D* U& O0 n
----------------------------------------
/ j3 S# Y, a3 \* M4 j% v
https://github.com/guillaumekln/faster-whisper
; x7 `$ Y. M. c. {
安装如下:
' Z+ a! ~! {2 R2 V# t4 l7 g9 M
1, Windows 10
5 H# l& L% r* ^" C; T
2, Python 3.10.11
/ m# D$ J; D9 k
3, CUDA 12.1
* j( M( c; l' a( W. ~
4, 在python 3 中安装
8 v- y$ C/ t' g; e" X1 S. `
pip install setuptools-rust torch torchvision torchaudio --extra-index-url
https://download.pytorch.org/whl/cu117
$ T" K* W# T o% ^
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
/ J, Y. L6 s8 q2 a) n6 c' Y
5,pip install -U openai-whisper
+ z% L; B5 \8 q' C
这是向whisper 致敬,可以不装
% j% Q+ ?, @9 d, j F$ ]
6,pip install faster-whisper
) ^( {2 N0 I7 N$ G, I
----------------------------------------
5 Z3 y! G( Q5 |
whisper 我用的命令行,faster-whisper 我用的是python。
% G1 t% x8 _8 M
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
- @4 j1 t: ]# l% Y+ ?. b3 _( ]
' Q2 u3 V9 L! E- h- S) \4 c, t! [
----------------------------------------
& L9 I4 O4 L8 z+ T' K
0 K0 t( D! D1 g" q
from faster_whisper import WhisperModel
6 i% c7 m# Y- m, Y4 |% W. L
# R, g M! W7 L5 S1 C8 u& O
model_size = "small"
- {7 I2 {5 v( V) n5 K0 w
" n4 p _9 h% @) H; ^5 l; s# N
model = WhisperModel(model_size, device="cuda", compute_type="int8")
a3 `7 c; g9 K4 _/ m
, w0 F6 F1 Q- V" Y; R# h7 s0 K
segments, info = model.transcribe(
) O* [, ]4 v1 K5 F5 t6 e7 `: Y+ f
sourceFileName,
5 s* k* E8 c$ { f5 p6 E; j# D
beam_size=5,
1 d% i( V* r6 d, n/ X! {- p
language="en",
8 R3 L& N* |+ T l# l: m
task="transcribe",
2 O" `! _: i8 N/ D: U+ q' ?- U
word_timestamps=True,
0 K- V+ w) V+ o1 _( O% u4 N2 |
initial_prompt = "Hello, welcome to my lecture.")
/ P9 h d& K6 o2 L' D& H$ [3 j
3 |, O6 E: x# q0 s$ c2 Y/ U
for segment in segments:
( V& [/ R1 L6 t" T. ?
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
# M% H. V7 f3 {+ k) g
- l& m& B6 k' G# t) R) \6 @
for word in segment.words:
+ U3 t4 d- h D$ x' |! I( s9 H% R
4 c+ B3 ^' [0 n) z1 z2 n0 o
----------------------------------------
( {9 ~. Y" O" @: B8 z: ^, h8 n% ~% L
% n( R0 d& J' O+ h
代码说明:
" _3 |5 v9 b$ ?6 x L o
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
. }9 }2 d' w3 r& Q
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
8 G5 o$ V8 t6 R7 v! |9 r% ^2 y
2,segment 本身是很粗糙的,做字幕勉强能用。
' G$ U4 X% j0 |* N0 o
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
1 v5 Q9 S! ^) I( s
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
) c8 K) X6 M: ] V
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
5 }2 D- n- J* t5 P
5,model.transcribe 中参数说明:
! h" G: z) U5 B6 d8 j. F
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
0 z3 _# t* `: u9 N
其中
% u9 a7 J: A3 j
word_timestamps=True,
. [* f5 H% Q. Y. X4 q/ F+ a
保证了你能拿到 word,否则是拿不到的
G5 H' { L7 l1 `
initial_prompt = "Hello, welcome to my lecture.")
" a1 k- i- c/ b
保证能尽可能准确的断句 punctuation,但是不是决定性的。
) }+ f& D K. o" ^, N y1 X5 d' E
其他参数可参考源文件:
: r# g* l. n' e% F G
https://github.com/guillaumekln/ ... isper/transcribe.py
, P6 P# v* u6 K9 X
152 def transcribe(
' \: s" O( B2 T* i& M) R- U
从源文件你可以看到是支持中文的句号断句的。
j/ m, V* r( B! g6 V& K" Z# f7 E4 O
% A3 L& Y' _0 `; H. g N) e
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
- S% l4 X, Q' f7 M1 f4 z# j
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
7 d1 E- V9 z$ z) s G: i+ j
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
( G" q) ~# D% [/ q+ f5 g1 o+ j! k
5 g) f& F9 [6 f6 G3 [. {
; n; s4 v5 k5 f# P
2 l% p: ^+ L, u! i0 o: c
作者:
nanimarcus
时间:
2023-6-4 11:53
多谢各位榜爷打赏。
欢迎光临 爱吱声 (http://aswetalk.net/bbs/)
Powered by Discuz! X3.2