爱吱声
标题:
faster-whisper 更快的语音到文字的识别 ASR
[打印本页]
作者:
nanimarcus
时间:
2023-6-4 02:10
标题:
faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
2 d6 A! F! j. A, {3 i
% B3 E$ }! W3 S! B$ @
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
- [8 Y% {4 Z/ C% e$ H! Z
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
; e$ I8 p: _3 c* `3 i0 Y
----------------------------------------
! d1 z3 |3 A/ e1 B; J! L% r+ _
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
/ A: x m. K4 x; A2 V" l
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
& v( ?0 g O% t7 {
----------------------------------------
7 j& i& |6 t3 _8 c( {4 @
https://github.com/guillaumekln/faster-whisper
9 x" T O) l2 s
安装如下:
/ e+ [) o& P6 l2 b% r. k
1, Windows 10
2 ^) ]; F- B- A j9 F6 E
2, Python 3.10.11
& k# X' _& H1 m6 m
3, CUDA 12.1
" ?) w9 _ k& T( n: v% m8 @. c
4, 在python 3 中安装
1 R5 Y% q) ]" s1 a+ f
pip install setuptools-rust torch torchvision torchaudio --extra-index-url
https://download.pytorch.org/whl/cu117
, V3 J: O% l2 i! o
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
# n5 w" V: r. C9 r
5,pip install -U openai-whisper
! G% `! [: [" a: h, z3 E
这是向whisper 致敬,可以不装
' k* C5 T% o# L
6,pip install faster-whisper
& e( w8 {8 s: t9 r
----------------------------------------
$ U0 N! T" W0 w5 [% \
whisper 我用的命令行,faster-whisper 我用的是python。
* c: a- v! ~6 M! V+ U" ?- v
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
8 ?& P+ l- m+ n
1 {, r+ U* g9 P+ H
----------------------------------------
4 B4 h4 C2 I) P" S" }& _% v
4 _( W3 c' W" e# B0 \4 z
from faster_whisper import WhisperModel
4 z, I$ w. ^# d; ^$ w& A& Q' @3 I
7 y- S- ~1 t2 N4 W6 o
model_size = "small"
+ B# n) G7 r/ H: E) j# J9 T; i% x2 H
# E( D7 `0 r, |) V0 ^: F
model = WhisperModel(model_size, device="cuda", compute_type="int8")
% [1 t8 x/ J7 f) i( V( N
/ B0 l& w; u4 ]1 d1 p* z- e( K
segments, info = model.transcribe(
9 z3 M( E, u: f+ d/ w/ q
sourceFileName,
+ J6 W# Z1 _$ k. o" m
beam_size=5,
0 Y1 E4 D# B$ M% }* S2 r
language="en",
Q. D' {! }! [3 Q5 ]! h
task="transcribe",
3 C. b, t0 @& r& ]$ L) |% a9 p
word_timestamps=True,
! c0 _4 R# t' c7 I& N# r% I1 I
initial_prompt = "Hello, welcome to my lecture.")
$ v$ I& E# d+ `/ ]' W
% B0 Y2 J/ C* u" P9 ^" q/ ]
for segment in segments:
" }9 W5 n `+ | H& g H/ _
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
7 K# U9 W$ o# e* Z; |. X5 q% j4 p
! k+ H6 n4 T; m. o4 |
for word in segment.words:
1 t V+ F! ]8 I6 Y
( s ?) r9 T7 Z* h
----------------------------------------
2 S; K. o! C! x. l4 b
9 O# e% V# |2 ^+ X8 T1 N
代码说明:
, e, B4 |4 j+ M5 v5 n% u" q; q& C
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
# Q* O" {+ {7 k& _
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
$ t5 W% T6 Z" W6 R7 }! I8 u3 J4 t
2,segment 本身是很粗糙的,做字幕勉强能用。
5 Z& H, z2 c. L1 q1 ^8 P3 F* q0 _5 W7 I
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
+ e3 E% I, Z; U/ H' y, g1 W
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
: B* ~: k% _4 t7 s; N
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
8 }3 L3 H7 V0 m4 i
5,model.transcribe 中参数说明:
& N) ?( X/ d9 H& Z
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
0 L4 S7 ^( H( q2 M8 c4 I
其中
8 W# U: e' O1 J5 Z+ H) C! o2 ?
word_timestamps=True,
. {8 p. M% X* [/ N
保证了你能拿到 word,否则是拿不到的
5 p r+ y# I X! x$ u& q
initial_prompt = "Hello, welcome to my lecture.")
' R* C7 K# c( D3 Y' ^8 d* m4 x
保证能尽可能准确的断句 punctuation,但是不是决定性的。
' `$ B% s' H9 k
其他参数可参考源文件:
3 ~" S+ l) @; y9 L
https://github.com/guillaumekln/ ... isper/transcribe.py
) q! s9 V. f& k' m& \
152 def transcribe(
; y; A9 m9 O6 {/ _6 R5 W2 }; U
从源文件你可以看到是支持中文的句号断句的。
& ?3 v9 @- W: O( [% g0 @+ l
" g4 v' z! h6 ~" p5 [7 \1 e
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
. t% h% L6 X1 ]4 X
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
2 V& c g# h* S% R9 t, G9 r
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
Y7 ?& A. g2 k" U
7 x' f/ l. \2 m, r6 R
5 }% D K( V+ Q* K; {/ s
) U7 R% h/ _6 g( b! i& m
作者:
nanimarcus
时间:
2023-6-4 11:53
多谢各位榜爷打赏。
欢迎光临 爱吱声 (http://aswetalk.net/bbs/)
Powered by Discuz! X3.2