爱吱声

标题: faster-whisper 更快的语音到文字的识别 ASR [打印本页]

作者: nanimarcus    时间: 2023-6-4 02:10
标题: faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 6 x- ~7 f& g. k, y$ u
  q& p$ D* h. q0 m' b
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。+ D3 i3 u- M6 ]3 K- {5 a# O
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
$ l, v' D2 j, Z' x4 G/ ^----------------------------------------/ E2 \  P5 [  b# Y- ~6 X! I
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
$ \) n+ ~( |9 X在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。; W; w! B- \9 a& W6 Q
----------------------------------------
$ g7 t) l3 o% ^9 Rhttps://github.com/guillaumekln/faster-whisper6 Z& |1 e+ z" g! o: E9 J  I2 y
安装如下:5 J. d  O/ C& ?* Z; A
1, Windows 10* h% a0 Q* t. t3 U, l  Z
2, Python 3.10.11- B* H3 U3 {, Z5 E7 F' J
3, CUDA 12.12 ]4 z/ m; V* d7 U, m
4, 在python 3 中安装  }, D0 ^" e8 l# G
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu1171 A3 a- |7 G+ B/ C! A3 p3 F9 O
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
+ s. I: \, a1 ]" X5,pip install -U openai-whisper
* ]  \6 s( r, A$ [这是向whisper 致敬,可以不装
$ a/ C3 ~, P0 }5 j* c% i$ p6,pip install faster-whisper# t( n! ~' Z4 z4 Y
----------------------------------------
1 x: X9 s- l) v7 I* wwhisper 我用的命令行,faster-whisper 我用的是python。, ?: f8 J* j1 |9 [+ e
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
7 ^7 P- k3 E, R/ f
( d* K& I0 Q1 P6 c0 \8 [----------------------------------------5 Y5 W. S: }5 }) Z- m
! ~4 v7 s2 r" G. k" O* W0 R
from faster_whisper import WhisperModel$ g  g% u% g" v* x- w$ Z
0 n1 X+ e3 l/ }& L
model_size = "small"
) f+ u9 ]2 S0 @! t0 H0 M, R# i+ k* I. O" p. P, h
model = WhisperModel(model_size, device="cuda", compute_type="int8")
; A" ~% [# s3 ~" n2 E- X3 N: M7 }0 n. p# h- E0 s
segments, info = model.transcribe(1 t* e2 r; Q/ y5 P# U# m( j' q
    sourceFileName,
& P+ K3 d; _2 G7 w- c( N+ E; M    beam_size=5, 8 p0 a# U* P$ \2 Y6 t) K+ w
    language="en",
! w8 h& S; ^) E0 ~    task="transcribe",
9 A( _# z, E4 D: ^5 O    word_timestamps=True, / q$ w. q# C4 B4 U7 }' Q$ [
    initial_prompt = "Hello, welcome to my lecture.")( m" c7 q* A' Z+ B
5 Z, x" r7 Y, |) l( q' }, }9 u
for segment in segments:
' y: z) K# V5 [# A) X/ ^    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))# I( q% N* X: r5 g' D" b, l5 t
; |8 `2 R3 [7 K4 |6 S9 i4 T: j
        for word in segment.words:3 x& T! r% S3 s/ Z
                7 y1 P- S9 [" K6 X. U/ o! C/ O
----------------------------------------
8 R- x' z/ m: k/ [, D
9 J4 |1 {$ ]$ H- \; r代码说明:
% g/ E' }2 \# N, q0 }) a' Z6 C& m1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。8 u3 d0 Q1 M3 `& h- l4 _
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。( F; F3 d9 t- C) C  @3 H1 ]
2,segment 本身是很粗糙的,做字幕勉强能用。
9 v/ q+ V# e6 h: a/ T3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
5 h9 K9 S: @* c' G& L- I4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中- o" y. K) ?' O: V2 s
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
5 f2 ^# G; ~; ?, K5 H+ r( A0 [) b5,model.transcribe 中参数说明:: S4 I; s' D+ K6 n: R: p
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数% F8 I5 T4 p1 D# D" P
其中+ v& f' P* Q3 Q$ q
    word_timestamps=True,
# A. N& l( Z; A. {3 O: o- k保证了你能拿到 word,否则是拿不到的$ B/ z* R( \( }+ v, R
    initial_prompt = "Hello, welcome to my lecture.")
1 u& G( j( L& s2 l: f/ f保证能尽可能准确的断句 punctuation,但是不是决定性的。
# `3 G7 [5 B/ K& m' O5 L. F# `其他参数可参考源文件:& \+ W* E) s' ?6 n# _
https://github.com/guillaumekln/ ... isper/transcribe.py
7 F! ?7 @& H8 l0 W& q152 def transcribe(
3 H+ s- A1 K: r: k4 `' R6 i从源文件你可以看到是支持中文的句号断句的。/ T! G, `7 q4 u( m/ w7 h7 @8 `' l0 E( v
2 ^$ N3 R2 w3 `4 ?* r. s1 R7 ~
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。: y9 @2 w2 I! t8 W2 l5 a
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。2 {3 {4 A8 e) w8 y7 N0 J" H
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。+ i$ j: L) V- ]
& j- O2 N$ S! }6 Z
3 ~0 F, J2 u& f! o$ w5 l; }
; J" W, n# U( G! o! H

作者: nanimarcus    时间: 2023-6-4 11:53
多谢各位榜爷打赏。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2