爱吱声
标题:
faster-whisper 更快的语音到文字的识别 ASR
[打印本页]
作者:
nanimarcus
时间:
2023-6-4 02:10
标题:
faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
0 ?8 Q' }# N+ }) S% _# W
5 w- N/ d% u3 X2 K" A( H& S
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
1 P! C" ^7 o3 d- x- m6 n. z7 x
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
, u% q, a& c" a/ C& p& h& s
----------------------------------------
7 o5 K1 h# [: ~/ N
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
9 k# X7 F) K6 Q" Z8 L
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
' ]# O- p1 l9 T) N0 U7 m
----------------------------------------
( y6 I, [8 k/ r" l+ l; [
https://github.com/guillaumekln/faster-whisper
* I. E @0 F- ` A1 V: b) I
安装如下:
! i; U6 `( X; _) v: y
1, Windows 10
4 c4 _" u' N) |* c3 z' O6 q9 L
2, Python 3.10.11
; F+ i# O1 v# W" i
3, CUDA 12.1
% Z& n+ G V4 `7 u* _
4, 在python 3 中安装
$ |9 U3 j3 _/ s N( J d4 s! D; U
pip install setuptools-rust torch torchvision torchaudio --extra-index-url
https://download.pytorch.org/whl/cu117
, E% g: |7 q7 s2 I9 L. h Y
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
) N# @! ^" U! [$ H9 r: s) ?
5,pip install -U openai-whisper
7 w1 ~: U: G+ l
这是向whisper 致敬,可以不装
8 R; c6 [- b1 e8 u2 x
6,pip install faster-whisper
* t( y9 ^/ D, r( z6 J5 e, M
----------------------------------------
6 {8 ]& n0 C4 t' r! q
whisper 我用的命令行,faster-whisper 我用的是python。
$ ], {& N3 r1 P4 `9 U V
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
9 p2 _! @8 j7 d! a* x, [
; K3 I/ q& h3 @- }8 B+ V# @
----------------------------------------
( s- u) R. @' ]4 p4 ]
6 L! p0 \* T$ U1 s
from faster_whisper import WhisperModel
$ p, P0 Y' G1 z. @+ A# ~
, q+ z$ h& y1 L0 n S
model_size = "small"
, `6 N7 c5 c6 g0 V) t
9 l1 \; R) j- H& E/ Y; @
model = WhisperModel(model_size, device="cuda", compute_type="int8")
% m! g6 Z1 R5 i7 w: @2 y' Z0 Z
) a X! U, y \+ P7 z) S
segments, info = model.transcribe(
' y7 |) R1 e5 Y5 v" P! N5 Z
sourceFileName,
7 B& e$ i' d/ i, g8 Z- n
beam_size=5,
1 l* \7 J3 y. z. s9 Y5 k3 G$ D
language="en",
' Y1 n; \/ ~6 b! D" c
task="transcribe",
8 y) b' Z" ?# ?5 B) w0 D
word_timestamps=True,
& A8 S7 O& N. G2 q& o/ m! o
initial_prompt = "Hello, welcome to my lecture.")
) J& Z$ i6 F- a/ n( q$ G% @
' e5 y' g6 o9 c5 Q- ~3 `, p7 [
for segment in segments:
7 N+ f" ] t7 \# i' y
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
/ D7 }3 X8 |; U! u7 N
, g& X* z+ t/ F) f$ I' M
for word in segment.words:
u( E2 Q' p, h7 Z2 Z- |
+ g$ \% Z( _7 W3 S& e2 ?8 Q( t6 f! x! f
----------------------------------------
# g! u/ p. [: S7 v" y; z* ]+ f
?) J. K3 s2 i9 B
代码说明:
x+ V( Y0 \( |2 R
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
1 r* l) b. D5 u4 X
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
6 G# a9 t; w+ u6 l+ J
2,segment 本身是很粗糙的,做字幕勉强能用。
@ q5 e8 M- P
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
+ L1 C/ Z4 e1 o! h6 @- Q. `& @4 X
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
: H1 Z: ?8 a* ~/ o
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。
, _* q: \& a4 D' v) N
5,model.transcribe 中参数说明:
8 ~7 b; B. u: C1 W
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
- R. t' B: F# T; v" V
其中
8 c+ \7 r O6 t. R1 m+ f+ B9 v
word_timestamps=True,
0 ]& F" t3 r0 E+ Z% J, C) w8 w9 F
保证了你能拿到 word,否则是拿不到的
' D3 ?9 v) b' d, M- F
initial_prompt = "Hello, welcome to my lecture.")
# F, f( i3 v: k; E" e# u' P2 n, C( W
保证能尽可能准确的断句 punctuation,但是不是决定性的。
# `6 v" E8 R* A7 |
其他参数可参考源文件:
/ b! z( s5 b- c4 B: q6 r% J
https://github.com/guillaumekln/ ... isper/transcribe.py
x$ k1 v) X* Y$ Y! r
152 def transcribe(
0 v" J4 k1 p6 j: ~( k7 ~; Z
从源文件你可以看到是支持中文的句号断句的。
0 n) |! c' P; u6 m" @/ n6 S
+ Q* l7 K, A0 J# h5 j0 F9 [) H' f
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
, z8 X U) d0 _8 Q( w5 G- _
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
- ]; D, _+ y& V/ L. H
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
$ E! \0 P6 D" F U. ]
/ l y/ g0 f5 ^3 m! O5 W# f2 _
) j9 R/ i$ O, {' {
* F# N8 ^% K t& `6 j5 c7 F: U
作者:
nanimarcus
时间:
2023-6-4 11:53
多谢各位榜爷打赏。
欢迎光临 爱吱声 (http://aswetalk.net/bbs/)
Powered by Discuz! X3.2