|
|
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 # `' D0 i+ T: H# ]( V- s
! ?6 B* B% W7 F) N. X; ^
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
3 K4 R% W- i! v( `1 b& o效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
, \' h0 m& x# [' [3 D+ v1 f----------------------------------------4 g# [5 i0 L7 b: x9 A+ `2 l
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
, ?% b3 ^3 X* i5 h! o在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。& m3 d Z- [% X2 ~
----------------------------------------
( C. v+ @6 ~- J* M! Thttps://github.com/guillaumekln/faster-whisper
9 d/ d* J2 p3 T" W安装如下:
C* C* T) H' q9 C) Z1, Windows 105 a* p9 R: [9 u1 n
2, Python 3.10.112 J c) Z; ]* d. h
3, CUDA 12.1
3 `+ T5 s: k G0 S% G4, 在python 3 中安装
1 |8 [- m9 j; b7 l8 Opip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117- F7 @. w9 y/ j/ p3 C
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
. ~& [5 j4 h2 v8 _" l" [ \& H1 e5,pip install -U openai-whisper$ y" a5 R/ U" x8 i+ B- B5 m
这是向whisper 致敬,可以不装
. U h- g' k" `1 v2 `% _, A6,pip install faster-whisper
' N) c8 C/ W N3 }4 @! k- u----------------------------------------4 J9 b; Q/ n2 I7 L- w9 H
whisper 我用的命令行,faster-whisper 我用的是python。
: W- L+ \) C/ I$ k7 F下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:+ h+ h* H+ R; h4 e
4 b+ K1 r+ S; Z----------------------------------------
% N& d+ C: x/ S# v2 _: f: k8 k6 p: Q( O6 j& J# a% \( I
from faster_whisper import WhisperModel
$ r; M5 j! H" @" }3 |# t4 s+ E u4 X" i/ W8 ?) H: O, Q
model_size = "small"
. d$ C+ O- k+ L: k: j' ]8 O; B1 G9 }9 u' Z& A$ i, W* x
model = WhisperModel(model_size, device="cuda", compute_type="int8")" [0 {4 A; A/ E% \5 O/ L
( Q g9 }, ?4 X" k h6 i+ A0 [segments, info = model.transcribe(
5 b/ T2 K( N# E/ n8 u sourceFileName,
: r/ Z0 l5 e# h3 J7 n beam_size=5,
4 @+ a2 j& y9 g4 G+ m language="en",
6 U6 f6 B8 u# C+ H1 t. V# j task="transcribe", $ E8 `) @6 V, q3 G/ W" o9 \" e
word_timestamps=True, 3 M, e5 {5 Z5 U! B" B$ u
initial_prompt = "Hello, welcome to my lecture.")/ r# J2 f' o |& ]* d# F4 n
' }; l/ `. e/ b- p/ x1 v
for segment in segments:) N8 o$ t8 ^' V5 ?
print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
2 O2 _2 [3 F9 m1 e$ K, p# T2 l
* h7 f& h" T; X: E9 I5 E& P0 Q5 Q for word in segment.words:
7 d5 {- @( P; D 9 P0 ~/ |4 N+ F4 \/ t
----------------------------------------9 d4 h* Y& x v! G' S
6 }7 {8 @( {, q& g# y0 `& W& d6 |. I
代码说明:2 ?; x! ], d! r. B m/ V$ }! o
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
8 ]$ O. s! \# w0 {; q" W0 k但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
s" n' j' o& a' G$ F& b2,segment 本身是很粗糙的,做字幕勉强能用。
3 H" x' B2 e7 o5 P M. H' G3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
4 i/ B* q7 U" r0 P4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
! ~5 i5 c! K$ _3 [比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。: g6 I' @/ ?) H" C, ?( L
5,model.transcribe 中参数说明:/ o3 M$ A1 ~# B5 Z( p
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
* g3 U$ Y9 H4 F其中% ^; h+ R+ L& ^; A
word_timestamps=True,
* D0 }- c3 @' m保证了你能拿到 word,否则是拿不到的
. X ?# {% H: K: y$ c2 D initial_prompt = "Hello, welcome to my lecture.")/ R5 P U3 ~- R5 J, }
保证能尽可能准确的断句 punctuation,但是不是决定性的。! ?' \, k y: c
其他参数可参考源文件:
: O) t, H3 o! C: Ahttps://github.com/guillaumekln/ ... isper/transcribe.py
# g5 s/ f* T# J5 s152 def transcribe(
, @7 i3 h f4 ^) G+ W, b从源文件你可以看到是支持中文的句号断句的。
! K6 i' T3 K1 a6 s7 b- j; N( i
1 W5 r+ z! }; h* M3 l# L, z" C# T6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。 f0 q$ @' F$ }! P! \! c" P" m/ J
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
. @" Z A" A' H1 h7 V8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
" ^* }& w. J- B: o& {
4 r5 D) p$ t$ a% `" H
; I2 c+ Q1 j g6 E6 _% W- ]" R/ a7 c0 T, ^
|
评分
-
查看全部评分
|