爱吱声

标题: faster-whisper 更快的语音到文字的识别 ASR [打印本页]

作者: nanimarcus    时间: 2023-6-4 02:10
标题: faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 ' R) v% }* _# C7 }' X' X3 V
: N  O) e2 Y0 `9 T# l
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
4 U: p' Y& V3 r% J& c# ^! y8 _$ r1 F效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
5 A) q) }2 I, M& H- a6 e----------------------------------------' `2 a4 O  h. N: X: _5 ^7 R; G
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。2 v& q4 W6 e" T5 ^2 p+ H. A
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
; U5 u# C. T# ]+ o) C6 d8 c----------------------------------------
; l, A$ L6 l4 D+ L  Q- `. |. T' W/ zhttps://github.com/guillaumekln/faster-whisper
1 X" b- n6 y- [) i5 Y安装如下:0 I+ ~. n9 V0 L1 a2 \
1, Windows 102 _- y/ A0 E  Z9 i
2, Python 3.10.11
8 \# ^  m9 P# ]- |& V0 q3, CUDA 12.1$ D! f+ |, W7 y
4, 在python 3 中安装# v& _7 L6 n* r+ e! Y
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
7 U7 X% a( t- M1 _5 K/ a7 E' a这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。4 d& \+ @' p- B, v- Z9 ]
5,pip install -U openai-whisper
& \, S8 O2 l: M! k2 |9 a$ P这是向whisper 致敬,可以不装
7 v% l- Z6 }) ]) z6 k4 d2 ~6,pip install faster-whisper* ]& _5 z+ R" c7 ^
----------------------------------------1 T1 s! K; {, w/ K! w3 Q; L
whisper 我用的命令行,faster-whisper 我用的是python。
1 Z+ u- k) Y! f& v8 C' ?8 S8 B下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
; z4 C+ ^' e" ]+ t& |6 |( X% f5 H
, X) r) s( n) D7 }. {----------------------------------------8 v8 r) @1 k) X
# H0 R" V7 e! n6 ^7 O
from faster_whisper import WhisperModel! [# l6 q+ }! i# M6 H# x7 k' X! [6 Y

, l5 U& E, x+ q% }2 b2 Vmodel_size = "small". [" n1 _) I  @9 `
& B3 O2 F! D/ m
model = WhisperModel(model_size, device="cuda", compute_type="int8")
) y' u" I3 c5 a  M) [5 A5 D) w6 P- h0 o' s4 ?( Y) n
segments, info = model.transcribe(
* U) l8 O' U$ v- S7 t* T    sourceFileName, ) x$ g) |6 S/ Z) J' ?0 ]. k  d0 R
    beam_size=5, . H4 ]- ?' S5 l$ I
    language="en", ' Q' {: ~! Z' H( t
    task="transcribe",   g! W, ^+ y" t* y' u
    word_timestamps=True, 1 m6 q$ a1 z' r9 e9 [% P
    initial_prompt = "Hello, welcome to my lecture.")
% g; h+ G# Q. e, c- P/ `( V
5 B: y  N9 _( pfor segment in segments:6 g# L5 ~0 ^; S
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
7 ~" t5 h" ^. H2 Z5 u1 d# m* Y( _
        for word in segment.words:
- U2 {7 m9 D3 u7 y0 \& _1 {" `; |               
9 Y% g+ r% w  [8 R" T, a, S6 A----------------------------------------2 Z+ |: B0 a" O- Q! }& @

4 l1 w$ g$ r! i8 B9 k2 M1 r" ~  p代码说明:
7 B6 C$ a+ q5 p9 H1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
/ C7 O& e8 @" A! {% C) i9 y但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。/ a1 i- W- ]! V, Z- V
2,segment 本身是很粗糙的,做字幕勉强能用。
3 n& T' J3 ^, T5 m8 `3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。& P9 {# J6 [. d' Y% ?. u. z
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中' q3 N4 A' P5 r7 X
比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。; J! z) X. a- J  d
5,model.transcribe 中参数说明:6 S9 x; L6 [& i
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数* Q4 K9 r  w( Y
其中
* M7 z$ Y9 Q9 z  |1 K    word_timestamps=True, : ~  Y: n2 r* @/ ]
保证了你能拿到 word,否则是拿不到的& ^0 s# [* h3 z1 F( x1 j$ _  U
    initial_prompt = "Hello, welcome to my lecture.")
% f% W/ }4 H8 `保证能尽可能准确的断句 punctuation,但是不是决定性的。! W: z) e& |5 y+ A) r
其他参数可参考源文件:% s# c. L* C& t+ l6 e
https://github.com/guillaumekln/ ... isper/transcribe.py5 H" j  R' p' E3 P
152 def transcribe(
% n, Z6 M# d1 M' B  l% }# C从源文件你可以看到是支持中文的句号断句的。/ F' k& G0 R  T* _4 O

9 M( T3 p4 T  \4 |9 M. x6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
( s7 y5 P. p4 t" L) [7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
: d8 s0 ]1 s+ Q$ m- h& r  U/ H0 B' l$ x8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。1 S" W3 X4 r, e% `1 q8 K6 D6 j

1 E7 Z( Y  D; }
/ k7 w9 x3 L9 r% ?  @# I# K  \
6 ]; |4 N( d; X: o
作者: nanimarcus    时间: 2023-6-4 11:53
多谢各位榜爷打赏。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2