爱吱声

标题: faster-whisper 更快的语音到文字的识别 ASR [打印本页]

作者: nanimarcus    时间: 2023-6-4 02:10
标题: faster-whisper 更快的语音到文字的识别 ASR
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
0 ?8 Q' }# N+ }) S% _# W5 w- N/ d% u3 X2 K" A( H& S
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。1 P! C" ^7 o3 d- x- m6 n. z7 x
效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
, u% q, a& c" a/ C& p& h& s----------------------------------------7 o5 K1 h# [: ~/ N
显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。9 k# X7 F) K6 Q" Z8 L
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。' ]# O- p1 l9 T) N0 U7 m
----------------------------------------( y6 I, [8 k/ r" l+ l; [
https://github.com/guillaumekln/faster-whisper* I. E  @0 F- `  A1 V: b) I
安装如下:! i; U6 `( X; _) v: y
1, Windows 104 c4 _" u' N) |* c3 z' O6 q9 L
2, Python 3.10.11; F+ i# O1 v# W" i
3, CUDA 12.1% Z& n+ G  V4 `7 u* _
4, 在python 3 中安装$ |9 U3 j3 _/ s  N( J  d4 s! D; U
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117, E% g: |7 q7 s2 I9 L. h  Y
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。) N# @! ^" U! [$ H9 r: s) ?
5,pip install -U openai-whisper
7 w1 ~: U: G+ l这是向whisper 致敬,可以不装8 R; c6 [- b1 e8 u2 x
6,pip install faster-whisper* t( y9 ^/ D, r( z6 J5 e, M
----------------------------------------6 {8 ]& n0 C4 t' r! q
whisper 我用的命令行,faster-whisper 我用的是python。
$ ], {& N3 r1 P4 `9 U  V下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
9 p2 _! @8 j7 d! a* x, [; K3 I/ q& h3 @- }8 B+ V# @
----------------------------------------( s- u) R. @' ]4 p4 ]

6 L! p0 \* T$ U1 sfrom faster_whisper import WhisperModel
$ p, P0 Y' G1 z. @+ A# ~, q+ z$ h& y1 L0 n  S
model_size = "small"
, `6 N7 c5 c6 g0 V) t
9 l1 \; R) j- H& E/ Y; @model = WhisperModel(model_size, device="cuda", compute_type="int8")% m! g6 Z1 R5 i7 w: @2 y' Z0 Z
) a  X! U, y  \+ P7 z) S
segments, info = model.transcribe(' y7 |) R1 e5 Y5 v" P! N5 Z
    sourceFileName, 7 B& e$ i' d/ i, g8 Z- n
    beam_size=5,
1 l* \7 J3 y. z. s9 Y5 k3 G$ D    language="en", ' Y1 n; \/ ~6 b! D" c
    task="transcribe",
8 y) b' Z" ?# ?5 B) w0 D    word_timestamps=True,
& A8 S7 O& N. G2 q& o/ m! o    initial_prompt = "Hello, welcome to my lecture.")) J& Z$ i6 F- a/ n( q$ G% @

' e5 y' g6 o9 c5 Q- ~3 `, p7 [for segment in segments:7 N+ f" ]  t7 \# i' y
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
/ D7 }3 X8 |; U! u7 N, g& X* z+ t/ F) f$ I' M
        for word in segment.words:
  u( E2 Q' p, h7 Z2 Z- |               
+ g$ \% Z( _7 W3 S& e2 ?8 Q( t6 f! x! f----------------------------------------
# g! u/ p. [: S7 v" y; z* ]+ f  ?) J. K3 s2 i9 B
代码说明:  x+ V( Y0 \( |2 R
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。1 r* l) b. D5 u4 X
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。6 G# a9 t; w+ u6 l+ J
2,segment 本身是很粗糙的,做字幕勉强能用。  @  q5 e8 M- P
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。+ L1 C/ Z4 e1 o! h6 @- Q. `& @4 X
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
: H1 Z: ?8 a* ~/ o比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。, _* q: \& a4 D' v) N
5,model.transcribe 中参数说明:
8 ~7 b; B. u: C1 W你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
- R. t' B: F# T; v" V其中
8 c+ \7 r  O6 t. R1 m+ f+ B9 v    word_timestamps=True,
0 ]& F" t3 r0 E+ Z% J, C) w8 w9 F保证了你能拿到 word,否则是拿不到的' D3 ?9 v) b' d, M- F
    initial_prompt = "Hello, welcome to my lecture.")
# F, f( i3 v: k; E" e# u' P2 n, C( W保证能尽可能准确的断句 punctuation,但是不是决定性的。# `6 v" E8 R* A7 |
其他参数可参考源文件:/ b! z( s5 b- c4 B: q6 r% J
https://github.com/guillaumekln/ ... isper/transcribe.py  x$ k1 v) X* Y$ Y! r
152 def transcribe(
0 v" J4 k1 p6 j: ~( k7 ~; Z从源文件你可以看到是支持中文的句号断句的。0 n) |! c' P; u6 m" @/ n6 S

+ Q* l7 K, A0 J# h5 j0 F9 [) H' f6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。, z8 X  U) d0 _8 Q( w5 G- _
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。- ]; D, _+ y& V/ L. H
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
$ E! \0 P6 D" F  U. ]
/ l  y/ g0 f5 ^3 m! O5 W# f2 _
) j9 R/ i$ O, {' {
* F# N8 ^% K  t& `6 j5 c7 F: U
作者: nanimarcus    时间: 2023-6-4 11:53
多谢各位榜爷打赏。




欢迎光临 爱吱声 (http://aswetalk.net/bbs/) Powered by Discuz! X3.2