|
|
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 $ @; G. z- Z0 A! H
) F5 O* v# c# `/ E借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
, ?2 y4 F/ e" F, j3 {' F; J效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
) R( e' j0 K$ G5 P% G( M V----------------------------------------
: V8 D& g$ R5 D0 D2 J! i显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。9 P' l$ L V2 c: l
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
3 N! ]6 @' ~' v) U% ~, C" A& l----------------------------------------! H' Z' O- X* Y) m
https://github.com/guillaumekln/faster-whisper& o0 B' x( a3 M! O
安装如下:
8 p7 U2 l" s3 M+ A. y K( l, I( }1, Windows 109 Q6 v4 F; K4 L7 L6 n* H4 ]( p
2, Python 3.10.118 U9 w) c8 _' D( s ]0 H
3, CUDA 12.1
D% x7 M/ }+ b! a3 @4, 在python 3 中安装+ I2 T8 C3 X+ r: n" Z9 z. A: m
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu1177 F. d3 I5 d2 x! m
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
0 `" o# z$ e3 [5 w4 R5 L9 \5,pip install -U openai-whisper
7 N& O; T0 ~: \3 g4 i: X1 E+ s这是向whisper 致敬,可以不装& O! s& j4 I9 m- y% V
6,pip install faster-whisper ?6 }& b; x# O( K% L
----------------------------------------' {7 k2 g7 T. I2 d; o
whisper 我用的命令行,faster-whisper 我用的是python。$ W& q9 M, I- x
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
" G; b6 b" d6 i5 x( t+ u( N& C2 ?/ W7 k5 [
----------------------------------------
H9 J$ b2 E+ y0 `( j3 @5 B: F
- G- g, P3 x/ T) Ofrom faster_whisper import WhisperModel& N& o3 r9 c) ~, `6 m
" ?7 f) z! R; fmodel_size = "small"
1 R1 @/ C% j6 Z) l4 K2 @5 {$ g$ }! _# E' \
model = WhisperModel(model_size, device="cuda", compute_type="int8")7 G+ K! A: H' P* ?
/ g4 F9 B3 S' x4 \. v1 [& Bsegments, info = model.transcribe(7 y/ P8 z* V2 M
sourceFileName,
6 }- a/ R+ V, l; P1 t beam_size=5, 0 ]- }& Q2 c+ A# R) @9 p: E
language="en",
$ Q9 k: Q. `0 a% Q7 l6 @ task="transcribe", 7 v+ h/ ~/ Y' ~. Z' x9 A: f
word_timestamps=True, 1 l. ?2 R5 _6 i. [. U+ x6 n1 `
initial_prompt = "Hello, welcome to my lecture.")2 W) M/ L/ j9 E% Q; c
4 H4 i/ g1 X# J# h, V8 a
for segment in segments:
; a+ s. v" [6 ^% Z6 x; b8 c; X print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))" y# s& g6 {$ `
/ f6 B& D, a% a! p for word in segment.words: |$ y. Z, k; S r4 H, Q4 I
* c" k2 K P+ c* H! K2 F. f
----------------------------------------8 P/ [6 d8 E+ |$ p" m/ G
) W3 p' Y! q& F( H! Y- H
代码说明:1 T# e _& A b
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
0 ~$ D( W" M1 i7 T+ G, v1 W; c但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
2 b$ I/ R5 ?3 _2,segment 本身是很粗糙的,做字幕勉强能用。* @$ D! _( m0 {$ w/ G/ X) @# {
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。+ P: n6 A" k; q2 O* ]
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
( ?' ~8 a0 P4 m$ ^1 C比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。% z! I* G$ Q0 m* y) J: J4 Z
5,model.transcribe 中参数说明:
$ \$ |/ O- A) w- ]& h) n你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
9 l8 N$ o2 d8 {' I- t- K$ |其中
; r* e- N/ f% Q3 B W3 b4 j word_timestamps=True,
5 n$ h; @. c' ~( d保证了你能拿到 word,否则是拿不到的: F7 O3 j& Y& l7 Q$ ~
initial_prompt = "Hello, welcome to my lecture.")
o5 E A) t$ L2 ~( ], W5 H# s保证能尽可能准确的断句 punctuation,但是不是决定性的。5 ]0 O, d& }) A+ J* ~
其他参数可参考源文件:
j6 t; s3 \# t' xhttps://github.com/guillaumekln/ ... isper/transcribe.py; V7 d2 o( e, H; \- B
152 def transcribe(
$ Q* i- M& V6 k6 y0 J( X从源文件你可以看到是支持中文的句号断句的。* ~; ~+ ]* {( c0 U
7 k5 B$ T3 s f& [" e1 {) W, @3 L( |+ U6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
# b, u5 d6 q0 s5 X8 I0 h7 J2 [; D! j7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。: n7 H* o1 j7 h- I$ c- @9 V5 [
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。! Y& `# T- {* p) @9 Y7 e: O4 \, u
* u, @5 G8 T' W) c! o9 g8 O& o * X- ^( c# @7 y' |' n. e& O s3 n
4 t6 ]6 H2 {, G
|
评分
-
查看全部评分
|