设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 5105|回复: 1
打印 上一主题 下一主题

[信息技术] faster-whisper 更快的语音到文字的识别 ASR

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2023-6-4 02:10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 ; w8 x2 J( X4 Q& P

0 [$ X6 ~% T2 [2 V5 }! ~5 O5 U# c借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
; M# O( W+ T; C+ X$ \5 h) [效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
$ C! }# I& Z" U+ z+ B$ B----------------------------------------
5 Q' X- B& Y6 \8 M显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。  D7 Q( {, ]: }
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
7 G2 c2 m# D. i5 f: t, u" o% j----------------------------------------: f/ X6 A  }8 h+ [; s
https://github.com/guillaumekln/faster-whisper! z/ Z! e. P5 `6 Y6 |0 h- {
安装如下:
' ]+ G( x7 Q1 Y, t, Q1, Windows 10" o- c1 j5 b  d& F0 t+ J/ W
2, Python 3.10.11$ n) _+ c* h. M4 t: v
3, CUDA 12.12 p& i7 \) a5 B7 q3 y: ], i! |- C
4, 在python 3 中安装0 _4 c. K6 p6 n+ a( z7 ~4 B# ]2 z
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu1179 b) ^( w+ A6 _6 ]3 x- d* K& x
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
% `& c  ~6 W3 t+ B5,pip install -U openai-whisper* `  O/ w2 a' [* c$ Z5 A
这是向whisper 致敬,可以不装
. ]5 W8 z7 r3 l+ j5 k1 b6,pip install faster-whisper
( E" A- _- d$ Z% L----------------------------------------6 `, S  q* ~+ Y" V
whisper 我用的命令行,faster-whisper 我用的是python。
& p3 E, v6 F$ l下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:5 a% S. d4 t7 m8 H% e$ q

) ~5 h( W/ I) `8 \$ B----------------------------------------9 F6 F$ Q8 |) ^, W
3 y7 w3 P# Z  v1 a$ H
from faster_whisper import WhisperModel
3 w( ^$ i$ h* z. U6 L! v
. d, T  \& w# Q# b% A% zmodel_size = "small"
7 z$ Z8 [/ _! P$ x& H# v2 T$ p2 W( ]( I
model = WhisperModel(model_size, device="cuda", compute_type="int8")4 N6 g# K* H% z
: {  C9 ^8 W$ E
segments, info = model.transcribe(9 t. z; l) \1 G8 G! E8 |
    sourceFileName, * \7 \( ?% \) o
    beam_size=5, / ]7 A0 n$ ^! [; O. |8 B, T
    language="en", 1 N& r" \% _% Q( C. B
    task="transcribe", 1 W$ |1 O" X# m$ o+ J
    word_timestamps=True,
6 g( ~: ?# |5 H7 u2 R$ \    initial_prompt = "Hello, welcome to my lecture.")
/ i5 M, r9 _% R/ f! x* I- a( v
for segment in segments:# G' S2 b! k+ o  v4 c
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
7 `5 B# m1 C4 |, r) ~& Z
# Z; y3 f8 f  u+ k        for word in segment.words:
$ }2 j8 ?5 @' S$ j                - j3 V8 G* V7 l+ d
----------------------------------------
3 i. E! @' O* n) C, ?9 j5 |6 R: N7 |
) {3 v( O" \- W$ L! \6 o4 M" ]8 j代码说明:
( Q7 |8 k# t6 @8 a) v1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。3 b+ {! y  a1 y) h0 O
但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
& O( {0 \, S" t, I6 X2,segment 本身是很粗糙的,做字幕勉强能用。
  C$ p, T8 m% z3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
! u0 r: `6 k8 d% K+ i4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
& s$ X. g4 M4 I7 k+ m/ w比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。0 ^& w7 f* i4 j. o3 b% O, M' t
5,model.transcribe 中参数说明:$ H' i0 d: z, E9 D* _  _: ~
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数1 C: e) l+ w2 ~$ Y; }
其中2 [5 g: ]9 `2 @9 ~
    word_timestamps=True,
' F8 N& D3 Q6 R4 n3 Y' _) F! Q保证了你能拿到 word,否则是拿不到的2 D" z) c/ N; ]' A
    initial_prompt = "Hello, welcome to my lecture.")
( O8 s! c- {  G/ H( ]' _保证能尽可能准确的断句 punctuation,但是不是决定性的。
: P6 R6 ~1 q7 o' k5 S- }其他参数可参考源文件:5 M/ V7 S8 j3 Q, D
https://github.com/guillaumekln/ ... isper/transcribe.py4 a% ~0 j; j1 r  c; q# \  W! k4 e
152 def transcribe(
+ }: U) `: y- u2 A$ y, M从源文件你可以看到是支持中文的句号断句的。
- t( T# [8 g+ j6 A' L! c5 F' S  ]' p) n  t7 p" ?: z. u
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。$ B, J* N' T! y. w9 @: a4 W
7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。
7 g1 Z& a6 j& B9 W" N5 g9 |8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。
8 y5 K4 G. J2 p0 ]* v
7 y" ^% R. C4 K" e& u: g" b
5 W( H) C4 J6 W1 t7 p% ^
: A7 G. m3 T1 I

评分

参与人数 4爱元 +32 收起 理由
蓦然回首 + 8
唐家山 + 4
老票 + 12
老财迷 + 8

查看全部评分

该用户从未签到

沙发
 楼主| 发表于 2023-6-4 11:53:23 | 只看该作者
多谢各位榜爷打赏。
回复 支持 反对

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-12-16 04:05 , Processed in 0.041396 second(s), 18 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表