设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 4737|回复: 1
打印 上一主题 下一主题

[信息技术] faster-whisper 更快的语音到文字的识别 ASR

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2023-6-4 02:10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑
: t8 [- V6 g. U  |& s0 J' I2 @* P9 w0 Y( u2 e# M6 y
借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
3 `8 F# W9 p. h( h5 T$ z效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。- a  Z, [" _2 @5 s! ^/ Z
----------------------------------------
2 b0 \' k0 }% C显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。
8 B" k, T# _4 p2 o在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
5 J& y6 |" x7 r: a* C! R----------------------------------------  ^& y* r- R/ s1 H- W( l, Q$ D
https://github.com/guillaumekln/faster-whisper3 m% @  a9 V, K% y2 \
安装如下:
' z9 N5 P# U# l1, Windows 10
3 b$ g+ ]5 t, J' c& ^2, Python 3.10.11
& a. @6 U, j- a1 J3 ~  u, {$ t, Q" O3, CUDA 12.1
6 q  P6 |7 |. B# \! E2 I9 P4, 在python 3 中安装
+ \; I/ O8 _# [* a2 qpip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117" o4 q$ g8 U4 u
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。) F$ t' R! j. h0 B7 f+ a- l
5,pip install -U openai-whisper
7 N3 [# {, e7 T# Q这是向whisper 致敬,可以不装
6 q. _8 `  K: @5 N: V8 P4 ~6,pip install faster-whisper
1 ^; G$ g4 b% {8 }/ B3 b6 f----------------------------------------. a7 {" X9 w# |' ?" V" ]; c# v
whisper 我用的命令行,faster-whisper 我用的是python。
5 B* G5 R  M6 X9 {" R# u下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
/ X' n) q* r6 f/ a  }9 h. Q  A/ E. S6 k9 u# a, g
----------------------------------------
) j3 i5 H- V; T3 ^! a/ C* \, N+ Q1 `8 e4 V, W; B
from faster_whisper import WhisperModel
5 g% I: ?2 C9 z; A/ z; @& U- I- K# g$ ~7 o7 u
model_size = "small"7 \( ]" U$ {# ?

; ~# J! l4 \9 O7 |  V3 M- h. z8 d" |" Dmodel = WhisperModel(model_size, device="cuda", compute_type="int8")0 w& @( V! E2 s+ K7 t) d  a) I
/ J7 o+ \- |6 l% |
segments, info = model.transcribe(% f  c7 q  t7 x9 k+ X/ J
    sourceFileName, " Q( [+ d7 h) Y! \* Y6 Y
    beam_size=5,
* W& u2 R7 \' Z3 l& X( f    language="en",
! v! ?. ^( c) ]6 V    task="transcribe",
# h. q4 C+ F$ O/ r  L    word_timestamps=True,
8 v- a4 B5 @2 J. n* t+ |8 j    initial_prompt = "Hello, welcome to my lecture.")
# f. o0 |1 ^4 Y, Y1 e: `
- h) k/ I1 P2 M6 C# `3 [: vfor segment in segments:- K8 P- q; Z5 W6 [2 L  l5 `9 k3 J
    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))# p9 T# u( P! v/ \. @0 O

' n+ C" F( E* o        for word in segment.words:9 v* G) U2 z4 U/ w6 k
               
( Z$ c: T6 x  a% {% T! i----------------------------------------* J- d9 ]+ R8 t5 k8 g

- o5 Y7 R) H6 ]0 m# M& h# M+ a; S代码说明:
+ j+ n/ H, Z% t8 N9 l1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
; V2 b3 e. B" y: i% T5 j+ _1 _但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
# C1 }% g7 I+ k. i9 b$ S3 q/ U2,segment 本身是很粗糙的,做字幕勉强能用。5 C$ Q1 S' p4 O) D: j" E* }. `
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。
& n6 B' U& T6 m! m4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
6 J6 q5 f  I, U比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。4 r: N0 d, _: z2 k
5,model.transcribe 中参数说明:8 Y" W6 l( S5 e, o
你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
8 ^* [+ P3 X: {- z8 t0 @! x其中
) _- @- F+ x6 D1 b! d. p7 c    word_timestamps=True,
" x1 v+ J7 S5 u保证了你能拿到 word,否则是拿不到的
+ z/ ~0 u) Z% B0 h    initial_prompt = "Hello, welcome to my lecture.")
. f( i8 K1 [8 g" N7 I7 S! z' x" q保证能尽可能准确的断句 punctuation,但是不是决定性的。
0 _  F& i5 j/ S# Q+ }+ ?# r* s其他参数可参考源文件:8 D, m7 j$ f3 M$ ]/ Q" ~
https://github.com/guillaumekln/ ... isper/transcribe.py: c! j, H9 n7 O$ P/ y' y  V
152 def transcribe(
  i9 L" }- i: b* w  u: v5 X% I从源文件你可以看到是支持中文的句号断句的。
3 q# `$ G( b/ b4 }) {; M9 z2 \6 k1 |9 p$ R# n+ |$ w& D
6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
: g( J# D0 s( V7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。7 p" K( p, `2 e, u$ `
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。, f6 O& g/ w# k8 f% `# Y% S
& V4 Q6 s( O" v  o+ F* t; ~2 O
/ ^6 T5 x. [# A  C

+ R% z! I3 y) ]* G- i) T

评分

参与人数 4爱元 +32 收起 理由
蓦然回首 + 8
唐家山 + 4
老票 + 12
老财迷 + 8

查看全部评分

该用户从未签到

沙发
 楼主| 发表于 2023-6-4 11:53:23 | 只看该作者
多谢各位榜爷打赏。
回复 支持 反对

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2025-8-26 09:41 , Processed in 0.036003 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表