设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 5752|回复: 1
打印 上一主题 下一主题

[信息技术] faster-whisper 更快的语音到文字的识别 ASR

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
 楼主| 发表于 2023-6-4 02:10:18 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 nanimarcus 于 2023-6-4 02:24 编辑 $ @; G. z- Z0 A! H

) F5 O* v# c# `/ E借着 chatGPT 这股热潮研究了一下 Whisper,学名叫 automatic speech recognition (ASR) ,就是转换声音到文字的。
, ?2 y4 F/ e" F, j3 {' F; J效果我是很满意的,唯一不满的是速度,在六年前的主流显卡上基本上是一倍速,基本上只用在自己特别喜欢的媒体文件上了。
) R( e' j0 K$ G5 P% G( M  V----------------------------------------
: V8 D& g$ R5 D0 D2 J! i显然不满意的不是我一个,活雷锋很快就出来了,名字很谦虚也很霸气 faster-whisper。9 P' l$ L  V2 c: l
在六年前主力显卡3G内存上,model small,能跑到12倍速,这个是相当满意了。
3 N! ]6 @' ~' v) U% ~, C" A& l----------------------------------------! H' Z' O- X* Y) m
https://github.com/guillaumekln/faster-whisper& o0 B' x( a3 M! O
安装如下:
8 p7 U2 l" s3 M+ A. y  K( l, I( }1, Windows 109 Q6 v4 F; K4 L7 L6 n* H4 ]( p
2, Python 3.10.118 U9 w) c8 _' D( s  ]0 H
3, CUDA 12.1
  D% x7 M/ }+ b! a3 @4, 在python 3 中安装+ I2 T8 C3 X+ r: n" Z9 z. A: m
pip install setuptools-rust torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu1177 F. d3 I5 d2 x! m
这一步最后一个安装文件 cu117-cp310-cp310-win_amd64.whl 大小2343.6 MB,如果没显示,你得检查一下你的环境。
0 `" o# z$ e3 [5 w4 R5 L9 \5,pip install -U openai-whisper
7 N& O; T0 ~: \3 g4 i: X1 E+ s这是向whisper 致敬,可以不装& O! s& j4 I9 m- y% V
6,pip install faster-whisper  ?6 }& b; x# O( K% L
----------------------------------------' {7 k2 g7 T. I2 d; o
whisper 我用的命令行,faster-whisper 我用的是python。$ W& q9 M, I- x
下面给出了部分参考代码,根据主页上的参考代码我做了修改,但这个不是能运行的代码:
" G; b6 b" d6 i5 x( t+ u( N& C2 ?/ W7 k5 [
----------------------------------------
  H9 J$ b2 E+ y0 `( j3 @5 B: F
- G- g, P3 x/ T) Ofrom faster_whisper import WhisperModel& N& o3 r9 c) ~, `6 m

" ?7 f) z! R; fmodel_size = "small"
1 R1 @/ C% j6 Z) l4 K2 @5 {$ g$ }! _# E' \
model = WhisperModel(model_size, device="cuda", compute_type="int8")7 G+ K! A: H' P* ?

/ g4 F9 B3 S' x4 \. v1 [& Bsegments, info = model.transcribe(7 y/ P8 z* V2 M
    sourceFileName,
6 }- a/ R+ V, l; P1 t    beam_size=5, 0 ]- }& Q2 c+ A# R) @9 p: E
    language="en",
$ Q9 k: Q. `0 a% Q7 l6 @    task="transcribe", 7 v+ h/ ~/ Y' ~. Z' x9 A: f
    word_timestamps=True, 1 l. ?2 R5 _6 i. [. U+ x6 n1 `
    initial_prompt = "Hello, welcome to my lecture.")2 W) M/ L/ j9 E% Q; c
4 H4 i/ g1 X# J# h, V8 a
for segment in segments:
; a+ s. v" [6 ^% Z6 x; b8 c; X    print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))" y# s& g6 {$ `

/ f6 B& D, a% a! p        for word in segment.words:  |$ y. Z, k; S  r4 H, Q4 I
                * c" k2 K  P+ c* H! K2 F. f
----------------------------------------8 P/ [6 d8 E+ |$ p" m/ G
) W3 p' Y! q& F( H! Y- H
代码说明:1 T# e  _& A  b
1,model.transcribe 只是建立了模型,并没有运行,运行 是从 for segment in segments: 这一句开始的。
0 ~$ D( W" M1 i7 T+ G, v1 W; c但是这一步很重要(废话),我的程序有时候会无征兆退出就是在这一步,没有任何错误信息,倒是Windows 侦测到,但也没给出有意义的信息。
2 b$ I/ R5 ?3 _2,segment 本身是很粗糙的,做字幕勉强能用。* @$ D! _( m0 {$ w/ G/ X) @# {
3,word 才是真正的精确控制的,本身带时间轴,所以要做比较好的字幕,必须用到word。+ P: n6 A" k; q2 O* ]
4,word 里面是包含标点符号的,也就是说标点符号不是独立的,是附着在前一个word中
( ?' ~8 a0 P4 m$ ^1 C比如 "faster." 这个句号是和前一个单词 faster 放在同一个 word 里面的。% z! I* G$ Q0 m* y) J: J4 Z
5,model.transcribe 中参数说明:
$ \$ |/ O- A) w- ]& h) n你要是对 whisper 的参数有所了解的话,基本上这些参数就是对应whisper 的参数
9 l8 N$ o2 d8 {' I- t- K$ |其中
; r* e- N/ f% Q3 B  W3 b4 j    word_timestamps=True,
5 n$ h; @. c' ~( d保证了你能拿到 word,否则是拿不到的: F7 O3 j& Y& l7 Q$ ~
    initial_prompt = "Hello, welcome to my lecture.")
  o5 E  A) t$ L2 ~( ], W5 H# s保证能尽可能准确的断句 punctuation,但是不是决定性的。5 ]0 O, d& }) A+ J* ~
其他参数可参考源文件:
  j6 t; s3 \# t' xhttps://github.com/guillaumekln/ ... isper/transcribe.py; V7 d2 o( e, H; \- B
152 def transcribe(
$ Q* i- M& V6 k6 y0 J( X从源文件你可以看到是支持中文的句号断句的。* ~; ~+ ]* {( c0 U

7 k5 B$ T3 s  f& [" e1 {) W, @3 L( |+ U6,如果要尽可能准确的 punctuation,根本办法是用比较大的模型 medium,或者更大。
# b, u5 d6 q0 s5 X8 I0 h7 J2 [; D! j7,我自己观察一个小时之内可以保证断句准确,再长就很可能不行,所以我的办法是切割文件到一个小时,识别后再聚合,效果不错。: n7 H* o1 j7 h- I$ c- @9 V5 [
8,faster-whisper 会上传一些信息,检测到不停的使用网络,曾经有一次代码出错就是访问网络,你要是有洁癖就把网络暂时给关了。! Y& `# T- {* p) @9 Y7 e: O4 \, u

* u, @5 G8 T' W) c! o9 g8 O& o * X- ^( c# @7 y' |' n. e& O  s3 n
4 t6 ]6 H2 {, G

评分

参与人数 4爱元 +32 收起 理由
蓦然回首 + 8
唐家山 + 4
老票 + 12
老财迷 + 8

查看全部评分

该用户从未签到

沙发
 楼主| 发表于 2023-6-4 11:53:23 | 只看该作者
多谢各位榜爷打赏。
回复 支持 反对

使用道具 举报

手机版|小黑屋|Archiver|网站错误报告|爱吱声   

GMT+8, 2026-7-1 22:19 , Processed in 0.059727 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表