|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
* e& V- R. J# l. y, }( D
; n+ W$ C" o0 m3 B- ]已经搞定.8 U* Y) q8 S7 e, c; a+ m
! }" ]( `$ C( T4 D3 v2 L: _, y3 d8 O
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
. ~/ o& n+ S# X+ f
5 N4 X% J, l+ n/ ^/ w1 X% ~1, python + pypdf 按章节拆分小的PDF
* X- ]3 Y4 `+ m# q J4 Z
# o4 s t$ m* t; f- {. }2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; a7 ^" B9 N+ C. }0 `( a2 s
" t5 q9 H+ U9 |
得到text file6 |% b; r3 z5 C1 w0 Y
: ]( w) a4 n( v5 v6 j+ z( N O! w
3, python 读取整个outputfile,丢给deepseek 矫正。
: H# K9 x& @* H( ]9 S$ A) u9 d* H1 C" O9 V, e8 ~$ k. _3 [+ @
模型是 deepseek-chat; S9 q/ W" x. c7 p
# V5 ?/ f% w; v8 @% emax_tokens 最大是 8192,别的不用改。1 T! `2 j6 ~2 d$ o" g! X
) |/ E/ l3 @ ^* I参考:
+ D/ u9 q* w6 f1 T1 h& ]https://api-docs.deepseek.com/api/create-chat-completion
3 y7 ~8 i5 c/ [3 k6 I/ p+ m( ^: v& @ }; l4 |* e2 E3 n8 ^
4,费用:
9 @* v% t0 U( h5 |
8 M6 } h3 z5 I# e0 a7 q# T% E实测:
1 g; n. o. Z8 i' Z% E1 a
# U4 l8 s1 H- K7 L# t( \. r3 [, ^8 ^296K 字母,用了 9 美分。
' E1 d. R$ f& f6 m4 x3 a; R) D, O {3 s& z6 o3 M$ u d
英文字母 到 token 用量大约 1/3
- _) q. k/ p, w% _3 I
! ]$ u7 U: B# d& _: W1 t; m8 @2 E. Ztokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899$ H6 e: ~' _) G1 G9 b F
& P5 E$ G ]# m, z f% k
32899 个字母花费 11782 tokens,包含输入输出的 tokens
5 N: C$ \8 G9 A% _1 `! J7 G
* d% j6 M' a# U- N4 j8 O% I* Z% t$ Y/ ?价钱,非常非常便宜了。) u1 E" I/ U2 D* Z. ~+ Z$ S
9 _+ U1 H7 P: p; ~, l
参考如下可以计算,懒得算了。* Q M1 R$ H2 V" [4 a: g
# Z9 ^- S' u8 J9 r* e3 q2 r2 Y+ r
https://api-docs.deepseek.com/quick_start/pricing7 q$ K F Q. J
8 L9 u" }9 `' Y( M, O
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
4 z$ G; Z& ?4 D6 R1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
/ ?5 j# b. i- N, S% ]+ [, d' L1M TOKENS OUTPUT(5) $1.10 $2.198 y9 E) e$ } y
% N D5 V/ _/ J: P; G% A# M5, Balance
4 ^3 D5 Z# f0 D5 r: k
% A) Y& i$ f# D+ }* T, p可以在程序里调用,知道每次运行结束后,balance还剩多少。
* h+ X% p; J" ~! I+ C+ E- Z参考:' i0 q/ P# P9 y1 A
https://api-docs.deepseek.com/api/get-user-balance
1 U5 r0 c& m+ K
+ [6 A6 l, `; B3 a6, Models
% [4 ^) }9 @" Y( R$ r }+ ^1 A' h' p$ V6 `, w) m
目前就两个- s" p% W. ]4 V% Y" h$ Q
# deepseek-chat
, T* S' ]5 s# G, o$ M# deepseek-reasoner9 V- J! T' Z" S" c4 J7 w" Q% C
0 @; v' H1 k/ g2 [, F
参考:
8 `, h# J0 ^) J, F6 phttps://api-docs.deepseek.com/api/list-models
! K' p& |( w$ T- }: p
6 r, N+ s6 N) E+ E: H# y
5 V0 p% ]' K; m7 v+ ?; W7, 问题% \/ {2 L' M' U F8 A
k: [/ Y3 X# h. h# Adeepseek 会将前后两段合成一段。/ N+ z1 J* @) i
特别是那种大量的对话的段落,deepseek会给你合成一大段。9 n& l8 _0 T3 q4 e
3 f% W+ q5 l4 w) Q8 `: U, w8, 钱说了算。
' z. s5 n1 y1 k9 `" r. {/ T. l# B! U/ B+ V6 Y4 U0 M
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
# H. F6 b6 Q( G" U/ ^( p: d但是API就不会出现这种情况,毕竟我们给钱了。/ g2 j) H$ I; N E9 `
chatgpt也是这样的。
. s- g: X' k* o5 h6 \* c% W6 s- U* l2 }3 U4 Y1 R/ u8 {
% W" r) ^& d' k( f( y |
评分
-
查看全部评分
|