|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
7 D2 a. F; N) ^1 j/ L' K: x5 ?9 J; W
: X4 p2 }1 m9 I2 [6 w已经搞定.
' u: D+ n: O2 N, V
+ B6 }0 ~) e8 R" f3 y首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。# f( z" p( z7 j# a* D6 n# s
- S4 L8 A: v- @) Q
1, python + pypdf 按章节拆分小的PDF1 r# V/ }& M5 o& V" Y4 t
, I8 m9 m. e1 Z2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; d# A# p# t( e. b' ~
3 @2 X6 j/ ?1 s3 j" Z+ o得到text file
* x/ P) G) H0 U+ U/ i h6 y7 z' r$ }7 @. V4 u
3, python 读取整个outputfile,丢给deepseek 矫正。
$ h$ Q! o7 S! K
+ d$ `2 g8 O7 a* l/ H& N模型是 deepseek-chat. |/ ?) M0 J0 I! m" ^+ \
) c: k2 [& d1 \, B& L& Q
max_tokens 最大是 8192,别的不用改。5 q2 b5 E) P ? w0 M, `+ S1 Y
0 Y( i+ e) U, \) k参考:
- \! K' D0 y9 U6 ~https://api-docs.deepseek.com/api/create-chat-completion7 E: {: A+ ~% v6 l1 |
+ b% o- F6 v( ? K" \( l6 P4 I2 d4,费用:
: d& ]# }0 O* _3 ?5 m. d6 g4 I5 I
实测:, O) z1 v! T- M9 h8 L& R- ]
8 o& o/ U& ~8 P/ y2 E296K 字母,用了 9 美分。, j3 @( `9 W: H1 f# c2 ^
; J% H/ T/ c6 |( ?英文字母 到 token 用量大约 1/3
' s4 y; r% `# F) e/ t' J' K8 r2 B9 f8 k4 T- k
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
2 B. F& L( z B$ T& d ?
0 V! s4 r3 o8 |: e$ [/ Z5 f) s32899 个字母花费 11782 tokens,包含输入输出的 tokens2 g' F9 z; S0 q/ z6 o
8 i, O. K5 K' U* ?: _! A
价钱,非常非常便宜了。
2 ^6 r! w+ I A! p1 }1 b* V! }/ d+ M- g; k9 J3 n, J
参考如下可以计算,懒得算了。
& M& y4 s4 b- R
( k4 \" G+ [4 x; e- E# jhttps://api-docs.deepseek.com/quick_start/pricing
8 i( q* @3 M/ c; i5 V/ n" ~6 ]
$ z5 n! h; B5 w$ z& ?2 ?# l1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
- M2 ]% k# c; t8 W$ _1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
) G7 I' X; e( A4 [8 a& l1 ~1M TOKENS OUTPUT(5) $1.10 $2.19; B7 B; D. X/ E' [ i& U, Y% K9 Y4 w
# n# I( q+ L+ l# L8 g5 K8 R
5, Balance
4 P% E4 _3 ]0 }
# F2 D: r5 U* ^& ~# x: E3 Y可以在程序里调用,知道每次运行结束后,balance还剩多少。/ R$ A: E* Z ]5 s) \' m5 j3 W
参考:; ]1 `! I# m1 J) P9 h p
https://api-docs.deepseek.com/api/get-user-balance
6 X- f) p* t( }/ a0 g
5 n) m* @9 I' ^6, Models
8 U) Q& \9 j/ U. t& G2 Q; k
" F$ h2 ?5 I7 B' A1 }目前就两个
9 q. g1 G7 [* s' a7 a! D# deepseek-chat. w r5 _0 ^. A6 V% t. Z$ K
# deepseek-reasoner
5 Z- V0 `# V( k; }4 c# h% l
/ W7 D6 f+ |8 }; R. Y% M参考:( N5 a. J" C0 I
https://api-docs.deepseek.com/api/list-models
0 p9 Q& J- X9 d' ~8 K/ Z: J' r! e
5 _- A; x0 E1 x. p R* B9 v( U" @: d
7, 问题
9 y6 Y1 \6 ~' [/ W0 H$ {* V" n' \# [ v9 Y- }+ V5 b
deepseek 会将前后两段合成一段。3 S, R; S4 k+ k' Z
特别是那种大量的对话的段落,deepseek会给你合成一大段。* @! i; G7 Q0 G1 \
+ s% d0 @, f% `# K$ u7 d8, 钱说了算。/ X- P: t# n4 U7 U& y4 ~/ Y3 Y1 I- I
) w% A) w" L. c' D# V+ I* Q
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
1 U( x! }1 c2 G) \但是API就不会出现这种情况,毕竟我们给钱了。% t0 z% t# J1 T. e* h
chatgpt也是这样的。
# r- a5 p4 }, Q' P2 \9 S! Z4 H7 ]5 }( L
+ N6 p" b. @$ i- H( y
|
评分
-
查看全部评分
|