|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 d3 L( x* i! x6 |* n! X6 _. d
8 [# R1 \0 v* k* e" V
已经搞定.
) |! c# d0 c2 @' ?/ v# H9 I. `, ~6 g A
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。! D# ^8 X$ K g r" @, ~7 m5 s5 Y
3 q, }9 T" T O6 }9 V1, python + pypdf 按章节拆分小的PDF9 Q' o1 r, v7 k1 t4 f |7 s
) H% e g+ r4 l; S" D- k, T
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile( g3 k% \1 L+ W4 m
: H( A. Y9 N0 Y5 \. ]得到text file* J# z+ S$ w) q
s. L' R9 h. a, ^1 N+ w3, python 读取整个outputfile,丢给deepseek 矫正。
7 G& z# P7 a) ]
e# T1 b- W5 g' W2 Z模型是 deepseek-chat& j" a" v2 f( k6 R4 B
8 n* t0 |; j. x- R0 B5 Nmax_tokens 最大是 8192,别的不用改。. D, X) y( h4 m; M' H; _' U
4 T0 b9 @, b3 ^& H1 i6 C
参考:% q: W a. }- o: G( a$ {! v
https://api-docs.deepseek.com/api/create-chat-completion
2 t: [6 Y/ O& F5 N6 L; B; J& p( P- ^+ N l7 n
4,费用:
. D G) f! F) y8 t5 H. ~- l0 V1 A; i) U8 e( ~- u v$ \' z% ^/ D
实测:
1 p0 \: ~. H5 ^& @9 @$ ~5 g
" u# G; r0 {- o( }% @296K 字母,用了 9 美分。
$ _; ^# Z2 r: v: ]1 P$ k' c% b I2 c( L) A: x, E
英文字母 到 token 用量大约 1/3
& c: X/ ` i* `
- ?# |) h& C1 ]7 t+ z7 Ctokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
: h5 s4 L3 E2 {% [* o: l: C% E6 O& y! K
32899 个字母花费 11782 tokens,包含输入输出的 tokens& u# A4 J6 i, ?& u# S i
* P/ X8 F* |# H! p价钱,非常非常便宜了。
1 |/ E5 y! F q( Z
# P! e2 [( `( O- S) f" w* m4 g% H7 ]参考如下可以计算,懒得算了。
: `9 D/ O! j/ O) [! i( {$ h1 R8 @
3 I/ i$ i, C. s+ d" d; B( Vhttps://api-docs.deepseek.com/quick_start/pricing
5 I0 M5 g( k9 u5 J, j% Z, y8 w. Q8 h
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14( j5 T# u" M* b9 U: V {& W
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
- D# r# K$ c* C6 N9 s: j. r1M TOKENS OUTPUT(5) $1.10 $2.19, C l" `1 |5 Y* ]/ Q' C
" ~0 w" A1 {: O' f6 ]) e
5, Balance3 V1 M3 y; q y$ k
; e% s+ [9 B, J4 u5 p/ U3 V可以在程序里调用,知道每次运行结束后,balance还剩多少。$ o8 H7 M/ j" A7 b
参考:( h: G7 g* w) t) C* v' F/ Y( u
https://api-docs.deepseek.com/api/get-user-balance
! V1 F( o! ]/ u4 ^1 ]: Z. d3 a7 X3 {5 E
6, Models7 f# F4 e. f% ^$ @2 A% k6 T
3 S: |; w% l, B$ B8 e
目前就两个
$ M& j7 a3 n& s! m1 M' [0 Y% z# deepseek-chat4 F3 R) ^3 D/ W
# deepseek-reasoner5 G0 }' H3 Q; R# q
+ G% K. {/ I' P; n1 H! G/ y/ L
参考:: {2 a* Q% w5 h2 ]4 p( F
https://api-docs.deepseek.com/api/list-models
1 f; G/ B5 c" K" {0 ]: t' C- L- B3 C. m- I, N
3 e% H, R3 t) [! H0 ^8 m
7, 问题: e, d! _8 E6 h; J: i5 l
! f+ o3 q3 E6 |' ^
deepseek 会将前后两段合成一段。, r- W+ N) I7 n. y
特别是那种大量的对话的段落,deepseek会给你合成一大段。- O- z9 @% m {; f
2 S F) { R1 U6 o+ v* `6 i
8, 钱说了算。
% ]: R d3 S$ n: j8 F/ v" P2 _' G+ W) D! J7 c# X4 L
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
4 L: w9 C& Y8 V但是API就不会出现这种情况,毕竟我们给钱了。
2 x" ?/ \3 L$ ?, C% f1 Xchatgpt也是这样的。
' C1 p: g5 f1 o# F4 }1 @9 `0 v W* y7 Z4 A2 S1 j
( o4 m0 b: R; m) i7 `0 m |
评分
-
查看全部评分
|