|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
- f8 Y8 v5 N2 K: V% V; ` r- H% d1 F3 p7 K' Y8 F
已经搞定.
+ v9 M" I7 b& d8 I2 x1 _( G$ ]- C# |$ \- R4 O9 `
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
, ?! H" c- F7 T! \9 \- f3 q( a8 _& K, N6 V* C7 J8 |
1, python + pypdf 按章节拆分小的PDF* `* n9 a0 S0 L+ r. b) @0 V" i
: @3 _: N! W/ Y f2 O3 A2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile; V& f. p6 G. D8 I
3 }1 [: C9 A Y- [得到text file# l! K- Z3 i1 w1 _
0 D1 k( d$ `$ D. t* S( k/ p3, python 读取整个outputfile,丢给deepseek 矫正。
6 B; D4 Z8 S& i
8 j) u( E/ w9 J0 ^2 @模型是 deepseek-chat2 m) g( @6 u9 v, X8 i
" Q; y3 G5 N& Y" cmax_tokens 最大是 8192,别的不用改。
7 h; h1 l. I. u6 E4 F0 k8 @ u/ C. I
参考:
1 a. A0 I3 n9 ]https://api-docs.deepseek.com/api/create-chat-completion, n7 {4 h# y! I u
, D6 ^6 G, w. q5 g( H' j/ Q4,费用:) Y4 X8 k' j, P* O0 P" e) f
" S0 X- p9 ~, t7 V+ K
实测:
& B* Q+ [% G( A
, D$ t" k1 U% P296K 字母,用了 9 美分。: y" H! }7 n5 \6 d% d
" ?! U' x% N6 A: U; F' `5 ]8 r' \
英文字母 到 token 用量大约 1/3
6 a, P( z0 u4 P! O- ^) D; `" y) c8 H: Z: Q5 b' B# y" E
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
9 v7 |/ o% Z1 y$ y( g+ }9 o7 d; F: R" q6 W
32899 个字母花费 11782 tokens,包含输入输出的 tokens2 }7 \% U9 u1 x" n% J
, u5 y$ t3 e, @5 x/ _价钱,非常非常便宜了。
8 ^8 V+ m0 T( d: W
: w8 v+ }) D% I* M1 G5 |' G" M% E参考如下可以计算,懒得算了。+ t) H' B2 ?1 U' x$ V( Y9 s
% y1 M! U9 u0 j! t$ w& o1 [5 C
https://api-docs.deepseek.com/quick_start/pricing
8 I- y" J" {) @; Q9 i; V) U
' M8 J% P- l: f9 T- u& t/ f9 M; l( f; A+ T1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.148 E% p1 N- | _' E" j ~; A
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55- u: z% K/ \5 }; P
1M TOKENS OUTPUT(5) $1.10 $2.19
' D& N* g M& _9 W. t- J$ ], v4 |8 t
5, Balance
2 R3 y* B2 ~7 x. R6 t% Z6 X2 t$ R. U1 F. Z/ J
可以在程序里调用,知道每次运行结束后,balance还剩多少。
. ~- \% ~, m9 S参考:
% K6 ~$ @, k7 t# e2 }https://api-docs.deepseek.com/api/get-user-balance; {* A0 ]0 h8 k( }1 E" D
5 X3 Y$ E7 j& u' u' i/ _" R) L6, Models
/ N* Y# h; E/ K' i2 I5 n9 E4 ^% X2 A2 a2 G3 `
目前就两个. E" o D, ]! L
# deepseek-chat, C& H5 ^) h. U1 @% i
# deepseek-reasoner
! D j) @8 f! I( K2 r3 Y6 t6 z* w5 i! h, m' U& y- @
参考:
: L( w$ `# o1 z7 U, ghttps://api-docs.deepseek.com/api/list-models
, E8 K& F8 S0 p7 g9 C j/ }
+ A) D o0 j5 `! l
; R: e( j: k# M: Y( d) _1 m- L7, 问题 J* s$ k K, D) A. T5 ^
" B" r M8 T# J6 Adeepseek 会将前后两段合成一段。
+ ]3 ]0 N' B) D特别是那种大量的对话的段落,deepseek会给你合成一大段。* J8 p( P9 g1 ]0 n1 A# O
. j! y/ h* R3 F; b g W8, 钱说了算。1 w) S# O, F# ~" _
$ i2 z# [9 e4 P7 v+ S6 {# E
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。0 \ H, b U% j- H, |
但是API就不会出现这种情况,毕竟我们给钱了。
# A+ C5 j3 k% b$ u3 Kchatgpt也是这样的。
# O# q, s! q- J" ?0 V' a) c) }5 m1 V. ?. X" z6 J
, q( k$ I) I8 U7 W3 O |
评分
-
查看全部评分
|