|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
8 T- L2 I! t3 B3 s9 P) k! `# C- R5 t4 f! @5 |
已经搞定.& t5 t0 t$ y b2 g+ a$ \
# A2 z+ t8 k( R8 ^6 B0 j9 J- f
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。8 q) U1 E) @4 ?. M
* q9 ^% _% V1 ^. [% m" w
1, python + pypdf 按章节拆分小的PDF
- M+ Z* \9 D! ^/ l" F- s2 h8 p7 T7 B4 a4 {4 d! g& N) U
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile+ M3 [) Y. D; D* S. p
9 x! U* v! ^5 U H
得到text file
& e2 R" U+ w6 G2 p+ k3 }" ~# @/ _4 H C( F+ [) }3 H& e
3, python 读取整个outputfile,丢给deepseek 矫正。
8 c w$ l: v" h+ K, R0 E
. W. m- Y+ V: d: l9 }" E& B* J6 p模型是 deepseek-chat
' O8 }& y% x* ~# e6 a( ~5 `, a! B# V" T4 U
max_tokens 最大是 8192,别的不用改。
7 r8 @% h: h5 W W) `" K: P8 _" I7 a3 m2 K( G- W
参考:) l5 e& I7 p: z" h7 I& y
https://api-docs.deepseek.com/api/create-chat-completion
: d* [% N& c4 k7 k' V N- _
3 R' W( U0 ^" K0 b- f3 X, M( h0 g4,费用:
4 [- L8 C' E: b8 X" t6 f7 u/ v0 R# c5 _/ h7 L
实测:
* k6 ?& K' T* H
- ^; J/ n9 J/ i- }296K 字母,用了 9 美分。
) C7 Y( z6 k. X/ K" D6 L& h& V, U0 Y% `' Z
英文字母 到 token 用量大约 1/3
% f& C3 H+ r+ b* t% _- q/ Z9 w; X. G
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899+ ?4 R- c, J( a" {5 A$ ~7 l( K- F
! C4 h7 s7 u/ o' V5 C4 `" V
32899 个字母花费 11782 tokens,包含输入输出的 tokens' }% o, v: s! y- X2 ~8 l
' h, c# V; _8 T, {. P
价钱,非常非常便宜了。
4 e" H9 m W4 @3 b8 G/ V' P& s4 ~( q, b0 Y! J- C3 Y7 o5 Q
参考如下可以计算,懒得算了。
3 u1 `% f/ K% J& i
+ z) [! F4 A; w* xhttps://api-docs.deepseek.com/quick_start/pricing1 @1 M. @* j- j' t2 p) R' r+ x
5 l2 k1 _* L/ }' g1 h7 j) h
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14; m- s5 e m* U! H
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55- \; H- q, n+ t
1M TOKENS OUTPUT(5) $1.10 $2.197 H, B+ g+ n+ R5 b9 W# j2 J$ ~
9 O. P; x$ Y& z: L& d& }: ]5, Balance% r# q$ P( r. X6 s4 x3 i
6 c4 W8 @1 H3 p
可以在程序里调用,知道每次运行结束后,balance还剩多少。
1 q" v' l0 m3 P3 |. \ N: T7 g2 i参考:
* F$ w8 p* i9 j& ~9 a) Uhttps://api-docs.deepseek.com/api/get-user-balance
7 }% A; {9 e; \: e2 y' W( A' W+ o; A; x! j% ^
6, Models8 B# o" U8 x: c9 W" B T% q
0 B' d5 ?) w7 r, k1 j
目前就两个1 H" b2 d% Y5 _# w
# deepseek-chat
* ^0 Z, [/ _- }. a$ F2 \6 ~1 h/ {# deepseek-reasoner
$ m. R; X8 U7 m* S# f
4 m0 N; W7 I K- M/ M* F参考:
9 x! J8 n1 M- K) l; \, [3 ohttps://api-docs.deepseek.com/api/list-models& [/ q+ t$ x7 T! Y, Q1 _! X/ E4 ?
" j* M' k0 _+ I8 M, @ d9 J
8 t1 |- x9 U8 O0 n0 Q7, 问题
: N6 p2 O/ H4 \3 T$ c; A/ ]" q# k3 A/ x+ ~% |8 h9 }' t
deepseek 会将前后两段合成一段。
0 \* r" b% W6 e特别是那种大量的对话的段落,deepseek会给你合成一大段。" f( V: c2 _2 P2 q% F& j
( f$ q9 s6 [7 [& c. \+ I
8, 钱说了算。/ E' @: m, M j1 \
8 v2 T; f* p' g* K4 b+ ~/ b; ~* [
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。8 g/ g: I6 r4 x4 ]' n* ]/ u
但是API就不会出现这种情况,毕竟我们给钱了。
# Z" {1 ~& H, r1 H; |chatgpt也是这样的。0 ~* }& J/ o0 H5 @+ f. U8 N
& I h, s5 ~0 P4 Z: ?7 X% x
1 G& v* z9 `, _' G. m/ t5 |6 A |
评分
-
查看全部评分
|