|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
; p4 }' ]! m6 o6 F) d6 {/ E/ \ F/ P! A- U9 Q q9 O7 U# V8 G7 s" R
已经搞定.
+ U- K W, x* C+ E1 F+ U; S) L) q! w' B. {# }0 h. A" P; ~
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
0 _5 R; i4 [. t! |3 G8 T" N* \0 I3 Z5 z: G; f
1, python + pypdf 按章节拆分小的PDF
" r1 c, V9 I: Y' _) A; ^/ v/ @* K% Q- C* K. j u2 _- K
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& w! a9 f& R! w7 l
6 f1 k& s4 J" Z2 j4 a
得到text file& c6 G [) y2 G5 D" l
+ Z, a; X% \% |9 M3, python 读取整个outputfile,丢给deepseek 矫正。7 N/ d' \* G1 f4 {
- e* O' ?. o3 V1 [% M X; r" Q( _ w
模型是 deepseek-chat3 k3 I9 a. N% y! e) s$ @
7 h* A D, u" F: J6 Qmax_tokens 最大是 8192,别的不用改。
$ A9 _" L; @7 e; b: ^
9 \6 ?2 T8 L6 }0 a2 \1 ?. z' r参考:9 v$ A7 R5 g$ R9 d
https://api-docs.deepseek.com/api/create-chat-completion
9 v( c+ Q: C# m
: E6 t4 K; H0 ?: z) n& f' p4,费用:
9 L% a0 O5 {$ z1 v( s) u0 t5 x; E8 P; f+ p+ p
实测:
: r. q3 c) Y& t" C0 F. |5 I
+ P/ o; e Z2 y$ h% L5 n( S5 r296K 字母,用了 9 美分。$ [* ?0 Q) \- L0 T, H1 p8 E
" c# n; P9 S3 H/ @ L9 m7 l
英文字母 到 token 用量大约 1/3
; O% s- P! V8 |, t( p
. Q& ?$ a* r! U& R$ a+ ntokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899) k2 F( X2 o- M4 P! G' R+ j. k% O
2 z( c5 v( G: G: }0 |- x6 J32899 个字母花费 11782 tokens,包含输入输出的 tokens
0 h, T' y4 D$ ?, v6 b8 @1 y5 }0 f; d V
价钱,非常非常便宜了。
9 d/ a8 ^1 r3 a
# r' q/ O, n& B参考如下可以计算,懒得算了。
$ F f( \" f6 s! o0 s, `, K
7 d# M( h" l4 n9 E5 D6 j- Qhttps://api-docs.deepseek.com/quick_start/pricing' A4 O2 }/ x" J" q# m
6 W% A% `( f) X6 f6 @7 E' f# _& J
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
9 g6 C, C4 n2 @7 q7 c. S1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
- m8 W5 p7 w5 n/ U; Y1M TOKENS OUTPUT(5) $1.10 $2.19
8 {9 @$ h& G( a' H" v, h* o% S' \
5, Balance
" a+ f6 O5 h- P! a- ^
* @- ?" l2 X6 X+ n3 j1 D可以在程序里调用,知道每次运行结束后,balance还剩多少。4 m* W7 f. p8 P( W
参考:
) X$ e5 Z0 t" }4 k4 ? H# g. Whttps://api-docs.deepseek.com/api/get-user-balance
9 b' s, C/ Y7 F% O+ Z9 C8 `2 Q; j, U- ?' M: H2 H: _8 |
6, Models
$ n+ m, l; b/ O5 r
: u) F" ?7 }% R* C8 z- i4 S目前就两个
% M) X. V7 J0 j8 h# deepseek-chat
" S6 }, R. V$ j7 L: X# v9 ^# deepseek-reasoner
. b) I/ x; m* Y! X: u* u* h3 B/ `, r1 j: W) [; \
参考:
8 ~. J h, G( u; Z) V }7 v% e3 Xhttps://api-docs.deepseek.com/api/list-models: O! [' J: ?' Z: ~9 B1 i
( Q( w2 P) Z8 i) A. M$ E
& w' ^, I" O1 U' j1 T% n8 Q7 v# E7, 问题
: s$ _% p6 a( f9 {# E( @+ [% B" A4 K6 q2 K: }# _: Y
deepseek 会将前后两段合成一段。
( C5 |8 }% g2 ^- [/ ]# o特别是那种大量的对话的段落,deepseek会给你合成一大段。
1 P- d) [5 M" J! O9 h' R
5 Z9 a' y3 {2 v7 U' k! h8 J8, 钱说了算。
: `. t+ U% w, X1 d' T" m# P c) Z% U9 \- |% |, D& B% }1 A G. }8 @5 B- H
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。2 v' @( a) Q* @8 O& r6 ^
但是API就不会出现这种情况,毕竟我们给钱了。/ N9 t9 e. t" f, h6 m& Y
chatgpt也是这样的。# i9 T8 q$ V1 N9 U) z; D1 Y
( ?1 i- h% d1 T; J
; b& ^' W, U& D' \2 j |
评分
-
查看全部评分
|