|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
" t. K4 {/ i) g6 u A0 ]0 }" j
+ D) L' g, R1 h2 v3 r; ~已经搞定.% Y$ Q1 C$ I1 u
: n5 C/ {( E" Y( G0 H, k" d
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( O- P- @' w. {, i9 L
2 ^2 w3 o; R8 u1 j1 W: w) P8 K1, python + pypdf 按章节拆分小的PDF
. q% J) ?' u8 g3 o- K: g- p' w. d+ y
8 R4 R* E6 x7 T" e$ F2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
, I, {+ v4 D8 V7 P) [6 C
' O) o* o3 \ h0 o! R5 w& D得到text file+ W7 _. {" l/ r4 a8 y- p
; s- B- t m8 J& G
3, python 读取整个outputfile,丢给deepseek 矫正。7 `2 W* m7 `$ f6 @
1 J) }! F( c$ ^, ?8 P
模型是 deepseek-chat, ?% T6 u7 |' y
" J* `6 q0 i' v; G1 D6 I$ U# Z: Amax_tokens 最大是 8192,别的不用改。/ ~- f2 B* r3 F
+ Z N7 k2 j8 ~9 B, }! U* t% K参考:) I7 p# `- }! G% C, `0 w7 ^+ z
https://api-docs.deepseek.com/api/create-chat-completion, a* o: _& o7 O# r& t. |% Q7 j* W
2 ^. L# t" @9 A% w$ B
4,费用:
* y" ]5 A; \+ Q. d
% K/ _( Z8 K) @# k: C* y实测:& N+ [1 h/ L6 v6 f( r* R
. m* A% {" `' P" w6 o296K 字母,用了 9 美分。
L4 i/ Q; X% t, b" i
2 }# w6 ?* V: z, x `4 ^英文字母 到 token 用量大约 1/3: t3 p$ W4 [- i) s
# K5 j% q. u# r2 m/ ]7 O) i4 E4 Ltokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899: R0 l1 Y) _, s6 q) a
. y6 i- \' H0 H6 W
32899 个字母花费 11782 tokens,包含输入输出的 tokens
% O0 I, g2 ^/ A4 _( t
T# }/ R2 A8 h3 K; C价钱,非常非常便宜了。2 Q6 W# ~6 W2 S5 @
. Y* h# ?- z, B
参考如下可以计算,懒得算了。
! q% A& k) b0 m( J. V: E5 x* X4 z6 `; K. r% f+ `
https://api-docs.deepseek.com/quick_start/pricing
7 Y# O k w# D) M! ]
2 F; j5 m* @% U8 p; f! n1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
0 s/ \" s% a" }. w( Z" f" \8 M* c1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
0 B: |4 w% _, M1M TOKENS OUTPUT(5) $1.10 $2.19/ U( L$ A- ?$ r' }/ d, w
5 n% q; T; @+ w5, Balance P7 W3 N" n' H
$ ]0 n* @: S9 h% s
可以在程序里调用,知道每次运行结束后,balance还剩多少。
5 y2 h2 a& a' w. ~: o参考:
2 b( q3 w( T8 X5 n! ~' P" y- Zhttps://api-docs.deepseek.com/api/get-user-balance' [: t0 z- M0 n6 w/ B+ ]6 I
- Y' F5 C8 K& l" w# D# y6, Models0 T: p: y/ u6 s$ x
! A) H/ s3 x7 q/ ~- g% s
目前就两个- j+ @* B6 ]5 e8 b' L
# deepseek-chat
% J; ?1 L6 `) K# `5 b: T! @6 N# deepseek-reasoner
: }* k: }# G5 c! [* g9 j
, B. D) P# |* T. e& S参考:1 J3 I" w% R( ~( I( _ s+ c9 Y/ Y
https://api-docs.deepseek.com/api/list-models
t9 H+ E5 ?6 ~. j' ?9 x- Q6 W/ L1 ~9 T; x, L" G& [; Z K
: F9 C! e: x5 u, A0 H
7, 问题, [- A* u: O/ A% {" W% L. r/ E
3 I9 k( u: \$ `, d
deepseek 会将前后两段合成一段。4 c7 g' n& b& {3 A( ^" s3 _) H
特别是那种大量的对话的段落,deepseek会给你合成一大段。( V, H! F( n( _1 w* V
( E4 h, i) s6 ?2 z% _* ?
8, 钱说了算。$ R) O* u( T1 ]' U
) z6 @/ d$ J; g. H5 J" G# E9 s* Zdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。- d# y9 a8 F4 D) e5 b" F1 S" }. F
但是API就不会出现这种情况,毕竟我们给钱了。
# s7 j. p4 r: e6 y A1 M* Fchatgpt也是这样的。
/ Q/ y( s+ i! g" D( w+ N$ R" c' G/ X) v# o# G ^
" @& y' D. {$ X; }/ M. C
|
评分
-
查看全部评分
|