|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 " W. x6 X/ x* |3 ^7 ]
& ^ c, A9 ]" _1 V. Z
已经搞定.
1 C4 [2 H' a+ r* J3 Z/ z; Z
/ i' b2 }& O7 K' v: W首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: S# p# y$ _. J7 J _" z3 e5 V* o
' j: f, d5 k5 f; Q" w
1, python + pypdf 按章节拆分小的PDF. y; a3 a8 J$ m `, v
3 _8 p# T4 t+ U8 h5 t8 k; x2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
( @* H; w! A4 O% u: |
" W, V* I4 `, Q9 R得到text file6 n4 o' Z: F' J. P6 K% v; _/ ]& ^
0 }9 y9 H" W9 C; L3 ]- k0 e( G
3, python 读取整个outputfile,丢给deepseek 矫正。
\8 c) ~1 E, b5 E+ W! z/ X/ k8 h6 ?" @& W
模型是 deepseek-chat" M9 `3 T# c+ o% ~# G: T+ _! V/ d
9 O& w4 ]8 F" m1 Q4 X7 i8 i
max_tokens 最大是 8192,别的不用改。
# W! r" @( E9 B. Z3 `* S! [5 L
6 f+ q) U# `. j参考:+ Y, n( Z, \+ L* g
https://api-docs.deepseek.com/api/create-chat-completion
* C0 ]/ b5 q/ b3 ]; z) M K8 V4 b# B$ R A
4,费用:
8 Q% I$ I6 t; Q1 x' e- l, U, \! C9 [9 d/ K
实测:: S" U X! Y. w6 W5 C2 S8 b
' E( u. E1 k {
296K 字母,用了 9 美分。
: x3 F% C4 B! O; K+ ~# l2 L
2 [; H8 p$ f. A! ]1 @ G英文字母 到 token 用量大约 1/3* D% c: u7 a7 i4 r; y: r% h/ O
' X. q6 A/ X; J/ l6 B+ ?: X
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
. Q5 [; m& _7 D" V/ ~% D/ o1 G( |& ^9 y# U# O
32899 个字母花费 11782 tokens,包含输入输出的 tokens* J! j9 O3 J8 B
6 n- J8 v- z8 O价钱,非常非常便宜了。* ?4 x4 y4 s/ ]* U2 b1 x) Z3 h
- R7 U) U0 v2 c1 `, S) c
参考如下可以计算,懒得算了。
8 i2 S0 S$ i& s" y! ?% e5 Q7 `2 Y( k
, i0 f1 f' Q! K$ \/ `3 _ Thttps://api-docs.deepseek.com/quick_start/pricing
% i9 v* d* a6 [, l
# O+ q" L j+ _4 }" X+ y" V1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.145 w$ m+ d% {% }+ d
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55; _3 E0 B0 ?3 l. Y8 O M
1M TOKENS OUTPUT(5) $1.10 $2.19
- C% m9 |: s) x
" q- K1 f: n$ _# |5, Balance
5 S& f$ E/ E# h9 V. N
: U2 i1 C( o h R0 D+ G$ q/ \可以在程序里调用,知道每次运行结束后,balance还剩多少。2 A3 Y+ `/ f' e) z, P
参考:3 V4 j$ x( Y5 Z4 G* c2 m4 h6 V9 L
https://api-docs.deepseek.com/api/get-user-balance
7 V6 t6 \3 Q2 Q+ i0 D9 |
% u) w) y- ]* A0 `6, Models
7 J& K' s7 j3 I! A& j, T3 h1 { U' G0 R0 `( k* y4 b9 L
目前就两个' T0 W" z( d% n Z R4 j( L
# deepseek-chat
- a6 L8 j$ k& H0 t# deepseek-reasoner/ y" D4 Z! N# k# A6 g
4 ]9 e. B) W/ F# Z$ D1 g' ?
参考:
* |$ t9 n& ]* l$ U. x0 L' z$ S; vhttps://api-docs.deepseek.com/api/list-models0 u: a6 R9 S ]5 r* E4 k$ l
9 }; E# Q- d* v% g5 ~" w- `" n, ~
/ K$ C, X+ L, ~! r/ ?. u' j7, 问题. c# a) V8 @7 \0 P* A; W5 `5 b- S
. C3 V- A$ J2 X5 I- Y8 Sdeepseek 会将前后两段合成一段。
a) W, R7 L( B2 g+ B1 e9 r( s特别是那种大量的对话的段落,deepseek会给你合成一大段。
$ Y% s( w; n' o$ W0 I% B
) ?4 W# L. Z) r% |8, 钱说了算。+ v+ W) P+ S5 {/ a- v0 u
2 c9 `8 [5 U& I1 W" P% }9 `/ gdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。; h) s2 W5 N2 K& ]1 i8 e
但是API就不会出现这种情况,毕竟我们给钱了。
. @8 _* X: l( Q; s1 Z; Tchatgpt也是这样的。
4 R- h6 q) ?5 b% e+ E; Y5 F$ n+ Z' m' C7 \( b
4 E* A, R y' o1 ^ |
评分
-
查看全部评分
|