|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 # L. {4 J- f) @7 w* W' @6 M
) E8 B) ~! S% W4 ]$ J6 d* E; a已经搞定.
) v; k% b7 s/ i" `! G8 k8 l: G
, K1 H$ G: x3 O" V首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
5 ?- |5 s: |* q. W( E0 J
5 h) M% b/ j. L* C3 c0 p! Q2 Y1, python + pypdf 按章节拆分小的PDF g' X4 B# ~: O+ {4 `
- M: j8 I p1 t! w1 g2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile9 ^6 o$ m& Q6 i, w+ `) l
6 w5 m! m( y* L" |9 @得到text file
8 W) G6 b7 V' m: V% N' L9 l
! |: Q: ]- m! ]3, python 读取整个outputfile,丢给deepseek 矫正。; ?0 l' w$ i4 ~; p4 f+ B, O
5 w) Q4 n. M" P6 o2 o模型是 deepseek-chat9 v2 G: a; b0 u/ r) m6 w. h e
0 m% h3 y4 ~8 @' G% Umax_tokens 最大是 8192,别的不用改。
2 A' v$ }& w' h" `+ u' G# Z6 E9 p6 M- a% r7 s- ^
参考:
: ~1 m) E' @4 z* X5 o8 Vhttps://api-docs.deepseek.com/api/create-chat-completion
: r/ W: u% ]' G% S2 e( B
# ?/ O7 U5 a y. q' A" r Z4,费用:
" ~& |# O$ c" L1 A! C6 E
. q0 T3 P: a# q+ _1 x3 T实测:5 S2 C$ a2 W7 N) V( i# ?, K
' N( L/ o* x3 Z7 g1 A296K 字母,用了 9 美分。
# p% S6 @9 X. I, `# U! }7 v E* n' a0 b: P( Q; U6 T
英文字母 到 token 用量大约 1/3
& g2 b3 k, N* b: x3 q: {$ i# Z' T! v$ Z r0 C
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
' L$ \( m; L y9 M" X& P( F% h" |
32899 个字母花费 11782 tokens,包含输入输出的 tokens- e6 Z- O) A$ C5 E( o$ a, {5 ]' v
! p: F5 F) k, B价钱,非常非常便宜了。+ I7 D- r0 O; P% p. ~7 S
; v. F7 }& s" T# o, Y" _9 X$ I
参考如下可以计算,懒得算了。
. B5 \7 R, ?8 t8 Q" K4 I6 Q& J- C9 H0 d& z6 {2 E$ w' V1 q
https://api-docs.deepseek.com/quick_start/pricing
8 t: }( G, b0 ~ S
9 `$ U h8 D' D1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.141 z y4 J, @# s9 @& |* c% p X3 t
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
/ o- E1 `( \9 I, I6 Z9 [1M TOKENS OUTPUT(5) $1.10 $2.19( `4 I5 |4 Z3 m- \" v
: T3 x% G' N$ [/ B5 d- a0 S4 N3 K5, Balance
3 ` A* i& T$ R5 r8 e4 ?
5 t! ]8 S: n8 o$ I$ ~( J9 g5 h可以在程序里调用,知道每次运行结束后,balance还剩多少。
5 t8 N% o. Z- `- t参考:
0 Y2 y& D- V7 P& [: D% h# ~( Zhttps://api-docs.deepseek.com/api/get-user-balance* R& g# p5 i. g& e# L
4 I' Y ?! L* W* ~. ?6, Models8 N& Q) s: m$ S# z. Q2 O2 G/ V5 _ y7 P
! D7 F; h" S4 M* e: \! T) ^# m目前就两个
! { K0 Z* G& ^# deepseek-chat
: S7 q5 w4 M& Q9 z0 s5 b# deepseek-reasoner4 ?' V6 P4 t9 k+ l4 l& p( q
: k" a, B ^5 e; M) y: ^6 Q参考:
: c/ F# Y6 Z* W2 s$ dhttps://api-docs.deepseek.com/api/list-models7 |1 O; k* o$ P: X
9 P7 r# C0 {* `7 a
0 x7 B8 n& S6 V1 M
7, 问题
4 t, z- w+ L2 J) `
% F& b1 r6 S7 o" W% T2 d5 jdeepseek 会将前后两段合成一段。' v9 K! O5 C+ b9 c1 n0 m
特别是那种大量的对话的段落,deepseek会给你合成一大段。
0 X+ j' h& ~, _
+ S! ]4 |2 w% D3 {0 Y& I! N& u# z8 c2 Z8, 钱说了算。
1 |6 n. @' g0 I$ T G3 C$ K- M6 {; Q$ j8 {! M9 \: @
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 G8 U( u" n3 F
但是API就不会出现这种情况,毕竟我们给钱了。$ V8 |! _5 G0 J6 ~6 o
chatgpt也是这样的。* ?* k# Z2 ~5 c2 `, q$ B
8 _3 s3 ^& H9 q2 i% L( }2 ]) P3 |: `; n, o
|
评分
-
查看全部评分
|