|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 4 x, N) A& _6 ?4 W
: W y) c2 C" ~- Y, A$ B已经搞定.
' b3 z2 y; l0 n$ l" s5 t
+ O4 G: I' Q1 Y! v首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
1 E5 S# J2 }1 k7 \8 n- D5 o& L8 F
1, python + pypdf 按章节拆分小的PDF7 Y. U7 @6 a4 W: T+ L8 W
, H3 N& Z. q& _# c/ o) ^5 n2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
; W0 b F- [) Y* S
; o0 ^# a9 I) P得到text file
9 T/ l0 o; F; p- J
0 E. m( x9 P$ H3, python 读取整个outputfile,丢给deepseek 矫正。
6 J7 |' ~0 h6 W2 W" o& N7 E/ W
7 s: d# E w2 U _/ W8 i& R模型是 deepseek-chat
6 T1 ~) E0 j8 |! j+ X9 J# l# q; m6 ~5 k- e& d6 D1 N
max_tokens 最大是 8192,别的不用改。
9 e3 }& F/ L$ Q ~
; B) R9 F. p6 i, F0 t0 j! c3 W参考:
- a* p% ^3 ], m# ^, K( i7 H+ y; Dhttps://api-docs.deepseek.com/api/create-chat-completion
& g/ e" v2 k1 k) Y d9 P( D
9 b( u. U$ ?2 y4,费用:2 ~; S5 [, J& k4 B( J- v
; h$ b! V7 O `8 A0 k0 d X+ I实测:
8 [$ G& {) u( F; _, T
0 D" D$ d8 i" N( O: F6 c, _' C296K 字母,用了 9 美分。* J& q# L5 W& F, Q9 ?' G/ J, |3 q
! c. B- }: R% ^' q3 I- ]
英文字母 到 token 用量大约 1/3
! u: q7 \7 Y2 ~2 u1 ^; P1 ^0 b3 W8 `4 l2 Z
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899: W7 f# y1 G5 g4 `8 [9 j L! X
2 J F% B3 _+ B; F0 `2 H
32899 个字母花费 11782 tokens,包含输入输出的 tokens: |' b: r8 b. s ], N
* |6 F% k0 ?. U% j* A P, m
价钱,非常非常便宜了。
. W# h- P) K% ?$ m+ I# C. O& a0 ]' \$ V6 R! z0 n' A1 j- M( f
参考如下可以计算,懒得算了。- ^) ?$ c! P% d$ c/ k4 V
o! P- J* @! C( r
https://api-docs.deepseek.com/quick_start/pricing; C1 X; \8 D0 ^" e$ H0 ]
+ @: |$ ^ Y# h' C/ E
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.142 Z& m) o: A" ~+ j$ P( h
1M TOKENS INPUT (CACHE MISS) $0.27 $0.554 O) {6 w9 s0 M. k, y& f. m3 n' i
1M TOKENS OUTPUT(5) $1.10 $2.19
; G' j4 G7 E9 v4 q( z
; r" C6 u: P( F" i, O u& l% M9 B5, Balance
# r# M% h$ h0 J; a$ c; e9 m" i- Y" c: B7 W5 L' ]8 L
可以在程序里调用,知道每次运行结束后,balance还剩多少。
. f2 l* ]/ ]+ D) i5 A* _参考:, p9 p, n* G+ ^$ [* M- G* |
https://api-docs.deepseek.com/api/get-user-balance, {5 ^% K4 W4 i8 k
8 X# u2 J/ u5 G/ x
6, Models
! g+ g$ K$ o4 u7 H) H, v2 t D5 d+ \: G+ J4 L/ x1 \' d
目前就两个9 |4 d# T% s1 |( I
# deepseek-chat. n0 g4 n1 t% _/ h5 W1 n6 K
# deepseek-reasoner
' j1 I3 d, }; ?
|, w1 K) T# X, x! E2 O参考:
- @5 H0 ^; w0 L" \$ R _https://api-docs.deepseek.com/api/list-models
6 p S& N$ m$ \6 i. t t C% ^
' o# v' _9 j. N) e) ?# N5 X$ ]4 G( V8 V9 l
7, 问题/ d% K8 [! W* y8 A
: z. I& K, Y& |
deepseek 会将前后两段合成一段。
) d" K' t" \/ z- G( F特别是那种大量的对话的段落,deepseek会给你合成一大段。( |$ m3 f$ I, F1 ^2 }4 o) ~7 Y" [
; q- b. Q: w1 R$ V; D1 B: T8, 钱说了算。
+ a/ r Y7 P |! w
" B7 {/ y% Y5 I- W5 ~$ z9 Tdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。! [- y2 p. @: k7 D& P# N% R) m
但是API就不会出现这种情况,毕竟我们给钱了。
9 t D& _/ c' E% o, F5 @ Dchatgpt也是这样的。
5 \: _$ _( s4 U! Z3 K8 Y) _7 q5 @, d5 H
1 X; h. h0 p$ C) [* I3 A/ o: ? |
评分
-
查看全部评分
|