|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 , S7 N8 Q$ L- ]1 p
* I0 G0 G3 ^ x1 H: O" g
已经搞定.6 m5 v% l% W1 [+ U' {3 h
+ A2 a8 j1 c: d6 m$ G7 p首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。4 g" W) [0 T) Y9 X$ e3 X+ `
7 A1 M- W, ^7 f0 D2 d
1, python + pypdf 按章节拆分小的PDF
8 X! Q: j0 x/ c4 t( D/ Y2 R
- l% w, H! c5 M+ v) ~& h; h2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile) g+ T+ j9 x& N3 f! d2 s
% Z. b) E$ |( [, ?9 U$ L3 Z
得到text file v* `/ U! I% f3 Z. Q5 ]# P/ B
' `: u. u( a8 C+ }1 t" i
3, python 读取整个outputfile,丢给deepseek 矫正。) t1 G$ n& E" @8 J
5 l) B) H" c# x
模型是 deepseek-chat& h" Z$ K8 n# R7 s
6 S6 D9 ?9 m* Y8 `, Bmax_tokens 最大是 8192,别的不用改。
4 S' V j( s, X
4 f) D/ u' ~( g, P参考:# ~7 M: e! e3 S( G' K
https://api-docs.deepseek.com/api/create-chat-completion
9 b! ?4 K! Y4 @$ d j
. O) n7 Z O) @ t4,费用:
5 b" R5 A, Z: m: V! A+ z$ E0 x9 f* T9 h5 z) i
实测:/ ]& e; q# X7 A$ }
4 f# Y/ M- L1 v2 T% c2 y2 i3 h296K 字母,用了 9 美分。! e, T* N: b1 D: U2 e
9 b- w: q, L l) I+ m# L
英文字母 到 token 用量大约 1/33 s0 b$ c: o9 v) l9 o4 j& Q, b
% U6 I& W0 b; r* U. stokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899& e' ?# c0 g z$ R7 g+ e4 r
@# X n% |9 ?1 j* T* U7 S$ o32899 个字母花费 11782 tokens,包含输入输出的 tokens" ? P1 g$ c3 }
1 z |; V& T& A' U价钱,非常非常便宜了。: b8 l% P* S8 J5 F# ^
* M0 x# l! O/ w2 @参考如下可以计算,懒得算了。! @$ r, U% L0 N' m0 ]# v" y
# d3 _" @& L. F3 a" R5 |
https://api-docs.deepseek.com/quick_start/pricing& f# g! W+ f1 I7 U% G! ~3 ~
1 P" C. B( s2 ], q, z/ x
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.146 l. ]; B' x- ]4 b& b
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55- f6 s" K: a' Q/ d) A
1M TOKENS OUTPUT(5) $1.10 $2.19
+ S# a3 c& u, z# {$ b3 ]9 |( a6 n6 b; Z* j1 J$ a, I& w
5, Balance
- C( b) G' |- K; [$ I+ y: ^7 X: y5 ~% n
可以在程序里调用,知道每次运行结束后,balance还剩多少。& z# C- L) v* t5 Q! M
参考:
. s; j' L5 |, y5 ~3 \+ Uhttps://api-docs.deepseek.com/api/get-user-balance0 z3 @3 O, \* x$ x- w) Z8 T6 ~( _9 Q
9 ]8 e0 O }; h/ j/ c: `2 W6, Models
. x+ i0 x; s; n, y r
7 _, `; w) ]5 r! j V目前就两个
3 ~* P. I! K2 L5 S9 c5 q# deepseek-chat3 U4 k8 H; d2 z& N
# deepseek-reasoner
2 E2 W1 D8 e' _7 f* e4 S: o6 F: Z; S% T7 g8 D4 `: E
参考:
+ L/ f% ]4 H/ G6 R9 z1 `# vhttps://api-docs.deepseek.com/api/list-models; }5 w9 D! P7 {% O4 t/ `
$ r4 _3 T0 M0 U) b/ c$ a
! `3 I& h/ ?& P1 m) J5 e7, 问题) Z' i, y _$ k7 m
+ A; r: C- `, h- B/ \5 h( P
deepseek 会将前后两段合成一段。
0 L0 |) |. w4 C. }特别是那种大量的对话的段落,deepseek会给你合成一大段。
6 s- i- @( I/ S5 I; |& R2 o$ j7 X5 |1 e8 D, v6 ?, U
8, 钱说了算。
3 x# G$ X; ]. T+ P& G
% W3 u, d9 T5 ^! Zdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 ` r( t7 U' ?- Y
但是API就不会出现这种情况,毕竟我们给钱了。
4 O7 u& H. F2 e4 F- k! ychatgpt也是这样的。( t6 \) A" j5 U) P. \, \
2 X6 C \4 p9 n' r% C5 k6 K
/ h4 G, g0 M' R- ~8 f/ b# i+ P8 [+ t
|
评分
-
查看全部评分
|