|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 8 P- j7 f+ L2 W
" r! t* \/ D: Y& D" M- p! ^1 `% A
已经搞定.
9 E5 }9 {, A, g9 F S3 k9 a. p
* N# K0 U4 y7 k2 G( l% p首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。% T1 N; a6 P0 E- t1 r) K! n$ w
: z6 f2 \; S I/ {+ e9 i1, python + pypdf 按章节拆分小的PDF
: E$ f$ x8 `0 B
& W5 [: N4 Q7 t, V# i2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile' f' t, g" `7 q! L( o) S$ c
/ r' ~: t7 h, g3 R. |8 F8 w; z# w
得到text file
S V6 G/ g. g C" v- s' P& H9 h, g( U' A
3, python 读取整个outputfile,丢给deepseek 矫正。
4 P! @( l: b1 v& J* T) a7 m) M- y: n, y3 i4 S3 A
模型是 deepseek-chat
/ S( a7 s0 d& a5 T. {
# H6 i3 y: E: Y T4 H- `3 o( Dmax_tokens 最大是 8192,别的不用改。/ k9 i; H4 S: M& f" K5 U
" l: N8 @! D0 T" U# a
参考:
6 [) z: r6 ~! D+ O0 b9 L$ Uhttps://api-docs.deepseek.com/api/create-chat-completion
8 E) g# u6 I& \% d+ ^# J; {. W# G
4,费用:
$ V1 i7 @$ | h% z. K" c/ s
$ ?. \$ Q- i1 L/ _1 h9 t( k实测:" }5 V* l- [ u+ B1 c# k8 |2 v
5 d! P+ N) T) S6 X
296K 字母,用了 9 美分。
$ s9 ` k3 g! C a4 D! [; |, W6 }4 {0 W/ T+ ^. V
英文字母 到 token 用量大约 1/3
! }2 K: Q* j& S+ V
2 B: t( ?0 \, E. A5 L9 g Z' t6 xtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899$ z& [! o' |6 k
$ x7 F2 r5 `2 ]' {5 u* A6 _8 T
32899 个字母花费 11782 tokens,包含输入输出的 tokens0 H9 I8 T6 q! k# k# I, v# B
8 p. N( M6 m2 }. D! ]7 u$ n. u
价钱,非常非常便宜了。
9 ^* i, F) x6 J8 D+ I$ B: b+ g" K
参考如下可以计算,懒得算了。6 A# K/ W8 x& C! k& ?. o6 g$ l
# N6 P" O8 B' g
https://api-docs.deepseek.com/quick_start/pricing
2 s) D1 m ^5 i6 H% Q# j
1 W2 q( A, w/ z. T& `2 E) P1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
) B: Y2 m( u+ `1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
" x$ P+ |8 S, c2 ?9 U1M TOKENS OUTPUT(5) $1.10 $2.19
" Y( i q6 a! P8 Q0 j7 l# ?' p* {8 M
8 N$ \. C+ U7 T/ a/ c5, Balance5 T7 u B) j9 q
( s) c+ f5 `- [" M3 A
可以在程序里调用,知道每次运行结束后,balance还剩多少。
* d1 T) r3 }& e- w$ x参考:
% j8 d$ t: ]) O' [6 x* @( |( Bhttps://api-docs.deepseek.com/api/get-user-balance
- @$ y( X- `, h& b4 I% L6 ], a* G
. w. Y; L) s$ d# T6, Models- I& u. n. O4 d% ~5 M( d
4 G( [9 t( u: V
目前就两个( C, L" z% W5 A+ J3 \9 B! e
# deepseek-chat( j. _; Y, a0 ^1 N( @7 F
# deepseek-reasoner8 q1 a7 _& Y$ h e, \$ K
! B' ^( ^, q' _7 [/ Q1 ~; t
参考: L) {5 P; O: L7 I# U5 U
https://api-docs.deepseek.com/api/list-models- t- X& R: }3 s# K1 f) Z; A) i
4 t, W9 Y2 ~% Y* n0 q- B
& W4 P; u) ~) q& W7, 问题
- _" e1 f6 A; Y/ F& J- R- j7 G2 V6 r! F9 y+ S7 a- x% d3 T
deepseek 会将前后两段合成一段。# u0 U4 C% Q" z* b. W e
特别是那种大量的对话的段落,deepseek会给你合成一大段。( O% \$ _- ?' ^( g. I
! b( a: d* n5 Z, f" T- K
8, 钱说了算。0 g- ?& y0 `% i2 l: ?
' B" k( {* _4 x. i9 A7 m7 q6 c
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
2 f1 t8 k1 F- [5 n- p! e9 \但是API就不会出现这种情况,毕竟我们给钱了。
6 c5 N( R/ p5 g! y D1 kchatgpt也是这样的。( d! ]+ x. [/ N* n+ s6 A4 Y9 h
6 @* K g/ o( J& F9 V; e
* x7 y, S" b3 i$ s |
评分
-
查看全部评分
|