|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ' j# x' |9 q6 s. r8 l: A
3 f/ ~+ {/ ~& k+ f4 H( J
已经搞定.) |' a |; h5 K. g2 O) V0 X4 M
3 W+ F# K' o# e首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。/ E6 t, y3 _$ \6 w- s2 y
; d8 ^; c2 B% H) L& n! q/ M1, python + pypdf 按章节拆分小的PDF# f5 [+ y" j7 D* H0 ~- ], V1 ~
7 C# @ {" D" p
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
4 t: O0 k& R1 l3 Y3 j: r
2 X# w/ ?: n* Z% p得到text file; b+ r! C; X5 G. l: q
/ W+ u: A+ p9 p: x& m3, python 读取整个outputfile,丢给deepseek 矫正。
0 o# q2 I! c; f7 ?- s4 N8 l
) w, Y* n, [& U6 V% X% X1 h模型是 deepseek-chat" N2 P( c9 L4 P. ^* {" V4 q4 f+ ^
* I' l5 |" t9 T2 _! ]2 f
max_tokens 最大是 8192,别的不用改。
3 r( b2 D/ L. M8 k+ d& C- `3 g$ ?& [; A/ ?" a/ D- t" K3 N
参考:
' x3 J3 p2 i$ s' v( p9 f: |1 Zhttps://api-docs.deepseek.com/api/create-chat-completion
8 a) K- g, b( a5 r+ [/ R: R2 Z2 b" C9 K) ^9 m; r8 x
4,费用:
& g+ z' f7 g, H0 S
3 i! M2 W" w6 [3 w+ ?实测:
3 I$ [$ Y( m( s+ [1 z8 o! M
" e0 y0 t `9 m' c( y0 l5 S7 l1 R296K 字母,用了 9 美分。
- ?1 f7 o6 L9 }2 `4 K* i4 E9 H" ~4 A4 }3 ~
英文字母 到 token 用量大约 1/3
+ f) D" j1 H1 l# s% X# F% ~& X* G5 J" _& T' r& p; I" j
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
8 l8 {2 Y0 D" g, p* {, ]
3 @/ X+ N0 c( e' A B( F6 J3 ]7 X32899 个字母花费 11782 tokens,包含输入输出的 tokens
8 {* i! w7 r. J/ u; ~7 E& o6 p3 O5 ^
价钱,非常非常便宜了。, T5 Z0 n/ j5 a& |8 E8 X1 J! D& A# e( S
# d, R* }! N( @0 ^9 I. u5 d0 K0 Z参考如下可以计算,懒得算了。9 A2 p9 ], ]) N+ [. W# s! j
6 h0 p) k1 D& ~! Qhttps://api-docs.deepseek.com/quick_start/pricing
; I. a3 u9 h" \; |/ ~6 p1 p7 I2 o% Y" o6 {0 {. q5 Q/ m" r) y
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14/ {7 [" a$ J V' d! w3 m/ O9 L5 c
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
0 ?( P0 k8 G. z" g8 @1M TOKENS OUTPUT(5) $1.10 $2.19
- c" R" z) M* v3 Z$ k+ s: V0 U7 x. W+ r r4 h4 [: z
5, Balance, g* W. `& m7 j8 f& ^/ x
* j" Y- B) L% A/ C9 z
可以在程序里调用,知道每次运行结束后,balance还剩多少。$ g2 ?4 g( w* G) D, e9 ?
参考:+ j8 x6 ?) W7 L, T4 I5 R- \' [! `, u) K
https://api-docs.deepseek.com/api/get-user-balance* j4 x% g+ j' `) Y- X; Y
8 j5 S: A# v' S6 B9 y6, Models$ y$ Y+ Q& j- }+ x3 b
% A+ ~3 |8 A7 {6 E9 w$ ^
目前就两个
' ^( X4 `) {. y$ ]# deepseek-chat
Z; w/ U$ c: O* V# deepseek-reasoner2 H' ]- G3 l* k: d6 C7 R' _
; Q- ~& i1 o& @
参考:
E& ^* F" m8 Z. q7 ~! z1 |, Ihttps://api-docs.deepseek.com/api/list-models# o* J- F% [, ?: m
$ K5 p/ u3 }- Y4 ]+ \4 I* i/ @
5 z* [# v- X: r% b: b7, 问题
$ \$ H1 o, l/ H( l) {1 Y: ?6 g$ j+ @1 ?. }/ \/ r8 B0 \
deepseek 会将前后两段合成一段。: l) r8 I4 S. e) k! L
特别是那种大量的对话的段落,deepseek会给你合成一大段。
/ q) U, h8 S+ p3 p: e9 F- G: _4 ]* l) u9 z. [
8, 钱说了算。
! u, d0 _" ?% t4 ]% T. x X# d, H0 c; Y4 Y2 f" Q
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
/ D/ C$ s" E7 W但是API就不会出现这种情况,毕竟我们给钱了。
! @) R. Y( V! x3 v! J, Rchatgpt也是这样的。
+ n5 K# i. P, `& ]; F0 ?% T
- ]2 m4 W2 v- G% [
4 m$ n/ {& c0 A |
评分
-
查看全部评分
|