|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 K$ t: _. t$ S! j+ m% v
% q7 w$ x6 Z, a3 i' n5 S( B4 A
已经搞定.
) n: l/ z' h5 }
0 N' H" l1 Y) X6 |6 h9 v! v首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。/ I* K& M, l8 [+ [
8 X p9 _ x" [2 ^1, python + pypdf 按章节拆分小的PDF' Q! Q' [- ~4 n* Q7 r3 e% {
$ F$ `& C$ p$ [ b" X2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile% a! [+ P* u: P( `# V9 k7 U
0 z4 [/ b& B7 N) m( N2 j得到text file4 Q/ d( |4 C# R3 |$ g( j. |" ]! D9 ~
# W2 Z6 D1 R d/ \1 q* x6 j3, python 读取整个outputfile,丢给deepseek 矫正。$ f, M6 k- @: @$ `# s0 @
% V8 j+ J3 {# b1 q+ i1 F& x \模型是 deepseek-chat, [3 L/ C5 T7 r7 n( o% K: S3 ~
* z0 I6 A8 L8 hmax_tokens 最大是 8192,别的不用改。+ d, z1 F9 S2 R# J$ M5 r( ^9 ?
* j9 z% ]# b+ I$ \) A3 ~$ X! H% S
参考:
1 K+ X5 T' p! @/ A M* shttps://api-docs.deepseek.com/api/create-chat-completion
! a m3 p+ z. _3 j& }, f% l, \- h3 z1 j, H* j4 b" `
4,费用:) u/ }2 C$ ]0 P+ {) ~# r4 l/ z
# I( G. O( R: Q2 ^实测:
( s3 n; i9 m+ J0 U/ o5 {9 z! c, B* A
1 B4 J1 c8 L. |' c0 F5 \5 t p296K 字母,用了 9 美分。3 i/ w2 d6 D! {6 |
1 c. F2 q: Z- ?! Q+ J& d( N& k. G
英文字母 到 token 用量大约 1/3
/ Q+ d6 ]/ M& ~0 w% L; V1 c7 e; f* X: k6 W, w* g4 v2 E- H F6 O
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
/ `/ S! \+ @' _
. Y3 _; _2 E) C; I( G* Z7 p, _0 W* L1 I32899 个字母花费 11782 tokens,包含输入输出的 tokens- h) x5 j/ B, n& J: E. D$ \/ X
% t9 P! Z v8 v- Z2 e8 _价钱,非常非常便宜了。* k7 D4 G0 I9 T" P1 ^/ Y6 h( J
5 ?. |! j& ], G+ M7 y9 l参考如下可以计算,懒得算了。
3 @; |" Q+ W% M8 Z' j w* p+ q+ n; j% v/ r# K- V8 J [
https://api-docs.deepseek.com/quick_start/pricing, n8 O. c4 b5 @( r# F) e' F9 H
8 F L$ x" ? B. [, l. g1 H
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
. D" d t. |6 \0 i1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
- @; M) @& L& m4 t/ y7 X3 b* f1M TOKENS OUTPUT(5) $1.10 $2.19
) `7 c% f4 r# ?6 h3 D4 G) P5 \1 c. m& Z* f5 g* ?% L
5, Balance
3 j" W1 e+ a. l. m! j% e# u
; k* L) z* I' O7 N可以在程序里调用,知道每次运行结束后,balance还剩多少。
5 |7 X/ V$ u$ W参考:
( E5 a. n& N1 V5 Yhttps://api-docs.deepseek.com/api/get-user-balance, t+ l, {1 ^ w
4 L! z6 m; i. ^1 q0 g6, Models8 n4 G. q+ |& c
6 {! J+ a. ^" E
目前就两个. K# u+ B8 ~$ k5 u4 ~
# deepseek-chat6 |' ^# P3 R& O$ S) G0 z
# deepseek-reasoner
# E/ z3 @2 j8 M8 ^8 p2 B0 E0 \; O* G2 }
参考:; ?! @# Q9 [" e* f- w& C+ W
https://api-docs.deepseek.com/api/list-models: k9 A5 ]2 Q8 |+ F5 S! Z+ l' Q6 v
' J, X" g+ Q+ k) \ o8 o
7 i0 |5 D4 y* l0 p: y7, 问题
$ N% u4 l7 S1 R
, ^7 [; D, S `deepseek 会将前后两段合成一段。0 O9 P3 |$ c" r4 I2 b" Z2 r8 q
特别是那种大量的对话的段落,deepseek会给你合成一大段。% {1 B) }4 c) s0 s! y7 `1 E$ r
$ Z4 [# E1 i0 b. _: P
8, 钱说了算。
6 m5 q# {& S' J
0 r* i M8 q" f# K. K0 V' Adeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
8 P6 f4 ^$ K8 }0 `8 y0 \. Q2 d/ N1 f但是API就不会出现这种情况,毕竟我们给钱了。
- S) U( c- i7 J5 B. Ichatgpt也是这样的。
" @$ p4 m/ H# r
7 x3 j; w x Z- E8 |7 Q1 V
1 k6 B1 v) V; z# V8 f# x |3 w |
评分
-
查看全部评分
|