|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
4 b% W( I2 j4 x6 N' p$ H) I8 o. J$ w+ s. W1 z9 X: d- `, ~
已经搞定.
& f1 |/ k! G& q' b9 X3 a0 _
; f) _ N/ ?/ j/ q+ A- E6 t首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
; ?8 C' V6 r; t T- [3 D2 d U) Y3 E+ ]
1, python + pypdf 按章节拆分小的PDF' W% P' J/ Z0 E1 e& [- Y
1 L% B5 d$ g [2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
( V5 J, c, F$ H2 W
- R G, F2 j/ J& }得到text file8 |" j5 ]- [4 k4 _# p- p X
* j1 u ?0 U8 ?+ V* e1 y
3, python 读取整个outputfile,丢给deepseek 矫正。/ Y7 r# d7 o2 p( F( O) y: r7 q
; m- d! V2 B' q5 {" n2 k
模型是 deepseek-chat
& W! W- N6 w c
. o' |& B, X9 ^3 g+ o Amax_tokens 最大是 8192,别的不用改。
0 j3 P6 d- C# n! p# m7 S# d# W O- ]2 r0 t: t+ S3 ?
参考:( ~2 l* L. s( `# {$ V; R
https://api-docs.deepseek.com/api/create-chat-completion
- }8 t: w6 S, e9 h: h
5 V! R) ^! O0 C1 `( s2 W- h$ K4,费用:' M& v" ~ o. {
* w) B: ]; ~5 n8 M4 P- r: C
实测:2 y1 c8 O% ~9 i+ u0 m
5 |3 v& J M" t( [/ ]# {% |$ ^" U296K 字母,用了 9 美分。* C* `/ P! ^6 {7 _: U
3 ^: {7 k! g* {0 }; o
英文字母 到 token 用量大约 1/3
* ]3 Z, F3 |* A. b" R9 _" h
( c; l$ [, b5 a4 W2 V" w. e8 i# O2 C" @tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
, ?4 V; ^ B0 }+ I
1 g: m# X+ {* x; p* x32899 个字母花费 11782 tokens,包含输入输出的 tokens4 Z: w; }1 @8 J" B5 \ |/ X
) b, E1 W/ W9 }/ E- b3 Q9 @8 B
价钱,非常非常便宜了。
$ j5 v1 l4 D* M; N$ w; }3 ~" C% Y+ r% H1 w/ J) ^' G: `! Y
参考如下可以计算,懒得算了。
0 l7 G7 u3 c1 T8 f; i& d- e
. `" k0 T, h5 k3 J& Nhttps://api-docs.deepseek.com/quick_start/pricing
5 K# n8 C8 }, j6 [; F& d9 \, [% {2 J2 B7 u/ V; c5 d* ~( e
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
2 D( v3 t4 f8 n( m+ Z' C0 I1M TOKENS INPUT (CACHE MISS) $0.27 $0.55, j' h% l$ j1 q) J; l
1M TOKENS OUTPUT(5) $1.10 $2.19) |/ T2 A; |; L+ \7 [! Y
5 a& S V# ^" s) c7 T5, Balance+ D6 r0 D, R2 V. A
/ c, B" l s/ c, w6 A
可以在程序里调用,知道每次运行结束后,balance还剩多少。
( X5 x7 o4 h# g' a, N/ v; s参考:( E1 l) C" `* a
https://api-docs.deepseek.com/api/get-user-balance, o/ a5 ?; Y. J0 x4 ]
% g& m7 a0 V2 O5 c( k3 X" V6, Models8 e5 _4 p; W" c- F5 t4 A/ ?6 D& a
0 Q. r. D4 A2 r, `; M5 P- m! x
目前就两个
! L. h7 E/ _! e: i8 v$ K) E# deepseek-chat
2 A$ u0 F1 z6 P! ]) i: R# deepseek-reasoner! N" t, }4 f5 Z. b: W
# z1 y* y" `8 _% b: M
参考:! I# f/ V6 {( I1 t
https://api-docs.deepseek.com/api/list-models
$ b& ~) d& K5 E: K8 R: e2 v n% m: \5 ?) o
; v, G2 q. {% c
7, 问题
3 u6 H r3 B- z: P( |# I% {5 R2 @- t; r' s+ `8 D, C) s6 f
deepseek 会将前后两段合成一段。
. C6 [, o; i/ D- D, d特别是那种大量的对话的段落,deepseek会给你合成一大段。8 ^$ g8 M. p4 P% Y2 w0 h
& v4 X- J: g/ l* l8, 钱说了算。
9 ?' z$ H1 P- y& z& O
$ l( |: L+ b. zdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
( ^6 x+ A3 v& F. o- s但是API就不会出现这种情况,毕竟我们给钱了。* @/ Z. _; I$ g
chatgpt也是这样的。
/ M3 k" q- v6 v; ]4 X! o, r! g$ Z0 q
. P0 s8 J" h' P# h( K" X( l/ z
|
评分
-
查看全部评分
|