|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 % U; G4 {6 k; R
$ V+ B& S; P6 W, u4 }; w
已经搞定.- L- F" ^: T% Q" v
; {2 [- l7 e( o& Y首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
3 q& A8 c+ |: B* n* j H# @" n
1 L/ [! G- s& d+ V9 `1, python + pypdf 按章节拆分小的PDF
; H! q/ u9 ?% l2 u5 q+ F
4 p" I; k3 x( g$ q7 T3 O6 j2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
. ]* R" l5 L8 a0 Z, j/ Q9 L6 u7 d5 c3 U8 g5 ^9 \8 t- X- E) m
得到text file: q6 O4 r; T8 J1 ?0 h b
$ G; k8 a8 V0 g5 w
3, python 读取整个outputfile,丢给deepseek 矫正。! O q: e* Q- j# t Y) G' t' x
- _, A7 J$ j) E% K
模型是 deepseek-chat4 t( C$ w! o& y
; ^' Y. l L4 q
max_tokens 最大是 8192,别的不用改。
1 T5 G/ }. I: x. Y, F
$ w* G; }) L0 B参考:
" p$ z0 O9 f' r- Ohttps://api-docs.deepseek.com/api/create-chat-completion
$ y8 ~ [2 y) F4 A# ?, `6 o
1 ]' B4 w. |( }5 G* y4,费用:
9 u. ?- T: C4 F: J0 f9 {7 _6 n: L% Y
实测:6 a7 J1 s5 _! l( J1 n5 N9 o0 s9 @
: H# l+ G) e: a* t
296K 字母,用了 9 美分。 b9 ]; T# M& r) A0 E5 J' K7 m
4 b; m1 i, e+ E1 L- q% K: m& d7 k
英文字母 到 token 用量大约 1/3/ r7 e+ x1 W1 A
- W) D$ D! g+ b
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899! I8 h0 i1 y) t4 a# p. A2 B
6 P; D! \$ S% `8 u5 n4 Z32899 个字母花费 11782 tokens,包含输入输出的 tokens
- T7 r! S5 P/ F) G
. I0 I" n _, G; Y8 ^价钱,非常非常便宜了。7 I# ?& y& S3 X) m' M' q
! X# c: @/ e! h' f; r
参考如下可以计算,懒得算了。
8 z7 t R4 G. n3 ?3 h0 |
2 V9 V- z8 X# Lhttps://api-docs.deepseek.com/quick_start/pricing
; t# c2 i9 |# H7 u. Z! n
# e8 B0 y: b& U- D1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
+ t9 ]( `# g3 u+ M: a! y) M8 c1M TOKENS INPUT (CACHE MISS) $0.27 $0.554 I9 y3 f+ U( K
1M TOKENS OUTPUT(5) $1.10 $2.19
% E/ c9 c' }$ ]& |& K/ ~) h# q; Z) `' w& ]1 A
5, Balance# j/ R- P2 g" B1 H6 R
/ @/ d! E- s* g$ ~8 Z6 D
可以在程序里调用,知道每次运行结束后,balance还剩多少。# z% \ \: \( G$ e# a
参考:' v9 A( m8 p' e. s
https://api-docs.deepseek.com/api/get-user-balance
! h4 \0 L7 a+ Y; i; F, Z" M3 S. x5 E, W$ _, ^( T
6, Models
9 w% ?3 N2 Q( f7 q+ F2 D) } E" g# ^+ s, e5 i; N+ D
目前就两个
0 \/ G4 \ ?8 R# deepseek-chat
* E4 O) `7 W/ k F: f# deepseek-reasoner
- A/ `' E: y6 K- b w; ^$ P9 T" t& w2 z, e" t% }+ c
参考:
* b# I/ H" L6 o( Yhttps://api-docs.deepseek.com/api/list-models
. Z) p9 i. E. L9 e& c, f5 z% N9 x# u/ E; |: ^, d
2 \) z2 x' `: T; f: t0 k1 X. h8 g6 O; t7, 问题+ \2 p4 J* X' M' n
" G, l: M- G0 Q% H. z# I3 t C
deepseek 会将前后两段合成一段。' {2 I h) F- p8 V" s+ R
特别是那种大量的对话的段落,deepseek会给你合成一大段。
/ L( R) O' Q2 V( {, ^4 o* I
% x' E! T, Y" ~& M" o' e8, 钱说了算。- X* [/ l6 a6 C V$ T. K& b1 c" Y8 r
! U; e- P, j1 m* Rdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
. I: |* ?$ f. B, Y+ E5 U4 e但是API就不会出现这种情况,毕竟我们给钱了。
1 ^+ Z/ T Y& X3 W* bchatgpt也是这样的。0 T0 z! ^3 M+ B( H4 X
8 B7 v3 b/ R9 L' e+ P* L$ q5 o4 K! K1 O8 V6 y9 N
|
评分
-
查看全部评分
|