|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 n" x; n5 Y( ?
/ j: K- m- K4 x, l; M已经搞定.& P9 b6 k" t' Q' }+ j5 w1 q7 \0 F3 o# }
4 c# C8 w; R0 s+ p3 }首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
4 O# s- t0 q" Y( Z0 W& E/ l# U M2 C' R! \* R7 Z; B5 z
1, python + pypdf 按章节拆分小的PDF- t b9 T# S3 ^4 h) b1 ?5 O( o* }
6 \: g, M6 k8 S) m* J
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile4 b. \4 T& I' i9 n
_6 _, K2 d2 T/ \5 b$ f) |得到text file) @& y, v6 K* ~( V& Y# a
3 P+ D2 X+ b4 V2 ]( L) ]+ N0 ~3, python 读取整个outputfile,丢给deepseek 矫正。9 ^" w* y: L. z: D5 }0 Z L
: }6 b- f c$ u模型是 deepseek-chat. K% @$ `; B; D" q- m8 C
( l7 k3 @. z- D+ v2 d: }$ k; Wmax_tokens 最大是 8192,别的不用改。
$ Q- M4 Y8 \0 }( L
3 K3 {$ n9 t# X" r; C) ]% S参考:/ B: E( x3 a2 A* D2 Q
https://api-docs.deepseek.com/api/create-chat-completion. C' g4 ?9 Z$ s5 p; A0 v1 Z
5 n5 v- q& @( u) o9 O, b' S4,费用:# L j5 {" |, m. O# {, x
# Y) K, y. G9 C实测:
* U) I1 Q4 P$ z$ m
' P! L1 j, S$ v& Y6 ^296K 字母,用了 9 美分。7 x/ l+ K! @- U1 M, e2 t9 J1 X
! m1 i9 ^: o9 o0 M8 r# C英文字母 到 token 用量大约 1/3
9 u- g( v0 w }/ {$ n; G+ J' c- j, g! L; b
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328993 R; l$ D' C8 Q7 a" V+ b; j
# s2 p" ~6 ~# _0 j; @5 ~
32899 个字母花费 11782 tokens,包含输入输出的 tokens% X( `4 [5 d" E8 z! f. H
* e+ b! h" s0 d- O0 J6 W% i价钱,非常非常便宜了。
* N) o( n3 G5 p7 I2 j' s" \( Q/ m. A2 u1 B3 b& t. }/ ]
参考如下可以计算,懒得算了。
# A9 X( L, @, j4 P- N9 K3 a1 Q; f
; F; ?% G' d/ phttps://api-docs.deepseek.com/quick_start/pricing
- R3 Y/ q9 G, `+ o- U: y; s
, r9 B, I8 Z& [* A; D" |* p1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
$ m% W' I' O: ?1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
0 K4 s8 S% o% P+ \" W1M TOKENS OUTPUT(5) $1.10 $2.19
! @# E" F2 x7 y C$ T# \( k& }8 t0 ^: ~" I& B1 @+ h
5, Balance
% H! H" K9 o9 D1 m
) ~9 y' p4 S; f0 v可以在程序里调用,知道每次运行结束后,balance还剩多少。
: D2 t- C9 u& x3 v! ?6 `* Y6 o参考:
, P6 ? w) W3 J6 C uhttps://api-docs.deepseek.com/api/get-user-balance' {, T$ @0 P6 a) H7 _/ u
" ~3 w+ b p+ b% T
6, Models, p6 d: k. C/ a* K; @0 Q9 }
' E {! H: r! b- Q目前就两个
1 q+ O, n5 M& ?* K' i) \: Q# deepseek-chat
; A; N. | l; ]$ P+ s8 h, L# deepseek-reasoner
$ q) U4 X1 i* W/ |+ |- i' z O" V# [, Y- m- ~& O, j
参考:
5 N! e8 ^9 t2 Z3 B0 Uhttps://api-docs.deepseek.com/api/list-models- b8 p$ E, L7 w- W' b. t! z
A/ R. \0 }. @/ I
) Z" [. s6 \; G7 I4 W% C4 ~
7, 问题
3 F( U/ ]3 e q8 t4 F$ R2 N: |6 c, C5 w. ]5 h
deepseek 会将前后两段合成一段。3 y+ j+ s8 f7 w0 g. S( m) ?
特别是那种大量的对话的段落,deepseek会给你合成一大段。
3 b; p5 z. f( d+ n" U& I
# [$ x/ Q6 T# A7 O% \7 o8, 钱说了算。' \* @9 J. B8 M9 C
$ A% r% E/ ~8 X# ^
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。" |8 P" i% G% T3 P' `; t
但是API就不会出现这种情况,毕竟我们给钱了。% | [7 V2 D; t' T
chatgpt也是这样的。
3 o2 n* U- q' j N$ G' Y
! M. N9 N7 ^* h: u
, u1 L/ S6 Z( d0 U) [ |
评分
-
查看全部评分
|