|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
% p9 `! Y+ k5 Q* O5 B3 p3 ^3 w
/ h4 s4 H; \2 q5 _5 B已经搞定.( n1 i- |" d5 u: z6 U- C$ V; N
( I1 P4 k- M# v6 ~
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- N. Y0 ^7 i& D: G/ K; C
) I, u% x- Y" h% E: @; I4 ]* N9 _7 Q
1, python + pypdf 按章节拆分小的PDF* |. D) X- h6 f" d1 r6 m' y
" ~; `! e# ?* _2 w! }
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile& q3 q$ i8 @ m0 c% X- D6 ]
3 M i" c: _( {2 A得到text file
5 t7 r& n4 j- t6 k8 b, p4 f) B3 H( h' {* |
3, python 读取整个outputfile,丢给deepseek 矫正。
' @+ F" t8 L& i9 V) D4 t o5 p
. r# A9 K. A; o* X* A8 v% V }模型是 deepseek-chat! p, y; j: i5 }
) \+ D, {$ a4 v- v' s3 u. r& C+ qmax_tokens 最大是 8192,别的不用改。
8 b; S+ n6 n7 X: S8 N4 {& k
3 t# s! @+ g% q6 `$ x参考:" t; i9 O6 e9 [& m8 A
https://api-docs.deepseek.com/api/create-chat-completion
) @2 k) Q! z( J$ f( l
3 b& R, o/ z/ G9 v6 p, i, o* H8 u9 M4,费用:5 h( e4 X/ s# A! X9 D7 z: M: j
$ z7 _" N+ G' X3 R) D' R$ B2 Q% U实测:
& l, ~* Y/ X6 }' ]- {% h% d2 v: N- r* t' f0 y( j' ~
296K 字母,用了 9 美分。
2 E5 x8 p6 a5 {; A/ d) p
- j8 ^5 y; h' [* ~1 x2 z0 g4 ~英文字母 到 token 用量大约 1/3/ G& ? }! z8 d/ K6 Q4 j4 E
L" A1 N# |0 m4 m: \
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
; r# N# }& s* t
$ t; G* A) A3 {& F$ B$ l6 M/ a32899 个字母花费 11782 tokens,包含输入输出的 tokens
1 s9 `) ^ S8 A: q# i/ u, j5 p( H. |& j9 v$ z2 t4 ~
价钱,非常非常便宜了。0 l& K2 F8 N2 V! D
5 J' \3 M! U- @' a" o
参考如下可以计算,懒得算了。
" ~0 Y' c+ `: F7 S! E* h! [7 O; E8 Z! K# }! J& A8 i/ A
https://api-docs.deepseek.com/quick_start/pricing- p: O2 ?. A: W: c
1 o% N5 ]( v6 `; k* H0 [
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14" a0 h7 _5 z1 K. N7 f& @( U: `
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
8 _$ O0 l' W% v; d% c- E1M TOKENS OUTPUT(5) $1.10 $2.19
& `7 p: }1 n9 c. D7 T0 }5 O/ |) U2 Z; u: S. z7 d1 M5 c U( P1 Q
5, Balance
0 O3 `$ d8 u* T+ f
/ o3 ?: s/ O% w, E5 i可以在程序里调用,知道每次运行结束后,balance还剩多少。
" I( b# g# l' z3 q9 L5 f! f8 ~参考:; u! O0 W* K; R% W
https://api-docs.deepseek.com/api/get-user-balance
5 d7 P5 z( C5 d: O. ?( H, h' K* _4 E7 i5 D8 I/ M) V
6, Models
' w, n! @: f0 ^* v5 n* @$ T5 }, C, j# m c7 c3 [7 ?
目前就两个
! w1 ?1 @6 a& y) i7 N, c4 m# deepseek-chat
" f, g8 z# m& z$ ?. i# deepseek-reasoner
( I* M) D' ]( o" H! e: B9 S, F0 J( k3 R9 O' ]* y' D
参考:: P2 R% b: ]/ P3 u
https://api-docs.deepseek.com/api/list-models
8 V' L2 N7 ^* c, e" a
* ~) I6 V6 U0 G: I# R
6 M6 ]! i& F7 r) u: g7, 问题
+ q$ X- a6 D/ \( W: k9 c, j
5 K; R. G; X2 rdeepseek 会将前后两段合成一段。
! S X; }& d: i6 X8 C+ p5 z" \特别是那种大量的对话的段落,deepseek会给你合成一大段。- W/ A9 f! b. Y! z8 h4 |
. V3 J" Z- s3 ~' |, ]
8, 钱说了算。
; i5 p0 D* V4 `9 c8 [0 F o( X, A9 m' {, c
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
! K9 l$ {8 g8 h- s但是API就不会出现这种情况,毕竟我们给钱了。
# m, x1 h) i1 Y6 B7 i% }chatgpt也是这样的。1 ?6 c% u3 [$ c9 ^: o
5 a4 |# L* U) r, h' C, A, f8 E
& j% o+ K4 s2 v5 u& p |
评分
-
查看全部评分
|