|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
0 S7 l/ L) \; H. `$ k1 h' W3 A B4 @% P
已经搞定.
+ @- r$ R* c/ {7 N# l
- }' | g- ~: Q8 P! L* `) |' f首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( Z6 H' H4 w" T1 f y; L3 K
! d# K, L9 I- B4 `% o1 [1, python + pypdf 按章节拆分小的PDF3 D1 I) K# y- Z: k. ]7 s5 e V. v$ ~7 q
2 [ v2 |7 v# K5 o
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
6 V: V0 I2 G8 E7 z( K
, J+ o" }0 K# L) d1 V8 c. X! L得到text file
. n7 u, x3 \ W8 c3 k$ _8 W8 M
' c5 r0 W4 s( K* M& F6 Z' C3, python 读取整个outputfile,丢给deepseek 矫正。
0 A0 K+ c! P. Y. S" P; I2 d/ S8 p9 e# ]( }( `- @9 U* ~8 T: O
模型是 deepseek-chat
0 \6 e; M+ a$ y8 P% \: B3 F; }- G8 ~* x- o! O1 I0 ?
max_tokens 最大是 8192,别的不用改。: T% ]2 F' H+ N' H, G+ `
2 m1 f# _. x* W3 \6 z参考:# \3 C5 \; Q; g
https://api-docs.deepseek.com/api/create-chat-completion% L2 R1 I* c7 ^) U: t9 F8 s( _
6 s5 ~; L+ q4 G$ A/ }! u2 _4,费用:, z: P; x2 I4 [; h8 ~! a: k+ C8 p
- _6 { X+ M# r3 q3 A实测:* ]6 e$ H, D# m- a* D
2 e! N' [- W6 \& V296K 字母,用了 9 美分。9 n4 ~9 c6 x+ z g1 A9 _9 b/ H: e, {
& m4 [. A: I, m5 H8 l; A+ f英文字母 到 token 用量大约 1/3
2 c3 T/ \% H2 c3 h! |% B0 c7 a2 ~' g2 _; n
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899$ x; ^' s" Z. O9 R U+ B6 H
5 L4 _0 H6 M$ o8 b6 f# t( j8 N32899 个字母花费 11782 tokens,包含输入输出的 tokens
' N6 c2 v( L4 V; q3 x: M& G
! D8 ]8 f3 x! ^* L f价钱,非常非常便宜了。/ O7 ^) i( h9 C+ q6 s) u
4 }' ?3 N( |4 q b5 H E
参考如下可以计算,懒得算了。
+ `: v, ^, I4 q$ a; Q) Z
# ~1 B- y$ l& Y4 J5 ihttps://api-docs.deepseek.com/quick_start/pricing0 X$ w9 c$ S4 M+ C! ?, O7 L8 [1 q
9 a' _1 w6 V+ E p5 m( X8 c; E% v
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
- u, n6 q4 L; ~2 U. @- C1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
0 C' z" ]8 C p& Z$ R1M TOKENS OUTPUT(5) $1.10 $2.19
8 t9 H7 B8 n% j9 m4 R7 |* |- ?1 {; o! O3 t8 o
5, Balance! b- y8 l2 h! ?. y* o* D* g; l
* h6 P% b) o2 K0 D# C可以在程序里调用,知道每次运行结束后,balance还剩多少。
" t& a9 |3 e9 o参考:
6 p3 A2 m2 \( K* N# I7 l, m0 z3 {5 ehttps://api-docs.deepseek.com/api/get-user-balance) C# X3 E# r# i2 {7 j1 n
) o) Y Z9 T5 u+ G9 F6, Models
- K% v1 B1 ~3 d3 x
+ W, y1 x! t8 { d& T0 W目前就两个
2 x3 T# M6 b, k0 l2 [4 G# W- R# deepseek-chat
8 Q8 U; J/ ]4 n5 W) w# deepseek-reasoner
! M" K7 G. t4 V
" Z0 w, d! a+ q4 J5 A% A参考:
5 I6 N% W" G9 F( V, \* c& X4 y Mhttps://api-docs.deepseek.com/api/list-models; F7 ]. R7 i& x5 f( l
, N/ G& K( M4 ^8 y' G, s7 t
4 c/ Q. o8 G8 t# A8 J, z9 D4 e7, 问题
; z' `( J, K5 k6 O) c
# \6 ~9 S' D* i& ydeepseek 会将前后两段合成一段。
t- s0 V: v% r& L; T0 O& [8 [/ J2 y特别是那种大量的对话的段落,deepseek会给你合成一大段。
; \0 N- }8 F4 h5 z* @
7 [3 a" j$ f( ?. f8, 钱说了算。7 B; |/ S+ R, Q0 E% i6 e* s
) y! m' m8 n, l& O j m- Vdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
) Y X+ i. y$ l0 T c但是API就不会出现这种情况,毕竟我们给钱了。% @" S9 D1 V0 d) ]8 n) f, X
chatgpt也是这样的。/ L3 J9 x. F. o
/ l9 Q, h% K/ N" {* ]# k- ]
& B" C( s! g3 Q |
评分
-
查看全部评分
|