|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
9 E! l- e- c+ x7 v% H6 a4 C, M8 v( F5 e! j# Y
已经搞定.
, y! d. [, ?; o8 n' \: W7 |( W% w3 l, N% m* _: \# C5 K
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( L. K7 K# u" ?' V) A
0 ^. Q! y- O/ ~$ o
1, python + pypdf 按章节拆分小的PDF* X, K+ _) C: Z0 S3 `
( W7 d; `' e, A. x7 x2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile$ z, o3 E' Z: H2 [2 H) X7 W
: x) G8 J5 s i3 f1 S5 r
得到text file
% ]8 O* T" G. n7 a3 Q* g. x3 i" t3 {0 ?! B6 u
3, python 读取整个outputfile,丢给deepseek 矫正。
4 F5 s& {' m+ ]( [9 K8 {& Q
$ D! Q& W- r7 Q* V% K- g) v模型是 deepseek-chat% {4 T- T* B) a' M6 D2 ~* c
! h. L- H5 ]9 t4 |0 X cmax_tokens 最大是 8192,别的不用改。
& x# {: ?7 i5 I* _. a
$ d7 u+ m6 f$ r参考:* _/ [& A' C; ^/ f% K
https://api-docs.deepseek.com/api/create-chat-completion
) B3 v" B7 }% O3 ?1 w6 W0 y- n8 s* @- @6 Z
4,费用:* i( Z6 N- w4 @
( l/ r. A8 E% [- B5 S+ Z" s
实测:
7 F; z/ O4 v0 v: M" i+ }% m
& x1 T, ]5 g9 O3 ~! j6 j296K 字母,用了 9 美分。; x/ B' U6 G, p* b$ V3 q& S0 o; e
& N1 S2 h; A# R$ a
英文字母 到 token 用量大约 1/3
. Z) d* d {. E) M, p0 k E
/ L' {! W7 y6 U& \$ V2 p. v, Ptokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
) C' _# C1 B. K2 L. _
4 W5 z" |/ W& T d" q$ H32899 个字母花费 11782 tokens,包含输入输出的 tokens
/ C! W* T% y2 m) F9 J
# V: B, y4 o' @$ e1 w8 v( U: q6 y% q价钱,非常非常便宜了。. l! i6 f. r6 m
7 _9 ^9 q$ \6 L* F- t* a
参考如下可以计算,懒得算了。' D/ q" w. R/ J' d! T
- @2 h6 I; p9 {
https://api-docs.deepseek.com/quick_start/pricing
- `' O: I5 W- J O( u* S0 i
; V7 w/ ]1 e, m) ?! R( W1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
- A' D& u- q- r1M TOKENS INPUT (CACHE MISS) $0.27 $0.55) U6 b5 L+ b7 {6 ~# x: G1 C
1M TOKENS OUTPUT(5) $1.10 $2.19
$ U1 i6 Y8 ~9 U* Y: \8 p! L. l& a9 Z/ d% f3 u
5, Balance
% h: ?- _' x& W- b- q# @8 l1 A# G7 i( W- P) @0 p; V2 W& ^. _
可以在程序里调用,知道每次运行结束后,balance还剩多少。
" J# v; s% f$ P+ F参考:
* I* K0 o N* Chttps://api-docs.deepseek.com/api/get-user-balance
( m/ q- o7 f6 ]: r X: ]
& _* A, C' Q; S- }6, Models
1 \$ _# A p+ x2 |( N+ ?2 ]& ^& u ^, f+ e
目前就两个
- R: H% i0 y% ]5 q0 V& h# deepseek-chat* c$ o5 n1 T" h! A
# deepseek-reasoner
* Y0 L( l+ b+ i2 R" ^$ Q2 D" F G- O
参考:
8 e( @4 l' _0 i' v6 Qhttps://api-docs.deepseek.com/api/list-models7 Y& p1 \! Z9 c; C% G" A" D
- k; r3 L" _3 V& }, h
% j7 N$ e1 s7 \. |7, 问题
x% f+ [. h# y8 D- W
0 Y( u0 K( i1 U! }. \( A: hdeepseek 会将前后两段合成一段。. L( @) A& ~4 W, G2 {) K4 M' ]+ i
特别是那种大量的对话的段落,deepseek会给你合成一大段。" K# `+ ^$ ~( w# A& B
3 m$ J5 d0 e8 f! Y4 I# y) S% j8, 钱说了算。# ^( F9 X. U, L
. x0 G6 M5 h7 h, P8 h
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。: o; i4 t$ m# ?* T; v
但是API就不会出现这种情况,毕竟我们给钱了。+ Z- J( F5 Z+ r5 A; a
chatgpt也是这样的。6 d" o6 @+ I$ Z/ J, |
3 c0 k# }* p$ k( W$ G3 f, d6 ]
, u$ @+ `" e5 ~& M. \% ~1 q% t; G
|
评分
-
查看全部评分
|