|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 3 l: `+ o2 ]2 P* T% z9 {' u! }
: n! a3 y* L, j# A
已经搞定.0 v3 h! I' M" j6 ?/ F" u
3 F8 S; X. Q6 t, w; M! _6 h首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
) n, s, h/ T7 p5 v, D- F& M8 R. x, W5 p+ L! f+ J/ N
1, python + pypdf 按章节拆分小的PDF
" ^3 U2 m# c/ L" f, o# C; @/ m2 p( U" U% \
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
, E2 J, V" l6 x; S
$ b$ n2 d- O% u( J/ B3 M8 S得到text file
4 Z9 p0 ?" l3 |4 W1 w+ `9 A! v, z8 N: b
3, python 读取整个outputfile,丢给deepseek 矫正。
9 S0 b) V/ m1 W* f- @, x; [: |5 F0 k1 T( |( v
模型是 deepseek-chat
4 u+ @4 C* d! b% }. |+ _3 B1 [- G& H4 Y' T( H
max_tokens 最大是 8192,别的不用改。; v5 V; o4 C: e1 |" j( ]8 I
}8 G- }! U; c3 ? }参考:
. C" ?' Q" T& s8 t% Q* @+ F; Khttps://api-docs.deepseek.com/api/create-chat-completion
- H' ]) n- L6 s
' d! n+ n2 Z1 f# c, [4,费用:% l3 Y! H5 y1 w* B
5 S7 }. m9 o4 s( z) z实测:
3 S6 m8 V) w, M( [% H3 V+ S8 g/ y+ e E/ M( I5 a
296K 字母,用了 9 美分。
) J1 t1 o7 L6 g/ v; M" k' Y
- S2 _" c. K+ I/ `3 P. Y英文字母 到 token 用量大约 1/38 b) ^ C* `. w' |8 @
( A5 {2 P! S. Q3 G6 k; k- ^
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
1 a4 c& `6 c- c1 [8 h2 ` A6 c5 n4 f% E9 r
32899 个字母花费 11782 tokens,包含输入输出的 tokens% \5 y9 C( o" c/ [( ~1 s8 F" U* N
5 b/ O1 r% ~! R) [+ @5 Z& f' o
价钱,非常非常便宜了。5 x: e" @# ~+ F9 {. c3 ? q" D
$ m2 k2 K1 ?. Z
参考如下可以计算,懒得算了。7 B1 k4 v0 n% p) O. B# ]3 U' R
6 _( R/ f( v/ [5 }; g
https://api-docs.deepseek.com/quick_start/pricing
- m- z$ S- b3 z/ r: H! t6 I% A; \6 v7 R1 U$ l' F" l( _* i( k* f
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
* v. o/ n8 _- G1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
- Y, r) R p; C5 A( q( U0 O- H3 B1M TOKENS OUTPUT(5) $1.10 $2.19& B1 u! f/ j6 e9 t' x
/ d0 J' K! F& l5, Balance8 H# i- Q+ U! j; A+ Z$ }
* {' u/ X" F6 ?6 l' k可以在程序里调用,知道每次运行结束后,balance还剩多少。
) m. f5 P2 H& A" p# q6 `参考:
" z u( F+ h7 F" ^" v1 ]https://api-docs.deepseek.com/api/get-user-balance2 p+ d1 J- M/ l5 X
: \) r! Q/ A3 i$ o; e' A( t6, Models4 X* M! b" I c" d( R' j+ I% F
/ y8 e- ^1 M% E1 Q2 w, q
目前就两个* @# c: t% H5 |2 I$ _
# deepseek-chat) U6 y, q. v; m3 y
# deepseek-reasoner
; K& f2 ]8 Z3 J; F. k' E, F7 Y8 _* `
参考:( ~# ?3 w6 s {, ]' V
https://api-docs.deepseek.com/api/list-models
5 F; K- ~0 J! ^1 c/ `4 [3 u, f* W. Y% g) N/ z9 W/ H& v' l
7 }1 d( c* O: ?- G: _. _7, 问题
% @: w) K% b7 |0 T* X( m' f! Y" D: d2 x) }+ V8 x
deepseek 会将前后两段合成一段。0 N9 H3 f* a5 _! c- H# B7 W6 n, G
特别是那种大量的对话的段落,deepseek会给你合成一大段。0 g& @0 Q, z4 w& V
/ W. {. S# P: K. `- @0 p y5 p
8, 钱说了算。( q5 t6 a" H- p% c* d& c8 p
& e; J2 M) t6 q' A% ~6 Ldeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。5 `) E3 \3 k3 m
但是API就不会出现这种情况,毕竟我们给钱了。
+ V; y! ]( c' s( n' b2 tchatgpt也是这样的。! d4 H5 I |) g1 a( `1 b& e+ r1 f
% ?3 p" {/ o% u! e8 E5 a2 I( t1 v0 G3 M9 c9 L* W2 {
|
评分
-
查看全部评分
|