|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 y* Y- Y1 m5 L
5 I2 c% W3 V7 u3 ^8 }已经搞定. L, f b' z& Q' t9 y1 E
* q4 m; I0 `5 S# s
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。3 d) V1 c' v) [) O
4 `' `3 @2 f* _' J! M
1, python + pypdf 按章节拆分小的PDF7 o# X* P" v0 c# C8 `; s
3 `! j G' [: v$ u4 }
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
* p& Q, ]8 ?4 n- ]% T6 o( [/ B0 x' |( H9 r
得到text file2 h: q" r" o- H* x' I0 [
) }: f" v0 E" F, p$ y$ i3, python 读取整个outputfile,丢给deepseek 矫正。
; c9 H8 R" i3 E3 ]
* k( N+ I4 G$ g# c$ k: o% V模型是 deepseek-chat3 z* H% I6 K7 t. g% N% H9 C
+ ^$ W8 ]* n$ m( r0 x( Q
max_tokens 最大是 8192,别的不用改。2 ^' t& r3 s+ O6 r9 p
6 f( a+ A; H1 H/ Y3 z
参考:
! L" n& I2 C2 uhttps://api-docs.deepseek.com/api/create-chat-completion! \/ n6 @, Z1 R* c
" b. g& |# @, v* v: m
4,费用:- L7 m6 Z+ H% j
7 w4 m) t5 e' x7 e. l. i# w实测:
* x7 B' d# }! A7 s0 R: j) j" O$ m; `! V; C
296K 字母,用了 9 美分。% y: P. `# A0 L! q2 j" ]
" S0 e" k* F/ i9 b3 a- A1 N
英文字母 到 token 用量大约 1/30 L; p4 |6 u1 }! g) ^5 y- a( z* C
% ?- }# k0 r- Y4 c) N" n. gtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
" K6 [# ~- Z+ h; n+ n: m! ]7 I$ `. w: t
32899 个字母花费 11782 tokens,包含输入输出的 tokens
- u6 N$ {& s& l, [8 C
: @- u0 V8 d, C4 b! Y价钱,非常非常便宜了。
- ]7 N% U% B( w3 N
4 c4 i1 ~6 j6 Y/ e$ n参考如下可以计算,懒得算了。5 l! t( P2 U2 G
4 Y% P, k# [: Q
https://api-docs.deepseek.com/quick_start/pricing
/ ~& K* W# G! _ ^' f6 |! l6 C0 Z" O
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.147 r/ s4 Y1 ~# V# n
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
5 Q* K1 m) Q% n! @' m6 G1M TOKENS OUTPUT(5) $1.10 $2.19
- j5 q% D5 R1 E, v. s5 F/ [1 n+ V- a1 C* A/ U
5, Balance0 m' y6 |6 L8 J5 m! A9 q$ Q1 x: D% _
( x( E# g( J9 a% K
可以在程序里调用,知道每次运行结束后,balance还剩多少。
' \. Z0 a" b3 o0 b. M& {参考:
+ u% a% T6 \( o6 t9 w, v' lhttps://api-docs.deepseek.com/api/get-user-balance; D7 `3 g& N p8 U
; E3 G8 w, s. R6, Models
5 c2 q+ e6 i% z, c% y3 M6 @
0 ~; C- k* w: ]目前就两个- P1 f: ^3 `- N4 f( @# A& {
# deepseek-chat( P) p6 J; n% y9 F
# deepseek-reasoner
2 V6 x+ a- X% |* Z- r. ]: x' E+ J$ w; l' N K# x6 S4 J
参考:0 {+ B% `% E- f7 f& x4 ^6 a. {" b
https://api-docs.deepseek.com/api/list-models
5 r% f0 b6 Q7 O+ ]
# q# }/ e% H# t+ y
3 E/ d6 d$ }9 @( ^6 N7, 问题4 u. R! u- g- {" x, H% r' T
& M3 N1 G( b. i% @deepseek 会将前后两段合成一段。8 S+ F7 \9 ?0 U1 L% r# Y
特别是那种大量的对话的段落,deepseek会给你合成一大段。
; F+ U5 S- R& G- N) m/ C$ h2 P( X' O3 Z+ \0 t! r- o
8, 钱说了算。' i0 t0 n% k: [
6 {, D! E0 t" l- o1 q
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。* |) }9 O1 o7 Y9 [9 }( {
但是API就不会出现这种情况,毕竟我们给钱了。
! X! K3 I, e7 o$ Schatgpt也是这样的。7 ~9 e+ D4 ^1 d b- w; B
+ G: }7 y$ t+ l0 X h+ n
$ `6 L- r4 F6 R% ^' |
|
评分
-
查看全部评分
|