|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 + e8 }( P5 |) }* `6 }9 u8 k, ~
& m* U9 [9 ^8 B. e8 H已经搞定./ k2 i, v6 {) Y# @5 V2 _* h- u
3 y$ ?: z$ K0 U1 d
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- l1 x" p9 n4 J D! x
* o; ?) r% O- B& ~" ]
1, python + pypdf 按章节拆分小的PDF, h; C6 b& A7 B6 ] r; ~+ [
- F3 N* W+ M- e
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
/ F' i; z q6 Y9 S
+ y0 b, |* X' Q得到text file7 r( o3 `0 J/ E/ D: I0 g2 [- V
0 D/ d0 F2 [& v& Y6 _3, python 读取整个outputfile,丢给deepseek 矫正。) ?0 L* q. H7 a. U8 N& p
4 c+ z- d9 V% k8 J模型是 deepseek-chat
( G) y$ f: [" g
0 r4 _9 I, q/ k( A! U) b/ l' qmax_tokens 最大是 8192,别的不用改。5 f; G, y, G, o# Q7 k
: z) n) r9 o! s9 R+ `
参考:
3 _: Q3 {0 n( Q* x9 _$ U- Ohttps://api-docs.deepseek.com/api/create-chat-completion
8 ]+ A. ^" Z* u. n3 b6 }3 @# z( Y. z8 r
4,费用:* A0 m5 A/ x4 I
3 m2 D( `" g; A% Z- V
实测:
0 i: U" _+ Z/ N
) [" L$ X5 g" M) n. E& f$ e) |296K 字母,用了 9 美分。
+ Q |( v* G0 L+ O! A1 x, F- a
英文字母 到 token 用量大约 1/3% e0 D. Y. p( a% t( l; l
) l- i; O$ X! }+ P
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899, F* P$ c U9 h3 r/ ^
0 ~5 Y1 @7 b+ ?9 b32899 个字母花费 11782 tokens,包含输入输出的 tokens/ d! Z( G% C% p
2 y) B% ^, y3 L1 [8 Q价钱,非常非常便宜了。
! v# U- R, _ B9 k9 N- m; y* H$ d3 f" k; E7 @6 U9 A
参考如下可以计算,懒得算了。
C0 [( w' B, W* \) G) V
+ _. D n; A0 M" u9 W khttps://api-docs.deepseek.com/quick_start/pricing2 O) y+ J0 ^3 j6 ]. r" ^4 n X( U
" Q' j; A2 x% C* ?0 X" _1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14) ]. O% _- ~& B: N- E* c
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55* ]& s/ z' z. a/ G' N
1M TOKENS OUTPUT(5) $1.10 $2.19
* n+ r: @2 W# g4 E+ }/ G% t5 ^" S2 M
5, Balance
$ q* t. Q. C) }9 I& g! R2 w; y, I4 p; ?! `) F/ X2 h
可以在程序里调用,知道每次运行结束后,balance还剩多少。
e8 X, h2 t: c. r2 `6 Q( k" |( B参考:& n5 r' c5 M5 K' q
https://api-docs.deepseek.com/api/get-user-balance& V, g; y; c$ P9 T
. `+ F9 G4 I5 ]& J: f3 A5 B6, Models9 e1 j, ?; p& ]" f$ G" R+ N
9 m- v% {" ^( |8 \# }9 \9 u
目前就两个
2 k, Y! R. X/ s# deepseek-chat" J% J( l3 b7 R/ [
# deepseek-reasoner7 H* x4 N6 t% Z$ Z, g
7 Z# R* r2 b$ t! j1 t+ E6 O' C
参考:
/ j {1 h* q6 P# r: [6 J3 ]- K5 rhttps://api-docs.deepseek.com/api/list-models
1 V( u+ D( y& w+ W' T8 X [
/ q& |0 C) e4 t) Q3 `+ s- G! [0 y3 s8 K1 J- X
7, 问题
* P6 y! I8 h( A* U4 K9 {$ K0 E" ` U) G# q, E* a: g6 ~2 Q2 m
deepseek 会将前后两段合成一段。& [6 l2 j" m& ?1 A
特别是那种大量的对话的段落,deepseek会给你合成一大段。: R9 i" g; ~0 d R+ i
# d7 P( Y' h7 o7 X- v: _
8, 钱说了算。/ ^/ X" S9 k) D2 j
# h7 T0 r' R( G: X! k: U
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。) @5 k# r" K& L" R, h8 K' q" Z
但是API就不会出现这种情况,毕竟我们给钱了。
/ F3 o" f" q0 p: ]8 L" wchatgpt也是这样的。
3 j' K6 Q9 o+ C5 i2 K
2 L' q4 D. E- P2 v/ R5 P6 U; a) K1 z
& X1 y- r1 E! w6 ` |
评分
-
查看全部评分
|