|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 : @; K) U" Y& B
u4 a8 R6 T7 _- j [
已经搞定.1 j# [+ v% C5 _' \9 W: L
4 F, l; l9 b3 E! i: K- _
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。1 \2 L$ z* c" L5 v
( n/ r3 J) N* ~1 t& x1, python + pypdf 按章节拆分小的PDF1 C4 `; F+ o! j
1 p8 A) R' a# m8 g
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
7 j, }, N7 A( T% x1 j3 O$ L2 Q9 J3 E- L: P1 y L ?9 t
得到text file
) Z8 Y" F5 p- T( H8 e* I* I- x5 h" _2 @2 R3 F
3, python 读取整个outputfile,丢给deepseek 矫正。
; T1 E2 \. ~5 q! t0 y3 W
" _9 M0 k4 L4 p, _" M模型是 deepseek-chat/ e% f ?( j; q2 r" }& G& B
6 @: P) g* c) d! ~1 P/ H6 J
max_tokens 最大是 8192,别的不用改。/ S! { R, }6 U
, Z w$ Q3 e' C# V
参考:
" r& X/ W) _, j9 O" Mhttps://api-docs.deepseek.com/api/create-chat-completion
6 z' K0 f& C+ u# V9 C: ?
7 ~4 s: A4 a5 Q8 C; k4,费用:, g. ^% A& r: H
! u+ v6 y! c3 Q+ [% x) w- P6 t实测:
. p% _3 I6 j/ A% r7 d
/ L1 I4 z$ J" @296K 字母,用了 9 美分。% c# d( \7 W: r' ?/ j7 Z( g
5 b. _8 v: F/ c) v. O6 M4 }" }英文字母 到 token 用量大约 1/3' G h) u5 p% ^5 u3 a7 B: p v4 M: \
b |0 e( R# g! d( i' p4 x1 m+ z
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
% O. q! |7 c; f. S% D) E k/ a* ~! Y% M/ x1 A7 q
32899 个字母花费 11782 tokens,包含输入输出的 tokens
% Z+ }# k% U# s" E* F& V: L
: h- W3 y$ D- u! D价钱,非常非常便宜了。
& z# v6 E2 M% M9 f% j$ x1 E
- t6 \( I; e4 [4 Z' u参考如下可以计算,懒得算了。+ \- F1 H, H1 H% |0 l+ a$ O! ]( T3 }! \; f
* P5 X2 s S: r4 thttps://api-docs.deepseek.com/quick_start/pricing
- v5 K- F( V9 @) {& i
. R# z# }; c/ b8 I; U; P1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.149 I$ \; j% J- \5 b3 h0 t
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
, c& J/ n1 E) W; w1M TOKENS OUTPUT(5) $1.10 $2.19% j+ U7 J Y; K6 B
, n- d1 ?+ {+ y1 ?) p5, Balance
7 b: M5 [! W' e) a
6 g6 Q3 e1 _5 Y2 A; C( w) ]可以在程序里调用,知道每次运行结束后,balance还剩多少。) e- q [% f5 M1 _ g9 f2 s5 T! f0 b
参考:$ @$ P+ a b. n7 G' S) ?& v
https://api-docs.deepseek.com/api/get-user-balance2 @% L/ N- ~0 Y$ N
# @; |2 p$ `6 }! q4 }) f
6, Models$ l; p! X7 n+ I' j+ w' B" Y
, d. B- V+ o; F6 b) J目前就两个0 r, n6 V, q. \1 @; q; H& w
# deepseek-chat+ R7 F# S- H8 [
# deepseek-reasoner
' g! r. e0 A1 f5 B! ~* r8 Q, A2 I9 I" Q& S2 D5 F2 {
参考:
4 m9 ? V |% J: k P5 O+ M6 _9 u# r: ^https://api-docs.deepseek.com/api/list-models0 U+ f5 s% s) C6 g* i
5 }" i. r* @3 c) Y! G6 l. u% k, |4 U* x% K
7, 问题
1 i2 A/ I R% E7 C# i) [4 p
# n" n4 O5 Y0 s* Tdeepseek 会将前后两段合成一段。0 s4 \$ }7 k( R ~1 J1 W# j1 `
特别是那种大量的对话的段落,deepseek会给你合成一大段。/ F. ?' ~* J$ T& X) y4 }) ^" q( B+ K. F
: g! v* M% s) q3 N1 _& ]8, 钱说了算。; l4 k3 u; b/ {- @5 W$ _
+ J# E/ o6 O# @7 z# ydeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。' t ^ u/ C# v. G1 D/ a p& G
但是API就不会出现这种情况,毕竟我们给钱了。* m) z/ {+ D {" ~
chatgpt也是这样的。, |6 u; |$ N1 X2 T1 h* i
4 g9 A3 S7 m9 [9 K) T. Y
" \2 I. B# M! O6 _3 P |
评分
-
查看全部评分
|