|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 7 x4 c' l$ k! e1 X6 r
^9 F W E7 s6 B
已经搞定.! M6 r( Z/ r4 ~) ?0 v% ?2 B% x2 Y6 k
4 |+ {1 _" Z0 y. K, o m& ]
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
% p4 d3 M1 p1 H$ d/ a/ @: Y7 I. |- E
! @) ?3 `* l9 A8 f" J0 P1, python + pypdf 按章节拆分小的PDF
5 ]* P6 x9 I+ F [# o0 k, J
9 \/ \2 m' d9 Q2 b' y6 r- l6 g$ P2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile% ^; X3 y2 f) l: s/ C$ e1 {' X+ Y
7 A) v+ y- M. A
得到text file
C+ d- e3 R! f; f
; f: o' F) U5 {8 F$ @8 o4 c; f V/ v3, python 读取整个outputfile,丢给deepseek 矫正。
1 j2 E$ f! P. n# b0 h0 s, e. S$ e" L. }! t1 M! W
模型是 deepseek-chat
7 r8 ~6 F4 ^/ v! D0 e' f! h0 ~$ b4 Z6 y8 S3 @* t8 d, s2 `
max_tokens 最大是 8192,别的不用改。
4 R3 m, o/ Y% _8 S8 Z, T3 J8 o
6 R4 t' m4 {1 Q: j参考:- ?* L [+ ~, t
https://api-docs.deepseek.com/api/create-chat-completion
5 X& ^& ]- _" `/ l/ l" S3 g) q5 S m1 ^. W P+ a
4,费用:
) b# E% {' \1 P, U4 W9 S4 H/ q2 C+ p. f# s1 x* `+ z
实测:; ~ G6 ], D: l& | X- |
' b9 B: c( Z5 l4 q0 `9 ]1 c
296K 字母,用了 9 美分。
" j3 b) {) q* k9 U' U8 j8 d: ], s5 k4 K' `! B5 {/ E
英文字母 到 token 用量大约 1/3& E* Q7 ]5 B$ l' \ S. g5 y1 ~0 P2 E
# j# l5 N1 {/ O5 V) n- ^& O! @tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899, N) |; G& x6 w0 P' \
" M4 Y- g' Q$ G' b6 I
32899 个字母花费 11782 tokens,包含输入输出的 tokens
4 S! M( k$ f- D6 @1 ]
3 I* @0 Q3 \9 j3 A价钱,非常非常便宜了。
8 n$ M5 ~% \6 _% c; H* |" ]3 M% p/ T
参考如下可以计算,懒得算了。
" f+ e% V1 h/ r; T
8 ~1 s6 T3 f+ h" `% ?. i6 `https://api-docs.deepseek.com/quick_start/pricing( G. j) U: i( g1 V% |* H0 G2 N
" h3 K4 a" J9 j3 R- B1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.145 N+ M/ F. ^- |0 ]3 e+ X. I! H/ q. J
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
3 m t3 A' ~/ J1M TOKENS OUTPUT(5) $1.10 $2.19
0 ^5 m% |2 K2 a
$ s. ?/ V5 g! l+ Q( X( B' A5, Balance
* ]" o& p) C8 Y1 @* I% [* D% r
8 e) ?) R% I1 q$ F2 L. u( s2 {可以在程序里调用,知道每次运行结束后,balance还剩多少。6 h: @9 I* `/ {( r8 k
参考:
* y9 j8 ?% B( U9 e& h# s" \+ Xhttps://api-docs.deepseek.com/api/get-user-balance
5 _. ^8 P, Z+ g8 k5 |- y2 J
" f9 C/ t/ F, c3 l& l! W( }6, Models6 E6 l) w: k+ A2 k: T5 v7 N* k
/ R, o3 s+ K" k& P$ Q+ p
目前就两个: b0 C3 A3 _$ @% h# k
# deepseek-chat, d; a9 d4 }- t' Y$ E7 s3 P" ?
# deepseek-reasoner
[8 G' x7 t! f' c) B
8 X8 b: s# e) j& J5 P参考:
4 M& W; e/ ?) T1 S' I: h2 _# dhttps://api-docs.deepseek.com/api/list-models" A8 u7 w5 j: o; G4 r+ `. {
! |2 ?5 J/ {5 N! {" ^9 K5 ?- K4 F4 a
/ H, E/ h1 ]6 w; y2 f9 f7, 问题$ G1 n3 h" T" K9 O3 B) E/ m
# z0 H" S6 r6 ddeepseek 会将前后两段合成一段。- P* S r! T+ J. T
特别是那种大量的对话的段落,deepseek会给你合成一大段。
$ x% x8 n, j$ q, P6 I! H p# T5 W+ E0 U8 P
8, 钱说了算。
7 W) q8 E7 u* B6 `
# i5 n" H( T* v0 ddeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。9 k! u- A5 k* _+ I' g! o
但是API就不会出现这种情况,毕竟我们给钱了。
) t) ^0 B2 }% O/ b- Q" o- q* Wchatgpt也是这样的。
* X4 ^# N4 V' \
: Y* M2 H& J/ ?4 b( A; }$ W7 N6 M p3 c+ [' C' p Z% n! Y
|
评分
-
查看全部评分
|