|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 $ P5 I7 ~) f8 x5 i' m; |) c+ a. }7 X* C
( x% D# e: a( G. b% e% b
已经搞定.
- M# T0 ]. j5 @; |
& t7 J5 X5 Y! ^) m& p, I首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
5 V$ u! d. b) R7 C3 c5 H( f' W
8 B* w/ P: M& I) Q& a1, python + pypdf 按章节拆分小的PDF9 X9 C, t/ z5 i( \
8 C7 x0 w7 ^% I" M ~3 c1 e
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
) Q; D* e5 |, d' S$ F$ N$ Y Z" s( F- r6 f
得到text file
/ ]8 p. o3 j% T$ Q3 l8 l) p# u1 k
; g& ~6 [0 h/ q6 t0 G3, python 读取整个outputfile,丢给deepseek 矫正。6 p0 V" T* P7 c; s' @: G" ?: b3 w
+ V3 O$ A1 p! @. {# m模型是 deepseek-chat
3 `) }* [/ `4 M! N9 _" V9 \. K1 A3 t& O, k
max_tokens 最大是 8192,别的不用改。
: H2 T# ]/ v1 e8 h8 v+ g4 u$ }9 j& {& N4 k. c2 H+ z) O& B/ K
参考:
0 v* e7 s6 p0 Chttps://api-docs.deepseek.com/api/create-chat-completion8 B, Q R8 `4 W
( v# l, x2 u) }1 X5 D" b9 S4,费用:
- C& i0 P9 ]. F w9 F) N& }' h( w7 u5 b( n0 D. }
实测:
2 E1 Y9 Z4 v! @, B/ o" U& g- Y/ E/ {5 ^; S. j; i& b: h" }' Q
296K 字母,用了 9 美分。
" a; X$ S) l# i1 x s0 |" |8 m/ W) z: j
英文字母 到 token 用量大约 1/3- n9 U$ y5 R6 T* ~
7 x3 v6 R3 ~% B' _3 R# A/ utokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
+ v4 L3 Z. S1 {$ L0 q( U% O
" s( \' c9 _* F5 p32899 个字母花费 11782 tokens,包含输入输出的 tokens
& J8 W2 U" V% `$ g2 r' k$ r" q f2 n& L1 _8 O9 r+ Q7 [0 ^
价钱,非常非常便宜了。
6 A8 |* V2 }7 |8 W
$ G4 c+ B) u( F% A( T" w( l6 r参考如下可以计算,懒得算了。, V9 H7 u# l y H$ n" L) h4 _, Z1 N9 X
/ k- `1 V5 |7 m: R0 t' M% E; Mhttps://api-docs.deepseek.com/quick_start/pricing. y: I9 e6 B% K( m$ P
. F N( L ]4 `8 O
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14. F" C0 E+ n9 f1 R& {5 p5 c
1M TOKENS INPUT (CACHE MISS) $0.27 $0.551 ^0 p" ?2 ~$ a" }9 v' r
1M TOKENS OUTPUT(5) $1.10 $2.19- L6 c6 y9 h5 u* a- e
3 u, r9 P# z; x0 Q
5, Balance
8 [8 B+ x4 u( s; Q' M. R
9 ^- X8 Z0 \! j4 e2 u. P& T+ M可以在程序里调用,知道每次运行结束后,balance还剩多少。
% l- P9 _2 A3 @/ G5 U* m( j& f( P参考:
8 C+ k# R4 Q6 F5 ~https://api-docs.deepseek.com/api/get-user-balance
. l0 Z& h: G) l
) | L* P7 Y* D& y. Y R6 y7 Y$ K6, Models
t% l1 G* V6 j5 P" f
: A% B0 L2 s+ Z% q# w& W( M目前就两个9 c8 T; K, t5 d5 _' f
# deepseek-chat8 {) j8 ]! t9 L& f0 i
# deepseek-reasoner
3 b6 T2 Y3 [! l! [' I2 d# y( `; E+ t x
参考:/ }. r6 G) E5 _6 M; T4 i. V$ R
https://api-docs.deepseek.com/api/list-models! I) p: T* a8 t' `9 S$ j7 \/ ]/ v
% M, K* E5 L3 ^; I' F( U, L# t
* T9 F5 N% ]5 w" ?; Q
7, 问题
O: W% {5 R- \/ z1 z" F' P1 d# |. M3 E% m, y7 E
deepseek 会将前后两段合成一段。
) P) M6 R* G3 C2 O7 f% _0 _特别是那种大量的对话的段落,deepseek会给你合成一大段。
8 A9 K: f" q( t& h6 k6 m J: B: J. v% N4 p. H2 g: _6 v
8, 钱说了算。
6 F0 G; ?; Y# W+ o5 u( Z( f) x3 _' ~ f, {/ I6 k
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。4 S* p% Y9 Z. i @# s$ I4 [
但是API就不会出现这种情况,毕竟我们给钱了。
D2 F/ f/ V( r% q+ \; O; W9 Kchatgpt也是这样的。5 q$ L+ F3 }1 K0 q1 E! w
$ ]+ k; ~& s5 p0 I$ e
7 Z( Z* D7 e1 R! v |
评分
-
查看全部评分
|