|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
/ J/ ]7 D9 w& u9 t' r5 H! I- u. w4 P' Y' v8 }/ p8 {
已经搞定.
! v" U0 k6 p5 z& E, x. `) \: w# @
! s" o# y' }1 j l首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。- S0 b' A- [/ _3 Y# A
! ? m- X) p& {" ?0 z. Q6 z& W% M c( i
1, python + pypdf 按章节拆分小的PDF+ K h% ]- S! V( F
! _. b* p; o/ _, N2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
$ c* g8 K/ ?7 f) {5 ?6 D" v
% ]5 j: Z4 T. T得到text file; m5 v7 `3 C) m& t7 k$ R
+ @# J5 Y* U& A) s* U+ `! Z3, python 读取整个outputfile,丢给deepseek 矫正。
% s- U) n; j3 d8 `5 U; o) {5 W. H0 e$ v% l6 O
模型是 deepseek-chat
; R9 m" }* R+ C; |5 v$ s- b& B8 u T% V6 R# y
max_tokens 最大是 8192,别的不用改。
?, A) [) t7 I+ [4 H$ _9 G- @5 \- E3 z# \" _: a& E* x
参考:
% E+ e r; C Z' M+ b; A$ Rhttps://api-docs.deepseek.com/api/create-chat-completion* `! m6 p: i7 S/ B7 I
! G1 Z2 l9 P& t/ t* {& q# k" H
4,费用:
; [! `) ?, I s+ d# }) G/ h8 a$ h5 f
实测:% i) x3 |7 T% G7 @% l) V
. Z0 O7 Q+ _( C( o! x296K 字母,用了 9 美分。
7 k1 _. i7 L5 C2 e& h; s6 o( ?, u8 j/ B9 f# r+ g( o
英文字母 到 token 用量大约 1/3: y0 X x& _! Y( j% | ]2 }
( C) p- d9 n3 ~% l( ztokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
1 K/ k9 K8 u' D9 W* k
& |4 t9 o/ o9 Y1 E0 i9 r32899 个字母花费 11782 tokens,包含输入输出的 tokens9 m5 h4 R/ b0 w }) N
- x/ B6 M6 T) Y! G+ V% c7 K3 l价钱,非常非常便宜了。
5 y% P. ~ m$ J8 ~" Z# e) b, H: Q5 q& n( L
参考如下可以计算,懒得算了。5 ?5 N( ?6 I. U4 O4 R$ Z f
S" f4 P4 M) q5 w
https://api-docs.deepseek.com/quick_start/pricing
9 _2 E7 w% M1 _) B; T' h d3 B' p% c8 `) h. N$ W- |
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14) P( G( C: A- K0 Y }: M& Y
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
6 Y0 o2 A& K+ t/ [8 w# W! W& I1M TOKENS OUTPUT(5) $1.10 $2.19
& m* j" y' I5 E& h( p
& p+ Z+ Y4 |( R3 H. g5, Balance% e0 J0 r7 ]& B5 \* i, b2 E0 K. A
2 \# _6 W+ S2 q. Y' j% p; X可以在程序里调用,知道每次运行结束后,balance还剩多少。
- ^! T9 o1 N2 Z/ `8 [& S4 Q参考:
/ d) G) R/ B7 G3 {# C7 B3 [https://api-docs.deepseek.com/api/get-user-balance$ Z/ v3 H: A9 {
. }* T9 j f" v- H. J
6, Models' Q% n) ] E: \; C# y W
" b1 x1 M0 D9 K) j
目前就两个% B! n" q8 H: h' u% m% M+ ` m
# deepseek-chat
U. A# ?4 V0 }7 {# deepseek-reasoner8 o+ b4 h/ G7 y1 [6 o3 s
" E0 l* Z- `) {" n7 Z" p
参考:
/ c |. g( M# z) ^- v2 `- whttps://api-docs.deepseek.com/api/list-models
/ y. i" |# b/ z: R4 D; x
" ~0 k$ w o/ j9 z* N% {* d" v: I% X* \9 ^* z
7, 问题
/ q; N4 A+ ]2 j0 Z
% }( `3 |$ j! Z4 W+ z$ F' qdeepseek 会将前后两段合成一段。
$ Z6 |' ]6 ^. k4 C特别是那种大量的对话的段落,deepseek会给你合成一大段。
9 z* X2 f N# U$ E
3 L6 m" M3 |- F* u6 t8, 钱说了算。" Q1 ^; W; _6 `6 g* {0 k
( Z9 I W T, G) u" }# cdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( s2 o. ^$ \( k8 D1 @, M! I7 E: g
但是API就不会出现这种情况,毕竟我们给钱了。
( z y6 o0 Q- E' }chatgpt也是这样的。; @; r1 f# V# T @4 J8 u
& F. \2 `" X8 Y3 h! R
. \$ `1 \7 t# `. e x- }, k
|
评分
-
查看全部评分
|