|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 , X: E- X, p9 ~ y! m% \& t ^$ |, y
2 V0 q" N4 Q5 x8 V) e2 I# @已经搞定.
- j# ~2 F9 y: M! ?1 g0 p: T7 d
0 m. U5 A+ `& s {) k5 G5 o首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。1 X$ `9 n1 Y$ M: m; c+ x0 H1 ~. j( X
/ B$ ?" u {3 m4 i7 }
1, python + pypdf 按章节拆分小的PDF/ B& R* o* Y& \+ |& k8 Q4 {
% E, A/ f6 t. v/ U# W2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
( U2 [: x3 q, o; {, e
+ z" c( O6 G% s# U# S得到text file
4 y# I3 ^6 c4 ]! J3 A) Z$ m; c6 T: M# A: f
3, python 读取整个outputfile,丢给deepseek 矫正。6 M+ S* V4 K r4 R2 F9 T
2 b& `( q+ U( K/ d
模型是 deepseek-chat
' { ^6 s% C B# I- j7 j
1 k9 v4 ^" Q" u! c/ \2 x" tmax_tokens 最大是 8192,别的不用改。
4 e W! q+ N* }0 L4 _- F$ s$ a. M1 d$ p3 @+ Z
参考:& W8 R# Y% d. ?& o
https://api-docs.deepseek.com/api/create-chat-completion
0 H$ D% Q, `7 I* p) s `/ z0 {+ E9 T5 I
4,费用:9 K: a( ?' l" l+ f9 W
; a" L) R# Z% X* j1 B
实测:
& o9 g& _/ d: G( E
) D6 v! ]+ `3 w% b296K 字母,用了 9 美分。
# z3 T# v) w8 S5 f2 ?( x
) G; d4 g8 v7 W$ P3 T英文字母 到 token 用量大约 1/3: p$ D6 c" C. R4 M3 E- [
D+ Y) ]. s" M1 _0 K. Itokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
^4 v' u# Y) T& T3 @2 E& D: z3 P
9 _9 ^4 Q% X9 D+ R( I- E* E9 Z" ~32899 个字母花费 11782 tokens,包含输入输出的 tokens
$ E/ g; B1 i7 B2 i [# s0 R% C8 h3 D4 A) j5 S9 d3 @
价钱,非常非常便宜了。
) t9 ?/ B7 [& K# V9 b. p0 Q$ z" W5 E2 @. U3 q
参考如下可以计算,懒得算了。
) B+ X h: v) E8 _0 S6 l- N
& @6 `* H" n* e$ ~https://api-docs.deepseek.com/quick_start/pricing, ~" |* q* A( V/ a* m6 ?) P9 v
$ {9 B' N J$ N) x3 ~& j) Q
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
- Y' s; [ W# a& [2 M# u1 w1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
% t8 r8 a: M2 P7 Q/ Q# T1 {0 Y; @# ~" E1M TOKENS OUTPUT(5) $1.10 $2.19
1 c2 F4 `( g) t0 J; N# C" @0 y$ t9 g2 r: @2 a
5, Balance+ \* q1 q, x; T# G& G% W
' B8 U4 V+ X9 @ F+ @8 c) |可以在程序里调用,知道每次运行结束后,balance还剩多少。! J8 p) A. ~0 f8 d' y
参考:
8 o# m% Y5 [) `https://api-docs.deepseek.com/api/get-user-balance
( i5 [2 k P7 ]5 e6 \; g
& R# H, z' R: }+ P) v- s6, Models! n4 X8 L; F: R0 @8 B
* Y1 s: S9 e7 O
目前就两个
2 Q/ X: f; a1 R+ }. j2 I# deepseek-chat4 e3 O& k1 N. v& ]6 [
# deepseek-reasoner
) i( ]- L+ A' ?; ?2 w$ c
& D- w: z+ `, f参考:
: q' A* h! Y. ~% v+ \1 E8 rhttps://api-docs.deepseek.com/api/list-models# K4 ?; a0 {, t
. S* q. Z5 S! U$ U$ o' p1 }2 l$ v5 J
: t7 T6 X/ S9 ]7 K6 H8 Q7, 问题
, g: l! K$ Z6 A: P: |9 j: `
; j+ j5 S6 y; Ideepseek 会将前后两段合成一段。; }2 O8 }8 l/ p' S# o. k
特别是那种大量的对话的段落,deepseek会给你合成一大段。
" c; L/ D# A3 R6 ~# A( M6 E. K/ r1 V$ j8 ^! u; c* A4 t
8, 钱说了算。
& Y) x. r" B4 ]$ d2 N% r4 Z
+ L: U# _6 }# |5 ]deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: B+ g# r+ Q5 b! o但是API就不会出现这种情况,毕竟我们给钱了。
! t5 b) _7 b5 L' R3 `+ ichatgpt也是这样的。. G4 E5 W4 q7 G& g6 W7 B# w
% R* d% H9 V1 D
* o% d, f- R. Y, n |
评分
-
查看全部评分
|