|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
+ P# ]6 C1 p+ i7 F
0 W8 Y7 S4 B, M% m9 {4 M/ @' f已经搞定.
# I/ ]& o6 {( R6 h* V2 O
3 \, @& i8 K( x首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。( d$ D( [2 k7 t' w
/ G7 b! N9 `$ T8 ?; S1, python + pypdf 按章节拆分小的PDF
4 Y, W5 G- |: h5 F( ]' ~" M! H: Q6 k" G: Z8 q2 S M
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile' _ {( p; g* w" [
! v; q, @4 s' a/ r+ g+ M: ]4 y% R9 ]
得到text file
# o6 c' L; M2 |, K2 s' t0 @. v+ o+ v; O" q& w2 y$ T; w3 p2 z/ W& Q
3, python 读取整个outputfile,丢给deepseek 矫正。
4 f# `* \) H. M& h; @- K
; E ^* C X2 o0 E* b4 m0 o) `模型是 deepseek-chat0 @1 D- C. }2 B0 \: W( g
/ p4 e9 m% ~- f/ f" f& wmax_tokens 最大是 8192,别的不用改。
+ S- R8 x, b7 n; c" Y: T/ R. F( ~) p+ [/ Z- V
参考:
[+ W+ \; e6 x! U6 phttps://api-docs.deepseek.com/api/create-chat-completion/ s5 L3 V: ?- I: g6 i3 C6 K% p
- A, I; E& w) `7 x# g+ N: d4,费用:$ ]# O8 y+ ], y
8 l; p! e1 W g# d6 ~# N
实测:
, `8 b! J$ e: ]
. ~6 H! X; K2 r% P296K 字母,用了 9 美分。) {3 C" T: K( K+ P& q# j
7 b% k% b9 @ c- `5 P: c. ]' i英文字母 到 token 用量大约 1/3
- J4 h5 t6 b% h1 {) T) {7 j9 _5 O9 R. E; o' B
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
4 G. D; X0 U$ j, b& d* b" N
$ e2 n o3 `) h! @. ~32899 个字母花费 11782 tokens,包含输入输出的 tokens
0 s! V$ C: C2 g3 t4 {7 o9 a! o( E
: C! P! V. @- \) r& q( T1 T3 b价钱,非常非常便宜了。
. W4 o2 P* k% h- G
3 b2 b. K/ G4 k& ?# F! x9 f参考如下可以计算,懒得算了。3 I$ ^. h0 |; `1 k* }) t5 |
2 q, @) P; n6 X9 @https://api-docs.deepseek.com/quick_start/pricing" `5 O7 E2 a7 g8 t* y
. b1 n! V6 ^- j# X2 C1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14( P! L8 V. }* Z. k! i
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
9 I% P) b. h5 A; [% k5 i3 d2 i1 H1M TOKENS OUTPUT(5) $1.10 $2.19
; F/ e5 Y8 G$ N% f! ?% U8 f- m
) a6 W& g2 q6 }5, Balance
% @ K& o) Y7 _* T/ l. s4 N- R5 Y3 R2 I( W2 R+ K! ]7 w
可以在程序里调用,知道每次运行结束后,balance还剩多少。+ Z" s0 g! U6 M* |% g
参考:' U: L; W6 M0 i2 `7 e1 q6 G
https://api-docs.deepseek.com/api/get-user-balance
* c6 s0 D) F/ s
4 R! c8 D- G: P5 l0 G9 m- Y6, Models
. y' n i1 `' [- F$ s9 t% E# K( T. G; S
目前就两个
- O- S1 C- s2 s V: r# deepseek-chat; u. w+ {) g$ \' d
# deepseek-reasoner
" [* j# l9 H: l- \
9 ?, \. D+ M1 o参考:
+ B1 Q3 \" ]6 t0 bhttps://api-docs.deepseek.com/api/list-models
+ m# n6 E' q( F: W6 X. P3 g$ o2 E, [/ j4 x9 n
" a$ ~6 V7 E4 u' D
7, 问题- P8 B- f+ g' I4 N
- }5 ~6 ~& n# G! { B9 ndeepseek 会将前后两段合成一段。* n9 J) m" B7 C4 U
特别是那种大量的对话的段落,deepseek会给你合成一大段。7 O7 P: x* b- b" T( Z% Z6 E1 i3 ~. @2 ?
; x5 H, i/ ?7 J8 n+ x8, 钱说了算。
1 H0 X8 i" k: l! h8 T) i: Z& {- l8 ?
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
. I* r) K; ^4 ]* `但是API就不会出现这种情况,毕竟我们给钱了。7 j% t, h& @) U
chatgpt也是这样的。
4 o: J' s; D4 _
( l3 `1 z6 M, B
V7 a& y2 t0 P/ Z) a* v& s |
评分
-
查看全部评分
|