|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 & T0 n$ S% e2 b+ P
" a1 _* c/ |2 L3 R! A+ F% y已经搞定.
9 F1 \& C( u- L
/ c( P5 M" u% e& z: e首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
8 K+ k3 U+ d' Y" Q/ N. C! K) x) d) i6 l- U2 k7 }
1, python + pypdf 按章节拆分小的PDF
( ?& N: e& s' ]+ m% Z2 u* n# q {& E; C- [. P9 y$ g
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile. v0 _2 M, i1 a4 v3 D% s1 r4 ?
5 `- r( F& n0 u& {* L得到text file
- b4 I3 e& F3 a7 x; Z- J- @6 `7 _! R
3 @# Z8 ]9 }* T3 K9 R3, python 读取整个outputfile,丢给deepseek 矫正。# i+ F/ {2 p _: ~
0 ~3 G4 b& N" o T4 P% Q模型是 deepseek-chat) }7 N3 y0 s# n5 \' y
5 ?/ [1 J9 N- Q: L& C! ^, Y
max_tokens 最大是 8192,别的不用改。$ e' B. f. L' R$ \
4 I- ]* q9 I3 ^, N1 D0 w
参考:
4 t7 U( c) S# S4 [https://api-docs.deepseek.com/api/create-chat-completion7 I. u; i5 T+ A% ?/ V
$ F6 X0 `. M; d" a/ }. Y
4,费用: F2 f: \5 t8 H ]7 T [
9 E$ J( G4 k/ O6 G" _6 Z4 z
实测:
- I' a) R, i, s. U, l' G! J" u1 c- @ w! X
296K 字母,用了 9 美分。
; l( R) h, V5 d, \$ Y
B: a' Y- ]0 _英文字母 到 token 用量大约 1/3( Y! [. R6 c# [" J+ a$ v
9 i3 C3 g# u, {; v) }: s/ ], I% A& Qtokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899( g( I8 a, _9 P8 w2 T) g- e
5 |8 W6 d. B: L2 G V32899 个字母花费 11782 tokens,包含输入输出的 tokens
, c; o L3 @8 c0 z7 ]7 W9 d7 I
" e0 ~- C2 y) t% s3 U( v t3 }价钱,非常非常便宜了。9 Q+ t5 I2 S" W3 j+ B7 e0 d
- J7 t6 p" W4 Z
参考如下可以计算,懒得算了。
; w: A& e* s; U1 r8 v! {1 ~) Q& \
5 b9 n" J+ O. k2 A5 t: H! I4 s7 ?$ Jhttps://api-docs.deepseek.com/quick_start/pricing( Y- ?- Y" \$ B
3 Y; Q$ Q4 g9 ]) M
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14% Z$ w# y$ L; Y3 j3 W
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55" ]% K& g* f" d
1M TOKENS OUTPUT(5) $1.10 $2.19
4 `. L7 }+ f+ o3 q4 S0 n6 D. K! H& k& o
5, Balance
1 h; G6 H) S# E }2 n: H$ E& c
: ?9 z% v0 P; c. q可以在程序里调用,知道每次运行结束后,balance还剩多少。
& `; @. {6 ^0 P+ E6 V+ D/ p; R* {# m1 p参考:
5 Z8 t! T- L3 F5 e7 hhttps://api-docs.deepseek.com/api/get-user-balance! _0 m& Z4 Z" }- Y- o
# C# [/ L, l* d9 O9 P6, Models8 c# Z' K: x+ x7 J) X) U
* O2 b* I: s/ _! r5 _% m7 F目前就两个 x0 l3 w" T; o9 t% L, z \
# deepseek-chat2 o& K$ L" U" p" B
# deepseek-reasoner$ |; o$ C+ q% l: I. a
, v; V% A6 T8 B
参考:
8 X ~' e, l; m7 Q8 Nhttps://api-docs.deepseek.com/api/list-models" w7 p! j7 L6 n* u: G1 f
1 W- [4 F( u" n2 p2 v
3 X# B# y+ E( j/ z% M0 q( I* F7, 问题
% Q' e" w( x9 w* L
. c5 X0 f9 d" y e; mdeepseek 会将前后两段合成一段。
8 C! T) Q+ L7 o/ x9 J ]9 D7 O特别是那种大量的对话的段落,deepseek会给你合成一大段。) V2 `) \0 n: m! R9 E' _
' C7 |% I, o$ ~( y" k8, 钱说了算。, Q) e( [% @, G8 c+ C! B/ _( b: D$ j- P
# ?! \7 i0 g2 I# @. h3 ideepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
1 E/ Q% h, ?; T$ t$ A9 C' U但是API就不会出现这种情况,毕竟我们给钱了。4 g0 r, P7 m2 k4 M
chatgpt也是这样的。$ W8 n* W- a% C% G$ Q4 \9 W! g
: ] t; M, l, G& w$ w, V
i5 T# n" m5 @ |
评分
-
查看全部评分
|