|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
# M3 f; y7 ]% a# v# G- ^3 [7 u! V$ P- e! A
已经搞定.8 }# I# {" K3 ?, G" m
: |; C% G; s" i. h首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。6 {: v8 Q: n9 p9 i% l) Y
8 t" P1 C" u5 K/ t
1, python + pypdf 按章节拆分小的PDF
. o7 [) s9 O. P4 y
1 T2 X. I. H- V: Z% Y2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile. H) C# @: L4 U: l4 f; u W
/ j; t% w: q- t* W' @+ a2 ~得到text file
- N1 u+ J# K9 l. [5 @0 }1 Q. a: T7 h
3, python 读取整个outputfile,丢给deepseek 矫正。
. o9 U$ M7 R! m K
$ u' ~8 |+ o1 O+ K7 \& e& r模型是 deepseek-chat8 ?1 G& O# ~% [0 q
: N" G6 ?/ L& }, F0 L9 S# s
max_tokens 最大是 8192,别的不用改。+ K& d4 H2 x8 B7 h
: l( T, k& Q H$ E7 S: r" M# a9 ?# m3 W参考:" w' _, k; V r
https://api-docs.deepseek.com/api/create-chat-completion
5 M/ b% D! N3 G
2 l6 N/ l* @6 l: d' u( b2 n4,费用:
' _. ]9 d$ q9 f# |* K4 H" [0 `7 j; v% K# P8 f8 Q9 L
实测:
/ t9 t. ?8 e" ^( E5 c+ f/ @0 T7 _& _+ y0 o; g6 J1 ]" v" i$ a0 ^' u& x* n
296K 字母,用了 9 美分。5 G0 {- u. T4 \$ i
* T4 X+ b3 w7 @1 ~5 B
英文字母 到 token 用量大约 1/3
! z* p3 }" g$ a+ y l' ^9 u
+ g* H+ [1 I, ^" Z) P/ y0 h6 j4 Ytokens: total, 11782 completion, 3729 prompt, 8053 | s: 328993 w3 k! W2 x; H* j& |
; e' L' d% M+ f" b& v32899 个字母花费 11782 tokens,包含输入输出的 tokens- b2 K. C5 J. _2 f
& x/ k* B* R% Z. V& c: w/ T价钱,非常非常便宜了。4 J& p+ Z) k- ^2 h4 A& e* _! D
( b7 t1 y7 r, ~9 c
参考如下可以计算,懒得算了。
" [3 Q7 v1 s C5 l+ S* H% X5 g. ~6 p! \* U
https://api-docs.deepseek.com/quick_start/pricing( D% T$ l0 Z# h
3 C9 m( N9 V' ~1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.145 U& h* p+ }2 j# A9 F# V
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
6 j* d& h8 \3 m! I: Y5 _ {1M TOKENS OUTPUT(5) $1.10 $2.19; B$ b3 W9 M& ]$ @& u' \
: w- d2 S, v: `" @: U4 p P
5, Balance
) J0 H" \# c6 L+ }- g* ^/ b
4 A( r; K4 W: `) t& F( G; Z可以在程序里调用,知道每次运行结束后,balance还剩多少。
, u6 N/ }6 n' q参考:
, D4 N! F. i9 k8 o, Xhttps://api-docs.deepseek.com/api/get-user-balance1 ?. H) ]3 ^* g0 o& B
' L5 b' A/ B7 K& \8 L' u& K6, Models
, p, m- c H3 D. c( _& Z- O* V/ t6 }, s: q
目前就两个
e3 _" H7 r0 q8 E2 s- I# deepseek-chat
7 ]. K1 Y, a8 e1 G [" I5 U# deepseek-reasoner
4 z: K# L% v! V! Q2 G& \
6 [( D! y3 P6 X1 _2 ]* ]参考:
6 P9 i1 v6 ]# o' j3 w, ^9 f% ehttps://api-docs.deepseek.com/api/list-models
! f- Q6 v# l. @0 Y# m8 z7 B5 L% C% N9 I; o1 S' D2 S
% ?. h1 v \* P) h4 V- j+ I9 o6 A7, 问题
) Y' c" c2 y4 A, o; X
! R7 N" ^! z8 ?" n" Pdeepseek 会将前后两段合成一段。5 E# c2 K. R$ B K, y
特别是那种大量的对话的段落,deepseek会给你合成一大段。
: u2 s5 K" J4 G3 n4 C2 k3 H. T, P; `
9 z% x" T0 R7 a8, 钱说了算。
. Z1 `/ I2 r$ i0 ~* M! Q: k4 o5 g% x
% m* v+ p. o, L9 Kdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( Y' ]1 f8 y- @; L: N2 P3 }
但是API就不会出现这种情况,毕竟我们给钱了。
8 i" d0 L: U8 \+ O' Xchatgpt也是这样的。
) w$ \' S4 g i# S( k
# I9 I* O7 t! S2 N3 Z3 N h& E& N2 ~
|
评分
-
查看全部评分
|