|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 ; ?$ H6 A4 p; n ]6 m1 j. F
( P1 Z2 }9 @. H: i$ a \已经搞定.
7 Z7 b1 E g. p' X C% v& h' `/ c c: d$ k. I7 |6 W+ K+ L
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。& n. R6 q) m# b" v4 c
9 `8 A: j8 L7 [ G( x
1, python + pypdf 按章节拆分小的PDF
9 m8 g, T2 g, g4 Q, s/ }9 J; `+ B0 \ C+ @9 W& }
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
+ X: d: t; O4 f' Y9 u) ]- _3 p
1 Y4 K8 H0 d# B9 K- A得到text file( t. w F0 a: x0 w( _2 ^
( ]9 ?% ]7 M6 b- |7 u8 m' u+ R, k
3, python 读取整个outputfile,丢给deepseek 矫正。
0 Y: M) B ~. ~+ v2 M6 v' X
) |9 n- w6 s' u) ^! _$ Z模型是 deepseek-chat4 C8 J: a5 k" U& E0 g- Y p( }8 A
6 r2 P' Z( h* \& [/ y& q8 D! A3 Wmax_tokens 最大是 8192,别的不用改。
! d9 O& S( W+ r" T2 k6 O
( r6 ^1 e8 E$ h* v) C参考:
+ E }7 d1 l0 _7 N/ Z) b1 ?/ Shttps://api-docs.deepseek.com/api/create-chat-completion
* ^/ _+ p1 T. p% G9 e9 n2 F6 {
% \% o4 N: v3 v* ~4,费用:' X2 X8 Y. ]5 P
" Q$ `+ x4 [+ Z4 b实测:
g: J$ H: m" y( g( j( o, y, g- v9 |
296K 字母,用了 9 美分。
) M* y7 t. p6 ^2 M7 \' l. c ?; ~3 S
! O* K2 o# i4 f3 @9 d英文字母 到 token 用量大约 1/3( o, ~2 {+ }. n1 d$ g: L
+ E a3 @4 m6 x, F$ x
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
/ c9 `. h! g9 v5 `3 G7 B0 X9 E6 B% K
: @, B* D) O' m) e7 M9 }9 m32899 个字母花费 11782 tokens,包含输入输出的 tokens
- J) ^1 w3 ]3 Y: R# u5 A4 ]% I* ]$ }0 S7 M% ~2 l
价钱,非常非常便宜了。
" E ]1 Q0 f7 a- d; b/ q0 j# h& p) H
参考如下可以计算,懒得算了。
2 |2 e7 x8 D* f0 K, G' n+ N( g4 }; Y$ C
https://api-docs.deepseek.com/quick_start/pricing# I9 | K1 P" h" X+ @
' B' S) N/ {% y
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
' T1 z! X, j* {, l* C1M TOKENS INPUT (CACHE MISS) $0.27 $0.55% r4 V6 y- [8 J. h9 n3 s
1M TOKENS OUTPUT(5) $1.10 $2.19
$ R) L5 x, k: V0 t' m" |7 U% ]$ }; }, [, U$ H- g" |% {
5, Balance
4 H4 |8 v, J# ?& j. ]# K+ J, M# _) o7 [ ?" _, D
可以在程序里调用,知道每次运行结束后,balance还剩多少。
) H/ t/ K3 i5 W. q* H; G参考:2 {# j) m1 Y* ?' h" M& Z
https://api-docs.deepseek.com/api/get-user-balance7 U" ^$ l4 ~. v: k. A+ K
) h+ }; |" M' O ?. e0 ]7 ` i6, Models# f {& g1 I! V5 j- B
+ T% b7 c1 | R5 ?目前就两个3 ^0 ~" u) O& z9 B# K/ V# H; n& H
# deepseek-chat
4 A, a6 d; e: Y) @# deepseek-reasoner
. i' f2 P3 G' t% e% f' V' O: r) [) i6 g2 G7 Q- T
参考:# {& K; M/ K; |$ \7 K4 w' M
https://api-docs.deepseek.com/api/list-models
# Q- y) Y' d4 H V7 s/ `0 @' a2 b( k; ?; h. n
" _/ D: M x' @6 F% |$ s% x7, 问题
" A+ Z& C- n8 _/ _
& Y0 ]; J2 r d! ~ i6 N. {deepseek 会将前后两段合成一段。0 U8 w* X! Z2 s9 w. v4 q
特别是那种大量的对话的段落,deepseek会给你合成一大段。
6 l( J5 s x i! g+ f$ z3 U# q" ~/ G# O
8, 钱说了算。
0 e' {- ?" W( Y2 x# z! X' P+ B/ S q' H1 F7 f
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
% z7 ^5 k9 W Q4 ~# }( G5 z但是API就不会出现这种情况,毕竟我们给钱了。! C# z' r; G" C& a8 Z
chatgpt也是这样的。0 Q5 \1 g2 q$ Q* V
, F/ O! D& \5 f' h) f+ J0 p7 A9 X* y9 E' W( w8 F
|
评分
-
查看全部评分
|