|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
7 Y+ M+ G( ?+ ^ Q
! x, o& B- }2 s+ H6 l已经搞定." A; w, V$ g, S2 E
, i, F# e6 g1 w
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
$ {4 Q2 F- e. Z, D b
. ]( W3 ?: D* P, L2 m: ^/ ?1, python + pypdf 按章节拆分小的PDF5 h" y# Z- I% L$ f
6 Z" \, M( n6 }6 Z2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile: |# d/ g" ~3 b( e+ S' p2 g! t
' r- Y" n% o+ Y; I6 O* i得到text file
+ n+ d5 U7 }, v
; V6 Q5 p% |# L' Q7 b3, python 读取整个outputfile,丢给deepseek 矫正。% U$ n& s* T3 g2 V: r R
9 [1 d& ]. J! |( j' A8 q
模型是 deepseek-chat
$ U: K9 [1 E5 L# H- m# Z+ w2 g
7 E& e- @& y* p/ i( x# @# O' _max_tokens 最大是 8192,别的不用改。
/ z: O2 L% Y/ \& U
( m) n& ?! p4 g' R1 } Q参考:) [8 q/ k3 @" p2 W
https://api-docs.deepseek.com/api/create-chat-completion
l# `# q4 U8 @: k3 g9 X: Y5 ~' v5 F( }; a4 Z+ z. b
4,费用:+ {7 S7 b X! L
G W* p2 p) r0 \4 [
实测: N8 x) `4 U6 u0 D9 `" [2 x+ t
) P: W! q& T7 @# l
296K 字母,用了 9 美分。: a4 [0 x) n8 v& k# V; _# c. J0 `4 R& m
$ B# c6 V* N/ o& C0 b
英文字母 到 token 用量大约 1/3
* e" S( g9 A4 ? A, `3 w F; V- E$ H% x/ u; F& d- f
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
, J5 _9 w6 a; Q& Q1 g: Y4 @7 R/ n2 v: g9 U4 a4 p
32899 个字母花费 11782 tokens,包含输入输出的 tokens
5 t9 S( ~5 H s$ Z o
- C8 J8 D6 b3 ]9 l2 }价钱,非常非常便宜了。0 S& m C3 N1 P' V
W) e3 O) G9 m6 c$ H+ j
参考如下可以计算,懒得算了。
2 f5 W" z( n! o2 }7 s0 ]5 I# C8 q& N- E9 I7 u; `
https://api-docs.deepseek.com/quick_start/pricing5 n$ a# u) ^3 A- A- q. O: w
2 [6 @1 d5 t" R# n' T" C
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
6 ?5 h z: o4 j* E+ |9 o+ H1M TOKENS INPUT (CACHE MISS) $0.27 $0.55, c8 c! M! r) w0 E
1M TOKENS OUTPUT(5) $1.10 $2.19
* P8 C4 |1 [, F9 h8 M _$ d# t$ V9 X8 @# f
5, Balance& a" O) e) u% S2 V) U( {
- D. D5 q9 y! t4 f) a- A" v
可以在程序里调用,知道每次运行结束后,balance还剩多少。
" }, q# c' i, O参考:- Z2 j! c0 R% s7 R# I* s
https://api-docs.deepseek.com/api/get-user-balance6 Z& v' Y ?# y3 e
) ^ q+ R/ B/ t5 B
6, Models+ g" H8 m1 Y7 E% ^; ^8 Z \6 Y
7 |( V9 B! t4 @
目前就两个; ]2 }. B$ H' w8 I3 G# N4 B
# deepseek-chat
) N1 U7 T1 |, K- J# deepseek-reasoner
3 _2 i- E% z1 c& Z Y5 a$ ^- @, N% R f" P1 n% N6 G
参考:
, t3 h4 W3 ] O8 ~https://api-docs.deepseek.com/api/list-models
0 ?2 @1 }# o4 m g# z9 a; r1 w% A6 T# K7 {9 a: f
' z. q. E k, o; Q9 T1 v. p7, 问题, {4 \" ]# N* l" x. c) h$ c+ ?
: Q; K$ }; |5 R& f* S& @# m8 `' Zdeepseek 会将前后两段合成一段。
: ?9 G/ l6 u2 k6 {6 q特别是那种大量的对话的段落,deepseek会给你合成一大段。
: p6 F; [4 \( ~' \" U2 b+ S% G O. g3 S
8, 钱说了算。
5 K9 {5 e( @ }3 m. Q' H. D4 S- P! L$ C$ u& I1 Z
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
+ K( o( M5 U$ l7 x8 D' {+ ~7 \! g但是API就不会出现这种情况,毕竟我们给钱了。
, |8 \( j* \; ?chatgpt也是这样的。
& \% k9 V8 C& n$ u! a$ j+ X0 y0 }$ f& F. k1 b
$ b7 J- G: p# I: [$ ]+ X! } {4 H' E
|
评分
-
查看全部评分
|