|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 5 A/ N1 W5 l/ W6 C( a
& y% [/ v3 z; `" B# f0 J已经搞定.7 p1 ^' `1 B" o% @: u% J8 j) V0 G
8 f4 }/ a6 v% |- X0 o* K9 u7 q- ]首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。# h) `5 q' @1 Y6 J
: A- Z; s. O* F% t. U1, python + pypdf 按章节拆分小的PDF
2 k" o8 l% T: B0 M( V9 F3 r! Y- B- a& @$ C5 q' E# \& i
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile7 w: @# Q( s. P6 p* V6 M$ R
" F+ E/ }, W% c得到text file: c' _8 v9 L" I3 Y5 n6 }
+ n3 Y! W5 ]! E5 P0 e3, python 读取整个outputfile,丢给deepseek 矫正。
$ i8 z! u4 D- B4 x& x9 B2 Y) P X& C# u; r' n$ X. u- D# N
模型是 deepseek-chat
0 C8 s. V* a0 ^4 v, e/ L! ]# x1 @2 m5 k* G# J
max_tokens 最大是 8192,别的不用改。& }3 F8 i3 r5 h" k0 N
1 y R# ?1 D. V- `! c! Z: w
参考:8 S: G: ^: J c S& G, l: B' @7 W
https://api-docs.deepseek.com/api/create-chat-completion
3 E0 x- i' l/ c3 Q$ C
) }# |& |5 b- H0 f" q4,费用:8 ^* _2 g" }+ h9 r6 |/ e# v
; d4 Z& D/ X. [8 Z% Q7 T实测:
2 W; o7 H% ~& T5 @0 w# \( ^8 V1 y/ ~- ?# q% o! v7 o }$ g* n
296K 字母,用了 9 美分。) u- w( r2 }# U7 |" }
" w4 B% L v, V! E3 q- v英文字母 到 token 用量大约 1/3" \3 |0 k3 C3 T* L! [
- A1 M+ q" U) Y
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
. o5 F6 n' w; ^: U6 M- x* Q+ l
# g& S4 m/ T3 q: [4 X6 u9 c* p' ]32899 个字母花费 11782 tokens,包含输入输出的 tokens. R: G3 F" |$ U& @
9 Z& W# B2 `9 U) l价钱,非常非常便宜了。
. ?! i* i l/ w: H) u# x& f, O4 U' F9 s0 u0 O
参考如下可以计算,懒得算了。# u4 U' b/ f: ]
" Z2 [! I e# }7 T8 y) b1 Uhttps://api-docs.deepseek.com/quick_start/pricing! o' y4 ~# S! Y2 y" Y( `, V
) F8 n1 k7 a: B1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
4 C# _3 W9 h5 ?# p- ]1M TOKENS INPUT (CACHE MISS) $0.27 $0.55; F' W; ^4 K$ U; i
1M TOKENS OUTPUT(5) $1.10 $2.19& a! [+ `0 @) i X
" t7 `+ u: M% q7 b: g' u: ^5, Balance
5 q' E& t9 F! }6 W( }/ ]" T6 b4 E B' Z9 G6 H2 d
可以在程序里调用,知道每次运行结束后,balance还剩多少。
+ Z) Z! l, t2 f' g1 a+ B4 {参考:
/ @% G E1 Y' Q! Hhttps://api-docs.deepseek.com/api/get-user-balance
$ N! p4 I: s, { V
! `; M; T2 @2 r# y$ [3 l5 z" n1 K6, Models
# C K- g2 a9 |6 S
( Y7 p W7 S- ^5 p目前就两个
' ]0 I+ T- W& u3 `# deepseek-chat
# b. e( a. U" d7 X5 ^. E% E' Y# deepseek-reasoner
; I( V) A: W7 }0 m7 |6 _0 O$ @
8 S& |! g5 Z0 R4 w- V参考:
' ~- w9 c5 r4 zhttps://api-docs.deepseek.com/api/list-models1 O2 |; L- A$ \0 x, t( A1 n
6 b6 P. e4 F y& Z# @2 }
9 d* }. Z( k' l* s4 S7 w3 Y' O7, 问题; i: U3 f, h2 ]: I% ?6 {
( E0 D# Z6 @. Xdeepseek 会将前后两段合成一段。1 p, s# ?: h1 `2 R0 z. y6 \
特别是那种大量的对话的段落,deepseek会给你合成一大段。
4 X; D) [6 j- N. p2 l2 r+ s
' V! [: X! k1 f+ `8, 钱说了算。
0 I7 P1 j1 Q& k
) m4 y: R* M& J' Ndeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: Z( {! v& j/ j7 e9 g7 M但是API就不会出现这种情况,毕竟我们给钱了。
" F* v* ~7 y4 _# u, e' `chatgpt也是这样的。
5 U Y, {2 B+ R5 C5 ^/ Z
5 q; V: x: m) i9 l- p* J
4 W$ w% d5 p1 h+ T |
评分
-
查看全部评分
|