|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 o5 m$ t" o# U) v( k$ P. o
$ A- Q$ k) C7 v) }
已经搞定.
* Y: q8 |& @: I1 W2 ?, ?# G( F
7 j: V1 ?9 d/ v% e1 d首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。" p" }, o: [% N- C
7 |* D. ~+ [* t
1, python + pypdf 按章节拆分小的PDF, @* `2 [/ V0 J" {$ \0 o+ |) r
# {% p2 D% u+ y+ v0 |6 c
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
; |" {( h: a! C
, f& t$ u9 r" j: x$ |得到text file" a5 {" k% z7 g' V+ y5 l1 `
" |0 w H/ Y6 q2 G4 m Y9 W
3, python 读取整个outputfile,丢给deepseek 矫正。/ Z* e+ J$ m+ r g2 Y2 x$ h
# R0 Q3 J& k @& S- E
模型是 deepseek-chat
8 k) b4 L: o& B7 o& w9 S3 i7 A9 L
. b Q7 s0 s3 Z$ [max_tokens 最大是 8192,别的不用改。9 z) ^$ g. B* h; U$ T8 ^
4 f7 T6 D4 t! |2 {$ b9 X
参考:
& t4 ^5 d- g4 z- }; p$ Nhttps://api-docs.deepseek.com/api/create-chat-completion% L$ B) d, w3 \) {1 X
' v% Q. P( s4 k% h( E) h
4,费用:
6 ]8 k' u* M! u) @7 R% {! C" E& r; u/ `
实测:
2 Q& Z3 R1 Q& L8 A6 y. r: H( J
( y7 m, b: e1 G: U! n4 b+ \296K 字母,用了 9 美分。
. G/ e3 d/ \5 `' A# Y
- @* f' {5 c+ b n; T9 y, X英文字母 到 token 用量大约 1/3; [0 i7 ]& m. T" Y2 N
" j. r ~- I6 y
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
# ^& `# W5 ^, [2 o: n
( |; g2 P0 h/ r }32899 个字母花费 11782 tokens,包含输入输出的 tokens
6 l% |3 c& T" Q, m. ~4 \9 ]0 l+ K, `& ^7 i* N0 C) ]: C
价钱,非常非常便宜了。
: d, j$ o8 n* l9 E+ b
& w* b, x! y p! I$ V+ N5 y# E/ [* y参考如下可以计算,懒得算了。2 Z- D. T9 W1 P3 L- @; j4 C
/ p6 K) n8 `3 R+ a$ N
https://api-docs.deepseek.com/quick_start/pricing
& y" ^. l6 v$ S4 C# o
9 m+ M( H t, {2 |1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
) X, p, r) r- Y: ~8 G% H5 m3 F1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
$ E% D6 H1 l( b" B M" i6 n+ @1M TOKENS OUTPUT(5) $1.10 $2.19
( |/ }8 o. y5 y/ y/ U
% d0 i+ [1 w0 c+ P9 {8 f- `5, Balance2 E; C# [8 ~( k2 l! P N! y. r* v
i' B6 M. o2 A/ g( R- F+ z. Q k
可以在程序里调用,知道每次运行结束后,balance还剩多少。
( S( a1 X7 a2 @# G( ~# }4 \8 L参考:
# U/ @5 ?% v( P: k# Chttps://api-docs.deepseek.com/api/get-user-balance) f9 ?$ ~0 z+ Y4 z* W
0 W. }. j O9 N5 h* \; E4 u6, Models3 H8 `; t7 p* b0 B5 l
( M, A. r4 J' S, D目前就两个
4 x. S2 r+ [3 z8 I3 ?# deepseek-chat
* M, J. T6 A. b5 R3 f" ^, f4 a# deepseek-reasoner
! G1 i, Z8 z( C2 \ i0 ^$ o$ O- u7 I; ~. B
参考:
1 `3 j/ \! g2 ?) A9 s" e7 |https://api-docs.deepseek.com/api/list-models
! M8 a4 ^8 P6 m4 e! ~ c* |# J, X( ^) q% l1 y$ K- X
, s$ G% u# B- ^+ N7, 问题
+ a( @. X3 A; G% q5 j/ B
]* M2 H+ I3 Sdeepseek 会将前后两段合成一段。
, q, ]+ s/ k& Z- |6 A/ ^, P+ x特别是那种大量的对话的段落,deepseek会给你合成一大段。) p6 w7 K9 r: p$ M+ G+ \: j
/ d6 b" Q8 D5 ~9 u8, 钱说了算。
# o( g, y. S3 u l& B: g7 X) I% K( D. b4 _1 |/ r
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
L) ~! r% S: ]& G8 h3 u但是API就不会出现这种情况,毕竟我们给钱了。
; I4 L' ]( W7 x- ^chatgpt也是这样的。
/ J4 C% m4 ^0 O; j/ V3 r" n) k& `8 u6 i5 ?4 E
+ p$ X4 {* u$ K' j( ?6 Z2 J0 a t |
评分
-
查看全部评分
|