|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 1 E5 t8 S1 G' z+ I: T
) u- j7 y# \. X' C已经搞定.
; d. k& S: S/ L
; `0 ^9 N' d# y% G5 U" u1 e. P首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。0 s; j# i) u, Q, U+ q
/ H! Y2 o8 K; R% O; X
1, python + pypdf 按章节拆分小的PDF
5 H0 Q3 D1 b; ?: T" [# e$ H
& i/ } l) {$ M7 K2 `2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
( j# K6 b# M3 Q2 f/ T8 h3 Q2 a/ s( X4 Z
得到text file8 A7 {1 g' G6 D
+ Z% M ]3 j" V5 S
3, python 读取整个outputfile,丢给deepseek 矫正。
2 j# s3 N& l" M5 A% d, E; M9 N6 L( c7 H6 S
模型是 deepseek-chat
6 t+ ]4 q/ r1 x/ n( B. L7 p
' M& Y+ [. G" X- Tmax_tokens 最大是 8192,别的不用改。 {4 y: B" ^% @' V1 A
: e4 m; i. u, @4 _+ a- x; o
参考:" g$ M4 ^ c2 }* o. d5 y3 D
https://api-docs.deepseek.com/api/create-chat-completion' F. b1 J# t) q* P# B: H; z: W/ e9 {
& M, w* M9 K* Z* V$ U ?$ E0 p4,费用:1 V& e9 u$ ~+ O0 O+ }
0 j* k1 Y$ j; c% B# j6 L$ b( U9 l
实测:8 |/ ^: K7 ~2 [ E/ C8 j5 W0 G
, A6 ?3 D) Z: x. P n1 U$ R
296K 字母,用了 9 美分。
$ _6 b4 [3 U) V! N/ h) S/ T- X9 Y+ n2 ^! z1 Y) _
英文字母 到 token 用量大约 1/3# s! N9 N/ H* C7 ~
2 E' I& X) ^% z+ r3 Stokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
) P, ]% w4 ]' Q) Y! Z( k# {5 u) \6 P4 l9 ?5 O
32899 个字母花费 11782 tokens,包含输入输出的 tokens' [- |9 j% b2 k9 p0 ]9 Q& ~/ d
7 ?% w* Z: H1 v1 `3 D
价钱,非常非常便宜了。
2 V/ @! k$ L6 U) I+ x
* g; M1 x. Q6 ^: v3 p# D& Q8 h参考如下可以计算,懒得算了。
1 I. b5 n$ n, i# P' M, b
$ P+ q; H4 i% X1 ohttps://api-docs.deepseek.com/quick_start/pricing
3 I7 t, V Z; x# v* [6 P
- W: F" U. R4 B* z1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
# r5 v# p. |% F- R" `% h1M TOKENS INPUT (CACHE MISS) $0.27 $0.55/ p4 l! P: M& h' W1 e$ Q
1M TOKENS OUTPUT(5) $1.10 $2.19
7 o2 @! R7 Z+ e( h$ e! c! w5 e% b7 H$ S2 ~9 q$ o$ C
5, Balance
0 ]7 p' D1 q7 I( S( w% ]
8 C$ n7 @ }2 J2 Y可以在程序里调用,知道每次运行结束后,balance还剩多少。; N! B# k3 _- A8 }3 F
参考:2 ?7 G; t! d- i
https://api-docs.deepseek.com/api/get-user-balance
, U! K" T6 s a# V O( `3 Q$ W. {- Y$ ?* W
6, Models$ ]8 B6 H: \6 }! @$ d- T* o3 `
. ^3 B0 ^0 E2 w! {0 W( q
目前就两个
2 x" Q# h( _7 h6 C$ _. c: ?/ p# deepseek-chat' y4 y$ j, m# e9 p1 G
# deepseek-reasoner
$ t% a# Z6 {3 B4 L1 Q! n4 J o# S
参考:
: Z0 b( \) M: {, ghttps://api-docs.deepseek.com/api/list-models9 ~* a( r$ d* h4 F0 H8 l$ k+ @
9 v9 L" B% d4 |% [2 b
, Q+ U8 Z8 l! a
7, 问题
5 ]2 Z, t2 n0 L7 V- w& @) n- B$ [# I- N9 z1 U
deepseek 会将前后两段合成一段。
2 H6 i+ q1 l3 p( G特别是那种大量的对话的段落,deepseek会给你合成一大段。
( D: ]6 @9 B8 ~
7 Z: |& d, ?" M i7 v/ t8, 钱说了算。
/ I- ]& z$ z; |5 s/ z2 @+ z" m- |% w, j7 h; X0 J+ F; l
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
$ r/ d* o, Z. M. O1 p1 k但是API就不会出现这种情况,毕竟我们给钱了。# o3 @) p! D# ^
chatgpt也是这样的。6 z( A8 U) f9 z
8 P- Y# L+ p3 c/ d4 B9 d9 s! z! B
( s& `& ]6 `1 r+ M! g" _) E
|
评分
-
查看全部评分
|