|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 9 h9 P& B7 X/ U. y: |
+ I8 a# x8 z8 {0 y! l/ L已经搞定.0 K; F" N) L, J- X# w
4 r& t/ V0 a6 J+ Q" I首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
8 w% N1 B( i$ O) V% T! b8 S2 H: i5 Y, [/ }7 P
1, python + pypdf 按章节拆分小的PDF
8 `2 g! I5 @" h$ u6 S) e9 E
$ [: y2 R& `& |, p) V3 u5 ?4 F3 h1 [2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
4 N: b$ c p# s) E: `$ u& h
) g1 N* k& ~$ i1 Q- W4 d, `得到text file4 x# o( F; M6 x7 M: D
6 g1 I7 A8 ?7 ^& ]
3, python 读取整个outputfile,丢给deepseek 矫正。1 k; P m z3 M" n S9 r
4 e( {7 P6 _9 D$ I; ?' B5 M/ U2 @
模型是 deepseek-chat
; [! B0 x2 F0 @- j$ K' L
/ T: l, I$ S/ w; X% `max_tokens 最大是 8192,别的不用改。9 b" ~5 h3 k0 F# h; A
( y ]* C1 q% x参考:3 ^1 y8 @$ C6 j }' j" e
https://api-docs.deepseek.com/api/create-chat-completion( R4 ]% [ i) c9 v9 |/ }6 z7 Q
- U) T2 F6 M4 x' d9 T A! w
4,费用:2 A' x/ ^1 X- @" q6 O" C
9 ]/ O1 F' K! F实测:( x: A9 {' N2 E' u1 }
, X# `! C' _( p0 A8 |9 H* e* e
296K 字母,用了 9 美分。: Q$ M% x4 }1 ] K8 a9 n
, F: l" ~3 c: d1 x英文字母 到 token 用量大约 1/3* q2 \1 m J( \ X* N2 D; p, g5 t: b
6 k" {# W0 A+ U" _* s; ~tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
c l, n0 p& M2 S
+ y7 J! R* _, t6 E32899 个字母花费 11782 tokens,包含输入输出的 tokens7 @- p+ _" `& |: m. {! s
8 U0 @* e0 r! ~* I" m1 l# v
价钱,非常非常便宜了。
- \$ y4 ~: q- A
; P8 O' V# E/ V8 |参考如下可以计算,懒得算了。8 K. M3 G; n0 O/ t# C
- n% k$ M" _# l- X' F' L: }' ~
https://api-docs.deepseek.com/quick_start/pricing
- H& w: g, w' z( K. x2 M* a F
) [9 n! i$ F6 k3 _- H! |1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.148 o# h4 ~* ] q* a% ~, N. C" I( O# x i6 p
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55" A3 Y+ N1 r5 a5 V0 D$ j0 o+ x
1M TOKENS OUTPUT(5) $1.10 $2.197 m! d" N+ c6 p3 }! M% v
. S1 m, q9 g+ S8 x
5, Balance
# K ~: \9 Q6 V8 }5 e1 l
" N$ G5 K2 b& V可以在程序里调用,知道每次运行结束后,balance还剩多少。
! w% q0 r/ }; o7 R参考:
$ m* F4 b( @6 }( k0 p+ Chttps://api-docs.deepseek.com/api/get-user-balance' h0 _! O. v5 x- Q$ O7 H
4 ~ x. A7 J" f' e% w6, Models& L; k1 p0 ]2 ~$ U' L+ c& B* B' w
9 P# D/ M$ M8 f( d6 K: Q, ~
目前就两个/ L( }) z: Y: D' y: c
# deepseek-chat4 c- w- h \6 h t# D7 E5 I6 }' ^7 F V
# deepseek-reasoner
7 G! p3 [- e1 ` N. v6 i) J# U/ Z( I0 x- [
参考:5 N" ^6 h1 x; e. I; I
https://api-docs.deepseek.com/api/list-models
* L# P, m1 W# z2 x4 E+ g/ w3 L2 a: Q, S) y8 D/ c5 o" T
& \2 x9 ^( ~/ W+ a/ J: Z, X
7, 问题
- y5 A ]' }/ ~9 d9 _, n8 ]4 k; }! D7 J1 F% i2 T" x* b
deepseek 会将前后两段合成一段。
; V$ i U3 \; a8 [* o+ t* [- i特别是那种大量的对话的段落,deepseek会给你合成一大段。: K7 J; S2 l4 R1 m5 H& F7 w
$ u0 @/ {) j- Z% n# z8, 钱说了算。
' m+ K% {! L* V- p) N, i1 K0 \% i! y1 x& o3 |2 l$ i
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
7 H6 Z2 C# l, U- |但是API就不会出现这种情况,毕竟我们给钱了。
: N2 N3 s: G, d+ v0 Qchatgpt也是这样的。9 g7 t. b. ]! f, g* I
, Y. f7 o+ j* \$ x% o
! f- q2 u# B# ]/ g1 [
|
评分
-
查看全部评分
|