|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
9 b7 K8 z+ h. i ?; Q) p5 B% Z0 q: [+ z. T T( O+ H" k( X
已经搞定.& I& V4 {5 n0 }; o1 |; \
: `6 s0 q) t' g) v2 k
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
. I& a0 y4 |* T# [; G3 Q; }/ p5 \% G) ^0 I% f; F6 O
1, python + pypdf 按章节拆分小的PDF
* B, S# e j) p; d" K$ o. {1 V. v: D( \8 y J& E
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
1 ~$ |) V w8 r) M- ~! j
4 L# q0 F& U; y( r$ x/ L$ H得到text file
( H6 Q) [; Z7 V' d
8 t1 ^, w9 y% G+ {3, python 读取整个outputfile,丢给deepseek 矫正。
; e$ @; F; X5 J6 q" l( D& C6 M$ d" c- S$ e% s
模型是 deepseek-chat' X9 |1 Q6 K4 e& M
6 L# F: n6 [$ Jmax_tokens 最大是 8192,别的不用改。' h+ p/ ~: S6 [2 s& G4 H
- {! _( i1 X% f9 F' V6 R- U参考:
3 z% }; M* z5 fhttps://api-docs.deepseek.com/api/create-chat-completion: S/ O$ B5 q$ W, b: o+ k# r0 ^, \
, Y: T) f2 `: i4,费用:
P C- L; \1 A1 M) P
* |3 B A' n% q& q: i J( Q实测:8 S3 ^: K3 p- [4 c
0 D \! p$ J8 @5 ]" \296K 字母,用了 9 美分。 ]& ^: O" O L2 U/ Z: Y; F
+ s# E6 |& _: L. H2 p; d' F# n4 b% _
英文字母 到 token 用量大约 1/3+ _, e9 e0 @& e
. `4 l% q$ f5 ]
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
: O. B' d& `& J; D# y. a& u3 U
6 G" @; q/ @& ?. C5 }32899 个字母花费 11782 tokens,包含输入输出的 tokens
" h1 J+ W- Z( }6 w9 F9 j9 m! ^- ?9 W1 U" N9 Q0 C+ v1 c' i
价钱,非常非常便宜了。
8 C1 J$ v* D" f- V1 S# a! q3 l& D1 G( l. ~ O3 Y9 m* _4 S6 G
参考如下可以计算,懒得算了。7 S* `2 W; z9 x3 N
7 b4 a3 b& R8 B) Q+ v" E
https://api-docs.deepseek.com/quick_start/pricing
% }/ S! \/ i$ V2 H7 m# M1 @4 r1 l) m$ G5 I7 F$ Y f$ Q
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.149 m/ J1 k* p4 `5 u9 [3 _7 ~
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55" Q, u5 n6 B3 g0 Q4 m9 I
1M TOKENS OUTPUT(5) $1.10 $2.191 I9 k' {9 j$ z. @$ e' }
$ x& @4 X; _: M' I3 v" u% K9 G5, Balance
, ]. H _) p i/ D" c2 [
6 t, ~6 A% E/ @6 A) Q可以在程序里调用,知道每次运行结束后,balance还剩多少。) Q7 M7 d( ~) T) k7 n1 }
参考:) p0 c3 ]* e3 B/ \; J5 r. X
https://api-docs.deepseek.com/api/get-user-balance. j& E0 X- l5 T/ X5 o" ^0 D* O+ }
8 B5 t- k7 x6 E3 U3 w( l6, Models3 ?$ C# I9 G# n% v2 a) w
. Z* _. K/ ~2 I& C6 t# A
目前就两个
& o1 w: y8 O& Y( n; e" z6 k# deepseek-chat
j. c8 \ s7 y+ F* b# deepseek-reasoner
' k, y3 }2 U% c
. k7 Y `: c4 [2 K参考:
5 |: H; D+ o, B/ S9 N/ _* e5 a2 k& Ehttps://api-docs.deepseek.com/api/list-models1 c* ]# C/ [+ Y$ [2 K
4 _ }( b! a% a E& p9 @2 x7 M, y1 S% X
7, 问题" S% G6 }, Q$ s2 L/ ?, u: h; H
( |9 ^( z: M: M; R' B% f8 b3 i
deepseek 会将前后两段合成一段。
/ }; L2 T5 Y* V特别是那种大量的对话的段落,deepseek会给你合成一大段。
, V9 C5 D2 R$ d1 A- U- v
3 s$ ~3 F* a; E8, 钱说了算。$ Q- X+ @% b% |' ^5 C% r4 k+ d
; p, i, _ w1 h e7 jdeepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
: n+ c) a5 D" [2 |但是API就不会出现这种情况,毕竟我们给钱了。$ `# C; u5 m* V' D( Y- Z
chatgpt也是这样的。8 f9 P/ a- {, K, c9 j" @
4 X. q4 [5 R5 a0 h1 M( G/ [7 I
3 X1 E# S8 g: ?: a' d' V) w |
评分
-
查看全部评分
|