|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
3 o5 g6 N0 ^2 D/ A) B6 t( U
& Z. P# B( @) i已经搞定.5 X. T: o( s3 E- W, b
7 V1 B) E8 v; d% r" N# j
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
2 z4 W$ Q% S/ R& i# \7 p8 O0 L& p5 T% G
1, python + pypdf 按章节拆分小的PDF" i5 A% H: N7 T0 o( \; [0 I
' u$ d% ^. ^* R( s ?. z5 }1 @2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
% W! Z4 G- W9 P% L1 T# }2 M8 c8 |
得到text file) R% T2 R( {1 w6 _2 v
; I0 r+ ?* S/ z' S( L$ E
3, python 读取整个outputfile,丢给deepseek 矫正。
. ~2 `. `8 U1 T4 L5 F
( L1 |4 p5 n/ b5 S5 W( h模型是 deepseek-chat
0 h1 N2 z% V- X- j( y; G5 L, `9 f, D# h& u. }7 J8 a+ J% K
max_tokens 最大是 8192,别的不用改。9 s% v, z* ^5 A; g
' o" a4 f G) p) L5 V, C* I* J( W
参考:: G2 [! p8 T( u# w& m+ l
https://api-docs.deepseek.com/api/create-chat-completion* }2 S. N0 a3 e6 q! h% d
) |# w4 w2 D P+ c) f& R4,费用:
: \3 q) D+ O/ F1 H( }
! X2 S! K$ D- R8 I- x+ K* X; L实测:
1 }- s0 G H* d0 B1 L1 A7 G+ C
Z* ~4 S, B; d& d296K 字母,用了 9 美分。: e6 {$ O1 m8 U( i0 m! ^* j; d: z
4 h7 o" g2 Q- c
英文字母 到 token 用量大约 1/38 t. O4 O; e# q7 i! K* h
$ z$ k) ^6 V9 Q6 `0 ptokens: total, 11782 completion, 3729 prompt, 8053 | s: 328999 [! Y, k( v' ~4 L
; I. B' U) }8 \
32899 个字母花费 11782 tokens,包含输入输出的 tokens
8 Z: v1 l1 m) f7 |& k3 W( L% ?
价钱,非常非常便宜了。
" z4 d3 {. z; ]7 t$ C6 `3 k1 v4 z. v# _ f/ t
参考如下可以计算,懒得算了。
7 f3 G! R1 o+ ^3 T9 d$ @
: k' _) Z+ X! E s# o: whttps://api-docs.deepseek.com/quick_start/pricing, e# [1 f }% P2 [& W: z9 X
# c5 ?; r5 A/ h
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.141 F7 c9 O8 ^& |, u
1M TOKENS INPUT (CACHE MISS) $0.27 $0.55+ [ m+ R6 X* z; {
1M TOKENS OUTPUT(5) $1.10 $2.19
5 J+ w" d7 x! a, a+ m2 ], q& G7 W
) W1 r: M2 L a7 T0 B# S K5, Balance
$ i, r) |1 b0 ]; d4 ? H) P' Q* T, W/ |, i* n+ N1 ?
可以在程序里调用,知道每次运行结束后,balance还剩多少。
% d& M' d( m( w& `7 z4 Q) x% k" Z1 t参考:
! c3 r. `! U& g; @) L& x- shttps://api-docs.deepseek.com/api/get-user-balance
0 a% r8 w7 {! V
" h% {+ b2 M# f* i6, Models
- u( [* v8 T" h1 o3 z6 R
, Q2 o/ v g6 S# a& U# a4 G目前就两个
- p2 c) y' K' Y+ R+ L. A8 X8 B- w% U# deepseek-chat
8 U% D1 i. S' C8 L4 o! U7 q# deepseek-reasoner8 M0 S; F- w |# s
9 G; ?$ ] e p参考:
; \ e! G1 k5 m; a- M3 ihttps://api-docs.deepseek.com/api/list-models
; A; a6 e n# l2 {8 E9 [8 C& s
# S: K" D4 H" C: Q$ ~# x) `3 Y: G! s3 s
7, 问题
8 @6 j, c0 B; L! j; r0 @6 d/ i, g0 E+ C/ G3 j! L6 J
deepseek 会将前后两段合成一段。, h+ D2 V& a% L% ^4 I3 i
特别是那种大量的对话的段落,deepseek会给你合成一大段。- H- n# x G0 s7 E2 y, s. M a
( ?/ l- q. n2 G- L+ q0 j8, 钱说了算。3 s, Z; `( I( q K( j9 I: j5 b5 U
1 C1 y4 G, q, l* `) k1 ]
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
( z" Q9 s& c! D4 d1 d* k# B5 b但是API就不会出现这种情况,毕竟我们给钱了。
) |* |& R9 S, i+ f6 |: Dchatgpt也是这样的。
, Q. r- K" W$ f) `: Z8 _
2 h! h n0 b3 S+ o) U0 q5 c3 T/ d0 t- g# |. T' E( c2 i2 D8 C8 u4 b
|
评分
-
查看全部评分
|