|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑 / f9 d5 s7 c3 a- D7 w5 S) k4 `0 T
' N* e4 H; ^9 P& B
已经搞定.1 C w* }1 I2 o4 M2 t
. I2 L: |* Y4 U- {5 z R: B首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。
% V& G* e; O0 v7 Q' |) f: ~& B% c: p
1, python + pypdf 按章节拆分小的PDF b8 b5 q* {3 o8 R O
/ H% w/ N9 j# D& O5 L2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
+ q: f9 h" L) Y9 A' h2 G# P& G; V
得到text file0 ?! b7 h( Q: D7 \3 g' n0 M
: {0 O. M- A+ G0 N1 p" C" t3, python 读取整个outputfile,丢给deepseek 矫正。% Z' S. j; Z5 Y1 A) I8 G$ B% L1 A
; r8 C- V I. S" G
模型是 deepseek-chat
5 @" O1 u' H7 l5 D' D! b Y m+ S$ b6 n
max_tokens 最大是 8192,别的不用改。- {/ S C B& }* f+ \
' V. x' l/ m2 Q/ C: q: x
参考:. u$ Y. y* M# ]. g6 M3 c
https://api-docs.deepseek.com/api/create-chat-completion' Q# K z# A5 g
6 P3 g" K) J3 g0 i* L4,费用:
4 {% `- @" T- @7 }
+ d8 F6 C" c4 @ P! H实测:8 i9 d T* B" L7 V1 f: ~
. y: E5 j0 V" D8 V4 d! |296K 字母,用了 9 美分。 L' w v8 P8 v! I8 N G( h
. Z# E) \8 L/ ?3 G/ V+ E b0 \英文字母 到 token 用量大约 1/35 U$ x) b2 Z' o' ?8 K) W( D" S* W1 `
0 }- a4 \5 H( ~% P" p) i
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 328998 I6 i/ X2 A6 e Q( s6 e/ o4 T" `
6 ?' X; k. G" b% N: r( l32899 个字母花费 11782 tokens,包含输入输出的 tokens
$ Q- d' z6 y. r3 |+ J1 S5 j, n
$ G: a3 C& }, B; A1 m, u价钱,非常非常便宜了。
/ u& L) }" T- e& {2 B2 A
" Q4 C; l% L1 Q8 H$ c+ D% b0 Y参考如下可以计算,懒得算了。
2 F! d/ j* G x5 J3 _- f+ @8 h( x# E% x8 B
https://api-docs.deepseek.com/quick_start/pricing
4 p- D' ^6 {: d
7 S' I) V l0 n! _6 |1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
: n, K/ q: p% `8 T9 @1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
1 {. j7 ?4 I6 X. Z2 A0 b1M TOKENS OUTPUT(5) $1.10 $2.197 a- Q7 V. y; @" e F Y# W
# f0 G2 k7 p1 k
5, Balance
+ Y1 Q% \- x$ X" d* ^
$ O0 s1 |9 y0 w0 ^可以在程序里调用,知道每次运行结束后,balance还剩多少。- k$ A- ^: O" A. g$ J* Z
参考:
/ r( G) p7 d9 K$ mhttps://api-docs.deepseek.com/api/get-user-balance4 ^% P9 U: a N3 i7 n- e+ R
3 k* A0 r. E& ?) U! b1 k* \
6, Models. y, y- I; K6 L1 U- t' P
& s! W5 P* H; c, D8 G, f目前就两个6 _6 h: K1 J4 X* T1 r* T+ k
# deepseek-chat N" r: x" T. o' H
# deepseek-reasoner
" B3 x! G# X1 v5 F7 p5 R9 ~; O/ w9 h
参考:, a6 y+ A3 H6 ]/ I- m/ d
https://api-docs.deepseek.com/api/list-models
; Z6 J6 t1 _' f
% T2 ^2 B& _5 u$ n R# f
! F. c6 g5 T( i! V7, 问题
+ \* |2 M. ?+ \) y$ E& I* ~* B [5 M9 l
deepseek 会将前后两段合成一段。+ |% S, V6 w$ J) q, K1 d# F
特别是那种大量的对话的段落,deepseek会给你合成一大段。
9 P" u6 {# C7 D, Q5 E* T. T+ u' B
9 s. E6 S1 m! d8, 钱说了算。
; t4 a {3 o! B9 z6 \+ e- l* D
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。( Y, V% R. E' `1 b, |7 P
但是API就不会出现这种情况,毕竟我们给钱了。. b4 y6 P+ l1 |7 t
chatgpt也是这样的。' o5 f" j+ X2 Y
1 v. V0 `5 t: X1 k
7 s" L! ~) }- m3 B |
评分
-
查看全部评分
|