|
|
本帖最后由 nanimarcus 于 2025-4-18 15:39 编辑
! ]' T0 O _7 P$ h* J( a2 z% T0 X# C! G
已经搞定.
/ j' U% \2 K- o2 ]0 r) K( u0 q; U! L2 |: E! F
首先 PDF 本身已经OCR了,Adobe Acrobat Pro中自带这个功能。: ~, k, [/ g9 V |$ E# ]8 N! i/ d' I
9 p! V1 L7 f1 o* j1, python + pypdf 按章节拆分小的PDF
2 x+ w' c2 r3 s* l ~% p6 K+ L+ d+ N+ v; h! [1 A
2, pdftotext -enc UTF-8 -nopgbrk -eol dos input outputfile
) c; I7 |8 d& }' t* e8 `, R# D- D6 C9 r, v6 b. w( m
得到text file
4 m+ s% t( o' w! G, Y: O
$ m# W1 i+ S" g6 k" H8 s9 G) ?5 R3, python 读取整个outputfile,丢给deepseek 矫正。3 H! W. K. j W/ p, h: {7 B
% V: `8 \+ V$ D f/ p5 I模型是 deepseek-chat
9 Q) H. C2 {: m; g. z& f8 t$ W- Q1 I6 j* e" L" A
max_tokens 最大是 8192,别的不用改。: L6 U1 h& V) R; g
. S4 k* g* X* j0 [5 j# V参考:
! j- C/ v: r8 r, Hhttps://api-docs.deepseek.com/api/create-chat-completion. D( q& \( }5 e- o
/ }$ P0 ~# s& `3 H8 m# l# g0 t4 k
4,费用:
1 p3 j* L) Q' u' ]- E" {' `# Z! v% ~% C
实测:
2 K+ T( e1 z9 g* k' \
; Q j: K4 q+ R0 t296K 字母,用了 9 美分。; W- ?! v7 A2 h8 h! L; C/ v3 A
' W; t2 v0 A3 y- x4 j9 _/ ?英文字母 到 token 用量大约 1/3
( o! ~+ u1 C! y; J: }2 }* A* ~, m- I7 T; ]( W: G& {( d/ l7 E) ?
tokens: total, 11782 completion, 3729 prompt, 8053 | s: 32899
! F& n7 {5 j2 \ L/ J0 g3 s7 c, G! E* G, p7 H
32899 个字母花费 11782 tokens,包含输入输出的 tokens
# ]" x, J. N: W+ s5 J0 l- ]1 W, t0 ], j: ]. k2 C
价钱,非常非常便宜了。% Y" `9 U( }% [. N1 J9 b
; `8 S, Y7 c3 n1 u3 `
参考如下可以计算,懒得算了。& V5 ^' q `$ t1 j
2 s8 B* H0 E5 `$ s4 F5 V, Ohttps://api-docs.deepseek.com/quick_start/pricing) G# m9 A {& I
( e7 R3 H" Q, W# V1 o
1M TOKENS INPUT (CACHE HIT)(4) $0.07 $0.14
, t" s% f0 v. q4 O" T1M TOKENS INPUT (CACHE MISS) $0.27 $0.55
. A6 A) g% B* s! l1M TOKENS OUTPUT(5) $1.10 $2.191 N& [ a( R/ c& ?& L
0 G9 E* i; P, ~" d5 [6 e# x5, Balance
( k# w' V# t2 v$ `7 M" ]! m5 m
& w5 D* E8 o6 Y6 [( [6 ]2 G可以在程序里调用,知道每次运行结束后,balance还剩多少。: D \( U# j$ S2 x* N1 P3 t
参考:! f6 p: @5 Q. `0 z5 |
https://api-docs.deepseek.com/api/get-user-balance& n5 ` L: X: a4 g5 J2 ^) U* J p8 _* e) ?
% ^% m F) e" {! u5 ~3 h+ r( \6, Models$ }; M, h0 o3 j! _- n& Q
; M% N4 z5 e$ l- ]/ ^) u0 Y) E0 m# ^8 k
目前就两个
. D( d/ Z3 ?" m% N `# O# deepseek-chat
7 }; P, ~/ W1 v! }: H# deepseek-reasoner
# ]) q. X& `) v
( o; W# i& t' D9 u! `& v2 o+ M, M参考:
( }) |# q$ y4 u4 N/ hhttps://api-docs.deepseek.com/api/list-models
) J3 q z: X$ z! g) C" Z& I* N+ p: B! y, S
8 g( Y' X) M6 I/ b2 q, n7, 问题
$ y- R ? K, T3 E$ {* f B3 b4 t: \, T. T4 G* s
deepseek 会将前后两段合成一段。
( V: _6 o1 g' _# \2 w特别是那种大量的对话的段落,deepseek会给你合成一大段。- z7 H1 L8 T a+ s- ^, V/ Y
3 K) ^; u$ b& k9 T e! G! s
8, 钱说了算。
{# j& ^. z: Q4 c+ ?, `' {$ T S3 m* O2 b% V6 H- W
deepseek 如果是免费的网页版,有时候会出现超出范围的提示,不干了。
! v) R" N A6 N2 {, B& V' ^/ V但是API就不会出现这种情况,毕竟我们给钱了。
4 L: f) o8 p2 ?; H- W. R% Dchatgpt也是这样的。6 c2 ~9 _3 w: f4 r9 {2 k2 S$ T
! k( `# {7 L' R2 ]. v) T s: @! }, g2 ^. ] R. F) D
|
评分
-
查看全部评分
|