|
本帖最后由 喜欢喝冰茶 于 2013-10-6 20:40 编辑 6 E2 _/ x! W7 Y+ i3 H6 L. G
如果两个字符串是这个样子4 c" k: t4 |, r$ X" ]# M5 K) Q6 D
E" }& ?* |' T7 k
string1: AAAAAATTTTCCCCCGGGTTTTAAAACCCCCCGG& q2 N) h& U: M0 o+ T0 Q
string2: TTAAA 4 C0 b, y/ f8 Y% {" a
4 ^# P# J: |/ w
当然要省很多时间,因为不需要对string1一个一个比了!!!
, u L0 j$ c. ^9 \% M" _0 T- V4 U( W4 ^
string1可以写成:
1 G( S" r: A4 |7 l' G6 I0 q4 ?长度 字符 起始位置
f. \- b3 Q, A/ D1 w7 K6 A 1
: T) K/ y* v, i4 T 7& g- r6 ]. L3 z4 [
5 C 11" d- G6 Y: S& d
3 G 16
* L# L% S v( S4 T 19! y7 v- _; I" ~* [; A% r
......
$ b3 R* ?) M4 ]9 a% R) F4 Y5 x, e9 P% n/ Z) t Y W
所以当用string2去比的时候,一开始根本就不用考虑字符为A,G,C的行,因为string2开始是T。因此在这个例子中,不需要去检查string1的每个位置,而是非常有限的几个位置,所以可以省很多时间。2 r% I6 {% v g) H
( k' s$ `+ _3 A" x
那么如果存在一种这样的转换方法能够将主贴里的字符串转化成这种,势必会省很多时间。有这样一种方法吗?哪里去找?0 o% P% Y+ ~, |: \+ H
h5 I) i/ N) {7 F) X
如果你是有心人,你觉得这个东西最常用在哪里?9 X. ]; P: m" S. u
' @- [$ I6 ~: ?) m) W对了,文件压缩。
$ o- z. ` f7 B
9 j8 u7 `, Z$ d事实上,真正的解决方法就是借鉴了最早用于文件压缩的一种算法,称为Burrows-Wheeler Transform,又称block-sorting compression。这是当年在DEC工作的Michael Burrows和David Wheeler发明的,所以以他们的名字命名,bzip2的压缩文件就是基于该算法的。它的转换其实很简单,如果感兴趣大家可以google/wiki(wikipedia上很详细的操作细节)上去看细节,但简单的来说,就是把一个字符串头围相接,不停的移动一位,然后排序,最后取出最后一列就行了。Burrows-Wheeler Transform的特性就是转换后的字符串相对于原始字符串含有大量的重复字符片段,所以就可以使得我们的问题变的相对快捷。 3 I( u6 U: ~" @" U+ S
$ _8 v0 Q& L& Z7 n* a
那么是否就十全十美,万事大吉了呢?这个需要从实际的具体需求来看。# B7 S6 a4 Q6 w8 F9 a4 x5 C
) S9 u. e/ l& q2 L6 c扛吧,没什么好说的。
}6 i8 W/ ^, f1 ]/ i" B) O6 S* U" |6 j7 `
|
|