数值分析 发表于 2022-9-24 23:04* c* A6 {* G! D
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33: J. h9 |: l2 S2 E& t
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)" g; [- E3 Q' ^$ a$ Q; b& l @5 J
{ r# A, ~ ^9 y: T6 g8 o1 l2 ?) `8 n
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46+ q( o' r9 k; p& s1 U; y$ U
有道理。
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20, |( ]* G% }4 z" W% l' y
这个不是这么比的吧。。。) u1 g+ {' S7 S* ]' _
6 A, N: w% c9 W+ F1 X/ b
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48- P0 I' h3 r- C, }
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27) q; y3 }) p+ g, f4 m' |
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58( q T! X) }4 J4 e: ]! a
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);0 i2 Y7 h0 E9 O% K1 O
float* b1 = new float[N]; U& K& p8 D5 a! ?* x) ^3 W
float* b2 = new float[N];
/ {5 l6 ^6 E; l) _( A- A3 ~
for (int j = 0; j < 6000; j++); ?6 a* f) X7 ?6 j( d; s) w+ S
{: V- g! E" \; a- c. B9 d
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});
std::generate(vec2.begin(), vec2.end(), []() {) k+ S$ B. p% R
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;$ E' C. D0 c9 o
});
, r; Z2 a1 j. Z* S
for (size_t jj = 0; jj < vec1.size(); jj++)
{6 b! L5 [1 N: X0 ]/ ]7 W
b1[jj] = vec1[jj];
}& ~/ s* Y' ?6 `0 {7 ?9 e
for (size_t jj = 0; jj < vec2.size(); jj++)
{4 b+ }+ h, r: i6 d! h- A
b2[jj] = vec2[jj];
}
* ~* x5 {7 [1 r8 d. b3 A
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
" U t [7 n+ g7 \% I
//Method - 2 N=100000 237s( D* O( x5 F% g+ R8 W7 {; r; `
/*
for (int jj = 0; jj < N ; jj++)& P# v3 F; w; \) F4 Q- e% B. b
{: s3 A- q4 [6 r R
fresult += vec1[jj] * vec2[jj];! v* M6 ]% W! _5 M z+ b2 \
}
*/
//Method - 3 N=100000 204s
/*1 c: Q) D" ~( {: d! ~$ j3 y
for (int jj = 0; jj < N; jj++)7 O. X; o1 K8 e0 G$ R. h
{
fresult += b1[jj] * b2[jj];2 v$ j& ^4 r5 x+ s) l5 R+ Q6 {
}' i C7 ^0 l( [, `- q
*/
//Method - 4 202s
/*+ M9 m: L3 }4 |* Z/ P
for (int jj = 0; jj < N; jj++)& D$ [ O7 X- Z, D
{
}
*/
//comment out all methods, N=100000 202s " g- ]. _" N6 r2 O f
}* t, K( W" f8 P: Y9 u' v
; |" Z3 f+ s) \1 j4 U9 r5 [
delete []b1; [# M6 F7 X+ j
delete []b2;
机器猫 发表于 2022-9-27 00:159 `& N7 b' b b# |+ D, a, ?3 W9 y
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL* U# e4 V) ]& E8 ^
. N9 r9 D# X! n! \: V ~1 `' s
不和它 ...

雷达 发表于 2022-9-24 23:54$ G% W( C: D5 V: ~
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)% b9 N! w8 v. T) \+ V
{1 T* b+ U9 C; I: N2 A" X
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。* @0 z' {. B9 p: V o) V4 f( y0 ~
做了两个 vector 和 两个 float *, 都长 100000* e( d/ e3 y7 V( x
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39; I K S( H3 \6 m
这个时间是从哪里开始算的?% o% ]7 P. g s% l# f$ l. k, q4 d
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:540 S" Z3 o2 t* _; U1 X( _; \
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)) \( y% v0 f' P/ T
{; E# f3 s- l! w4 a$ A0 M L$ d/ f
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗6 _3 u( s _1 \6 E; q
: ~( j2 F) i v6 ]0 Z: s R
...
。

# m M& H$ G: J; s4 s| 欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |