数值分析 发表于 2022-9-24 23:044 f( |4 ~8 J9 S' r3 u
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:545 q3 G+ u9 }0 m$ h4 F* j
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB). q: a0 \# g4 O* _: K& h" t
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20& W% X% L9 b Z1 I5 N" \
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46* H1 u3 D* k1 a, |
有道理。9 t' v, O: F1 {! ?9 w
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48% \/ _) l X2 D1 \
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:585 F3 n9 V8 r$ ]) l+ x; h! F! B3 `
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);! ^7 ?& }+ h3 f# N" W9 g! O
float* b1 = new float[N];1 J' ?( U# b% v; S( v* m
float* b2 = new float[N];
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});. x. `0 w" L; Y; Z! K. ?: B' ~: J7 ~
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;& s* T6 j# h2 e2 m0 I
});9 O4 R+ p& X2 b
for (size_t jj = 0; jj < vec1.size(); jj++)' K1 f" q0 S8 U! M# E' P" F# ?- b# A+ z
{1 [! @/ ?% r1 O# }
b1[jj] = vec1[jj];
}, a6 h; O8 Y8 ?$ c: u6 ^
9 m& T3 a1 {4 P6 @1 t( I9 V
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}: x j( p1 Y. I1 E/ n
//Method - 1 N=100000 247s 3 E7 P0 I; M% f
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);/ v3 ~) N1 ?: U2 v N
//Method - 2 N=100000 237s+ s1 S# }6 h4 K- m- X: t8 o
/*
for (int jj = 0; jj < N ; jj++)+ p" d( q- [3 @ j% s# o; d* g
{
fresult += vec1[jj] * vec2[jj];1 b6 @& V7 n6 ~3 h: b
}
*/! g- O" {0 p" `) J0 K
//Method - 3 N=100000 204s; F' y0 ~6 ~ ^; w' k: i% t
/*
for (int jj = 0; jj < N; jj++)1 y" B& g5 V6 V' a2 ~! t
{% `3 P* k% a6 M$ K6 v h+ i
fresult += b1[jj] * b2[jj];
}
*/
//Method - 4 202s
/*( q. f i* \4 L% X8 J/ `# Y
for (int jj = 0; jj < N; jj++)5 V4 E4 T; X+ m" \+ B2 S( w
{
}/ j% n, y6 C8 m7 _
*/2 n! |& H* w* R U
//comment out all methods, N=100000 202s 3 q5 J! U! s4 A. O: d( [6 c9 O
}
y c, M- ?4 @- V1 T
delete []b1;/ d# l ?: P2 M7 S' j
delete []b2;
机器猫 发表于 2022-9-27 00:155 }9 z* p1 l H1 v, }
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16! K7 T5 p* W3 a. g8 u$ O
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
" T; `% n9 p% c' U; B$ p
不和它 ...
% s4 S% k) M" w% h5 J+ ^雷达 发表于 2022-9-24 23:549 l4 ]: c6 ^7 [; A7 [$ ]4 X3 w2 A
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{ s( y1 I1 @! m: ~- ~
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30; h9 G, q1 ? |" k9 w( w
理了理思路,重新做了一个测试。 }" |; L( y& {& D
做了两个 vector 和 两个 float *, 都长 100000+ `' P5 Q: ~7 W7 Q" P
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗( t D3 j1 z5 R6 {
. H' P" F8 H- R& }
...
。" T' G; S$ Z; I) l5 ^8 N8 T2 `

/ G& ^1 _: a( f& m| 欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |