数值分析 发表于 2022-9-24 23:04: A9 d+ T1 n' u7 X7 W. Y( n" J
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:540 m. U% |6 G. L7 j/ f1 e3 o! J6 g
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)- [5 M5 h+ O( J' x' \4 K2 b9 P
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:467 ?4 C. T8 r$ g9 t7 U4 G
有道理。: O. G ~; U% c' ~5 E" B! I
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:206 k- S3 _- e8 J& _; q- v
这个不是这么比的吧。。。" b* w6 ~% B7 Q& C4 H W/ {+ W; R
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47* V+ H& E0 J' S( F* v! T% {
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47, F& a' `- X, \1 h' c- z8 R
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);- B4 O3 [) P% W3 s N( }( _% ^5 o4 c
std::vector < float > vec2(N);5 L* B E+ d5 D! ^5 x* s# n: e/ X
float* b1 = new float[N];7 R( M1 ]9 H+ ^( \4 \
float* b2 = new float[N];
3 ?/ ~- A/ [" [# \ ?5 ]
for (int j = 0; j < 6000; j++)% ?+ N) E. M4 }7 d; G, |1 n, Y
{
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;" l/ n- M! J0 i" |1 ]
});
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;# ~; N9 ?5 j! V2 @5 }4 t% H
});
for (size_t jj = 0; jj < vec1.size(); jj++)1 E# j' E+ r4 U3 O7 I
{5 ]0 M: }! ^! _8 F1 B+ n+ u
b1[jj] = vec1[jj];
}# [) `2 m7 h' ^/ O; B
# m* t7 Y' `- a' O/ B: O) R* \" L( d% V
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}4 N6 R7 Q- ~6 x% g# v" ~1 L
//Method - 1 N=100000 247s 6 _7 z {6 g" |& k8 O7 C- m, K
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s3 b' o1 [. c# b7 K p
/*
for (int jj = 0; jj < N ; jj++). B" E3 E% r I" Y8 p5 `. e7 u9 H
{
fresult += vec1[jj] * vec2[jj];+ b3 I: I$ c, d4 r( T. Z
}( `7 T; Q, F* {5 E5 q+ k
*/
8 L9 `7 U7 ?5 M) x, p m
//Method - 3 N=100000 204s
/*6 ~5 _' S5 f$ R% x' ~% \. g: Q
for (int jj = 0; jj < N; jj++)
{
fresult += b1[jj] * b2[jj];6 V I0 O+ a& N5 t7 N! h
}
*/
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)
{( |# n4 L) W2 P5 D1 S
6 @& y* J) y R8 R
}
*/$ b% P1 H7 y6 F Y( P
//comment out all methods, N=100000 202s - f; {( F9 c i
}6 p2 G) Q t# u8 ^# T6 _$ \
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:167 r' T6 {- U T, j
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL
不和它 ...

雷达 发表于 2022-9-24 23:54; w) L% F& R+ K' C( ?- x5 ^* q
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{& t' X, h6 g1 E4 J; g5 g
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:396 W+ A' ?$ M( a% U4 l
这个时间是从哪里开始算的?, }7 ~0 Q! a0 Y Y6 v
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB): } n! g- }4 }( d
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29/ S# n4 e+ p3 o; |: d- S6 G
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗+ X, B( D9 N- c0 j( Y9 x/ p3 s( t
- k1 [. ~ G5 s! q
...
。" I, q4 ^1 |6 u+ h) W

, Q O5 n h) `+ W| 欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |