数值分析 发表于 2022-9-24 23:04* J8 j% ^3 J3 ~. ^- N
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:333 R" O4 ^% M! A9 k% ^; Y- g
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{; d0 n) C9 a7 x# m
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
+ y7 q5 k5 p& x( o' s$ v
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。8 i1 o$ v. |. H6 ?" ?6 B
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。 }8 z& P% M- U' B) Q6 h
# l& b% h$ Z1 W
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48( I' _) n( w+ Z" b5 X, y
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58' J1 F U) a- }
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);0 f! e' c2 _2 ^$ ^, P0 n* E8 `2 q
float* b1 = new float[N];# D( ] ^2 c6 J7 j# {% E. G# I8 S
float* b2 = new float[N];; O3 d+ z, x2 }. m, g3 d7 S
for (int j = 0; j < 6000; j++)1 h) O+ e/ ]7 C
{6 \. }( v, P! I) Z8 U- [2 E
std::generate(vec1.begin(), vec1.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
}); J w B3 h! q. K0 L" q( C# H
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
});
! L* Y u, B2 q2 r2 L% o% ?
for (size_t jj = 0; jj < vec1.size(); jj++)+ v1 `( K, q* M7 \' w' \
{
b1[jj] = vec1[jj];
} G, Z- W0 M2 j+ b8 k
: p% R7 N( w) g- T/ O
for (size_t jj = 0; jj < vec2.size(); jj++)
{
b2[jj] = vec2[jj];
}8 {4 s# ]: ?0 l6 z
//Method - 1 N=100000 247s + t7 a. V7 H6 u
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
# e0 ?$ o; i, Z3 @9 S/ @
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)! X1 K0 {7 G! C! D# i
{1 ^) @+ J# Z- C+ a
fresult += vec1[jj] * vec2[jj];
}
*/
//Method - 3 N=100000 204s" J5 ~; k' ^, m7 b$ i
/*
for (int jj = 0; jj < N; jj++)4 E/ e5 M# y0 h8 g& H! \( e ^
{
fresult += b1[jj] * b2[jj];
}5 G+ |6 J) T% M! F/ v/ x. G
*/
' ?5 n4 T" m% b: Q9 x$ w5 @
//Method - 4 202s
/*! G, Q) |' Q q: j. e7 r. i6 ~* g& T
for (int jj = 0; jj < N; jj++); a% y7 Q( p, G$ ^
{
}
*/
//comment out all methods, N=100000 202s `' m+ E, s$ P( o
}
0 V1 L3 Y# q1 \$ G( M0 g
delete []b1;' ]/ V0 V4 H& ^! j" m
delete []b2;
机器猫 发表于 2022-9-27 00:159 V0 g5 M* C" V" ~2 i
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16) z6 |2 o8 ~! E8 X- z/ p I
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL/ m' G8 z5 g- b" z6 W- Q
* s# @/ o( D" L8 A8 g. A6 t
不和它 ...
; H+ z' E% G8 L雷达 发表于 2022-9-24 23:54, h; E1 Z9 Z" A" k
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)6 H- ?/ |# z* m' C7 P4 W1 m0 q+ G
{2 C. k* Y8 C- d$ i4 |
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30! B: a2 r" u" s
理了理思路,重新做了一个测试。) t/ ?7 y, N5 D+ N
做了两个 vector 和 两个 float *, 都长 100000
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:54) u& d6 w4 P( @
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)' M$ O, ^/ b' c. x/ `
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗1 d$ y4 l6 z1 _0 M- P
...
。% p3 t4 g3 u6 @9 A; p

, C2 ]9 v0 H) W| 欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |