数值分析 发表于 2022-9-24 23:04
拉下来?拉多少?
把代码贴上来看看?
风雨无阻 发表于 2022-9-24 23:33
Maybe Debug mode?
雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB) b6 l% K7 U0 Q6 ~$ e
{
comp temp, xtimesy;
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
雷达 发表于 2022-9-25 00:46
有道理。, n- V4 O: X ?, r& ]$ L0 E& f% ~8 u
所以存在内循环速度就上不去,把内循环取消,改成两个向量直接点乘再求和应该就会好得多,这大 ...
数值分析 发表于 2022-9-25 00:20
这个不是这么比的吧。。。1 _1 w! p, m- W& q1 Y
您这个函数,不带内循环的话,汇编完总共操作也没几个(不到100个)。
而加上内循环,光jmp和dec指令就至少多执行了6000个
沉宝 发表于 2022-9-25 01:48( Q2 R" Z' Z9 I9 n% [
现在的CPU,可以把判断、jmp和dec指令全部融合进一个µOp(微操作,CPU内部流水线上的执行单位)。如果 ...
沉宝 发表于 2022-9-25 01:27& h8 {: N' g! I; H3 I# q+ k
你两个试验之间就差了一个空循环, call 1000次按理不会有秒级差异,可能还是编译器优化的问题。举个例子 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
雷达 发表于 2022-9-25 04:47
又写了个小实验,没有调用子函数,双层循环,外层6千次,内循环30万次空转,有或没有空转内循环,时间差 ...
数值分析 发表于 2022-9-25 14:58
能不能把这个也贴上来,看看和上一个有什么不同?
std::vector < float > vec1(N);
std::vector < float > vec2(N);- |2 g* [( q: V. V6 F- j8 {
float* b1 = new float[N];) l9 ?7 M2 W6 h8 C Y# R' y% M3 ?
float* b2 = new float[N];7 V- r, E0 X6 |* p9 x2 Z
for (int j = 0; j < 6000; j++)
{
std::generate(vec1.begin(), vec1.end(), []() {3 w7 T4 C7 H2 T+ `/ T
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;
});7 L9 z7 A* }1 V
std::generate(vec2.begin(), vec2.end(), []() {
return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;0 ~. B3 p1 U+ h, p' y2 `. ~- V
});
. f% U" \1 i' i
for (size_t jj = 0; jj < vec1.size(); jj++)
{
b1[jj] = vec1[jj];: r' r* D/ N! A7 d; K @7 C
}
for (size_t jj = 0; jj < vec2.size(); jj++)" I) s; b% N K3 c
{0 L( o% @5 U( K/ q: V9 Z/ ?- U
b2[jj] = vec2[jj];4 p5 e* V+ Q. A# M, |1 V
}
//Method - 1 N=100000 247s
//fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);
//Method - 2 N=100000 237s
/*
for (int jj = 0; jj < N ; jj++)) m" j5 m) ]6 d) \
{
fresult += vec1[jj] * vec2[jj];
}& }+ f# B! @8 P2 x& w9 H
*/
$ d* e8 t% x7 P+ ^( R0 C
//Method - 3 N=100000 204s
/*& \; M* }2 N: y$ l: r
for (int jj = 0; jj < N; jj++); I6 e! I; [, \+ t" b
{
fresult += b1[jj] * b2[jj];
}( X% Q& D V9 ` D* s
*/
//Method - 4 202s
/*
for (int jj = 0; jj < N; jj++)* W* T) {! _6 o q5 j/ {# R
{+ }$ t: n" W& b% G0 R* f
. Y$ ~, _1 V1 O' F" J
}) q& w" {" h% }: B
*/
//comment out all methods, N=100000 202s 5 g8 J6 @+ X' a
}; ^* g( A' F r" B, i7 r Q9 R# @
delete []b1;
delete []b2;
机器猫 发表于 2022-9-27 00:15- z, j9 D4 {3 s- y/ [3 e. J
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同?# n, u" e; t- W& {
% G. o- ~2 D$ X$ \+ a. j
你第二个试验里面的j在循环里面又重新定义 ...
雷达 发表于 2022-9-27 01:16! u% s7 W) T, X% Z8 ?( f
内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累 、LOL* s4 S# G+ c Y
不和它 ...
4 w: Z5 Y$ R2 a1 v! Q- l雷达 发表于 2022-9-24 23:54
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{1 {1 \/ D7 h% v& A' s5 i
comp temp, xtimesy;
雷达 发表于 2022-9-26 01:30" z2 i$ r h1 T
理了理思路,重新做了一个测试。
做了两个 vector 和 两个 float *, 都长 100000/ e3 F( b3 o( ^8 |; X" ?; X
外循环 6000,里面先做随 ...
雷声 发表于 2022-9-27 20:39
这个时间是从哪里开始算的?
我怀疑这个200多秒里面有200秒花在产生随机数上了,真正计算大概只用了2秒, ...
雷达 发表于 2022-9-24 23:542 `5 N5 i3 ~" O7 S8 H. \
void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)# w7 ^; u8 j' Q$ Z3 P
{
comp temp, xtimesy;
opensrc 发表于 2022-9-28 00:29
我有些迷糊,这样的code,难道不就应该时间差很多吗?也做了个简单的实验,你看看我做的有错吗
- r8 K4 x6 B5 l! o. w6 V
...
。/ a1 j' S5 h/ l: v

5 x; L7 n: D2 C4 C8 W| 欢迎光临 爱吱声 (http://aswetalk.net/bbs/) | Powered by Discuz! X3.2 |