wp-x86_64.pl: ~10% performance improvement.

This commit is contained in:
Andy Polyakov 2012-07-15 13:37:35 +00:00
parent ee923b4cef
commit 701d593f70

View File

@ -90,41 +90,44 @@ for($i=0;$i<8;$i++) { $code.="mov @mm[$i],64+$i*8(%rsp)\n"; } # S=L
$code.=<<___; $code.=<<___;
xor %rsi,%rsi xor %rsi,%rsi
mov %rsi,24(%rbx) # zero round counter mov %rsi,24(%rbx) # zero round counter
jmp .Lround
.align 16 .align 16
.Lround: .Lround:
mov 4096(%rbp,%rsi,8),@mm[0] # rc[r] mov 4096(%rbp,%rsi,8),@mm[0] # rc[r]
mov 0(%rsp),%eax mov 0(%rsp),%eax
mov 4(%rsp),%ebx mov 4(%rsp),%ebx
movz %al,%ecx
movz %ah,%edx
___ ___
for($i=0;$i<8;$i++) { for($i=0;$i<8;$i++) {
my $func = ($i==0)? "mov" : "xor"; my $func = ($i==0)? "mov" : "xor";
$code.=<<___; $code.=<<___;
mov %al,%cl
mov %ah,%dl
lea (%rcx,%rcx),%rsi
lea (%rdx,%rdx),%rdi
shr \$16,%eax shr \$16,%eax
lea (%rcx,%rcx),%rsi
movz %al,%ecx
lea (%rdx,%rdx),%rdi
movz %ah,%edx
xor 0(%rbp,%rsi,8),@mm[0] xor 0(%rbp,%rsi,8),@mm[0]
$func 7(%rbp,%rdi,8),@mm[1] $func 7(%rbp,%rdi,8),@mm[1]
mov %al,%cl
mov %ah,%dl
mov $i*8+8(%rsp),%eax # ($i+1)*8 mov $i*8+8(%rsp),%eax # ($i+1)*8
lea (%rcx,%rcx),%rsi lea (%rcx,%rcx),%rsi
movz %bl,%ecx
lea (%rdx,%rdx),%rdi lea (%rdx,%rdx),%rdi
movz %bh,%edx
$func 6(%rbp,%rsi,8),@mm[2] $func 6(%rbp,%rsi,8),@mm[2]
$func 5(%rbp,%rdi,8),@mm[3] $func 5(%rbp,%rdi,8),@mm[3]
mov %bl,%cl
mov %bh,%dl
lea (%rcx,%rcx),%rsi
lea (%rdx,%rdx),%rdi
shr \$16,%ebx shr \$16,%ebx
lea (%rcx,%rcx),%rsi
movz %bl,%ecx
lea (%rdx,%rdx),%rdi
movz %bh,%edx
$func 4(%rbp,%rsi,8),@mm[4] $func 4(%rbp,%rsi,8),@mm[4]
$func 3(%rbp,%rdi,8),@mm[5] $func 3(%rbp,%rdi,8),@mm[5]
mov %bl,%cl
mov %bh,%dl
mov $i*8+8+4(%rsp),%ebx # ($i+1)*8+4 mov $i*8+8+4(%rsp),%ebx # ($i+1)*8+4
lea (%rcx,%rcx),%rsi lea (%rcx,%rcx),%rsi
movz %al,%ecx
lea (%rdx,%rdx),%rdi lea (%rdx,%rdx),%rdi
movz %ah,%edx
$func 2(%rbp,%rsi,8),@mm[6] $func 2(%rbp,%rsi,8),@mm[6]
$func 1(%rbp,%rdi,8),@mm[7] $func 1(%rbp,%rdi,8),@mm[7]
___ ___
@ -133,32 +136,32 @@ ___
for($i=0;$i<8;$i++) { $code.="mov @mm[$i],$i*8(%rsp)\n"; } # K=L for($i=0;$i<8;$i++) { $code.="mov @mm[$i],$i*8(%rsp)\n"; } # K=L
for($i=0;$i<8;$i++) { for($i=0;$i<8;$i++) {
$code.=<<___; $code.=<<___;
mov %al,%cl
mov %ah,%dl
lea (%rcx,%rcx),%rsi
lea (%rdx,%rdx),%rdi
shr \$16,%eax shr \$16,%eax
lea (%rcx,%rcx),%rsi
movz %al,%ecx
lea (%rdx,%rdx),%rdi
movz %ah,%edx
xor 0(%rbp,%rsi,8),@mm[0] xor 0(%rbp,%rsi,8),@mm[0]
xor 7(%rbp,%rdi,8),@mm[1] xor 7(%rbp,%rdi,8),@mm[1]
mov %al,%cl
mov %ah,%dl
`"mov 64+$i*8+8(%rsp),%eax" if($i<7);` # 64+($i+1)*8 `"mov 64+$i*8+8(%rsp),%eax" if($i<7);` # 64+($i+1)*8
lea (%rcx,%rcx),%rsi lea (%rcx,%rcx),%rsi
movz %bl,%ecx
lea (%rdx,%rdx),%rdi lea (%rdx,%rdx),%rdi
movz %bh,%edx
xor 6(%rbp,%rsi,8),@mm[2] xor 6(%rbp,%rsi,8),@mm[2]
xor 5(%rbp,%rdi,8),@mm[3] xor 5(%rbp,%rdi,8),@mm[3]
mov %bl,%cl
mov %bh,%dl
lea (%rcx,%rcx),%rsi
lea (%rdx,%rdx),%rdi
shr \$16,%ebx shr \$16,%ebx
lea (%rcx,%rcx),%rsi
movz %bl,%ecx
lea (%rdx,%rdx),%rdi
movz %bh,%edx
xor 4(%rbp,%rsi,8),@mm[4] xor 4(%rbp,%rsi,8),@mm[4]
xor 3(%rbp,%rdi,8),@mm[5] xor 3(%rbp,%rdi,8),@mm[5]
mov %bl,%cl
mov %bh,%dl
`"mov 64+$i*8+8+4(%rsp),%ebx" if($i<7);` # 64+($i+1)*8+4 `"mov 64+$i*8+8+4(%rsp),%ebx" if($i<7);` # 64+($i+1)*8+4
lea (%rcx,%rcx),%rsi lea (%rcx,%rcx),%rsi
movz %al,%ecx
lea (%rdx,%rdx),%rdi lea (%rdx,%rdx),%rdi
movz %ah,%edx
xor 2(%rbp,%rsi,8),@mm[6] xor 2(%rbp,%rsi,8),@mm[6]
xor 1(%rbp,%rdi,8),@mm[7] xor 1(%rbp,%rdi,8),@mm[7]
___ ___