vpx/vpx_dsp/arm/idct16x16_add_neon.asm
Jingning Han e8b133c79c Factor inverse transform functions into vpx_dsp
This commit moves the module inverse transform functions from vp9
to vpx_dsp folder. The hybrid transform wrapper functions stay in
the vp9 folder, since it involves codec-specific data structures.

Change-Id: Ib066367c953d3d024c73ba65157bbd70a95c9ef8
2015-07-31 16:21:00 -07:00

1180 lines
44 KiB
NASM

;
; Copyright (c) 2013 The WebM project authors. All Rights Reserved.
;
; Use of this source code is governed by a BSD-style license
; that can be found in the LICENSE file in the root of the source
; tree. An additional intellectual property rights grant can be found
; in the file PATENTS. All contributing project authors may
; be found in the AUTHORS file in the root of the source tree.
;
EXPORT |vp9_idct16x16_256_add_neon_pass1|
EXPORT |vp9_idct16x16_256_add_neon_pass2|
EXPORT |vp9_idct16x16_10_add_neon_pass1|
EXPORT |vp9_idct16x16_10_add_neon_pass2|
ARM
REQUIRE8
PRESERVE8
AREA ||.text||, CODE, READONLY, ALIGN=2
; Transpose a 8x8 16bit data matrix. Datas are loaded in q8-q15.
MACRO
TRANSPOSE8X8
vswp d17, d24
vswp d23, d30
vswp d21, d28
vswp d19, d26
vtrn.32 q8, q10
vtrn.32 q9, q11
vtrn.32 q12, q14
vtrn.32 q13, q15
vtrn.16 q8, q9
vtrn.16 q10, q11
vtrn.16 q12, q13
vtrn.16 q14, q15
MEND
AREA Block, CODE, READONLY ; name this block of code
;void |vp9_idct16x16_256_add_neon_pass1|(int16_t *input,
; int16_t *output, int output_stride)
;
; r0 int16_t input
; r1 int16_t *output
; r2 int output_stride)
; idct16 stage1 - stage6 on all the elements loaded in q8-q15. The output
; will be stored back into q8-q15 registers. This function will touch q0-q7
; registers and use them as buffer during calculation.
|vp9_idct16x16_256_add_neon_pass1| PROC
; TODO(hkuang): Find a better way to load the elements.
; load elements of 0, 2, 4, 6, 8, 10, 12, 14 into q8 - q15
vld2.s16 {q8,q9}, [r0]!
vld2.s16 {q9,q10}, [r0]!
vld2.s16 {q10,q11}, [r0]!
vld2.s16 {q11,q12}, [r0]!
vld2.s16 {q12,q13}, [r0]!
vld2.s16 {q13,q14}, [r0]!
vld2.s16 {q14,q15}, [r0]!
vld2.s16 {q1,q2}, [r0]!
vmov.s16 q15, q1
; generate cospi_28_64 = 3196
mov r3, #0xc00
add r3, #0x7c
; generate cospi_4_64 = 16069
mov r12, #0x3e00
add r12, #0xc5
; transpose the input data
TRANSPOSE8X8
; stage 3
vdup.16 d0, r3 ; duplicate cospi_28_64
vdup.16 d1, r12 ; duplicate cospi_4_64
; preloading to avoid stall
; generate cospi_12_64 = 13623
mov r3, #0x3500
add r3, #0x37
; generate cospi_20_64 = 9102
mov r12, #0x2300
add r12, #0x8e
; step2[4] * cospi_28_64
vmull.s16 q2, d18, d0
vmull.s16 q3, d19, d0
; step2[4] * cospi_4_64
vmull.s16 q5, d18, d1
vmull.s16 q6, d19, d1
; temp1 = step2[4] * cospi_28_64 - step2[7] * cospi_4_64
vmlsl.s16 q2, d30, d1
vmlsl.s16 q3, d31, d1
; temp2 = step2[4] * cospi_4_64 + step2[7] * cospi_28_64
vmlal.s16 q5, d30, d0
vmlal.s16 q6, d31, d0
vdup.16 d2, r3 ; duplicate cospi_12_64
vdup.16 d3, r12 ; duplicate cospi_20_64
; dct_const_round_shift(temp1)
vqrshrn.s32 d8, q2, #14 ; >> 14
vqrshrn.s32 d9, q3, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d14, q5, #14 ; >> 14
vqrshrn.s32 d15, q6, #14 ; >> 14
; preloading to avoid stall
; generate cospi_16_64 = 11585
mov r3, #0x2d00
add r3, #0x41
; generate cospi_24_64 = 6270
mov r12, #0x1800
add r12, #0x7e
; step2[5] * cospi_12_64
vmull.s16 q2, d26, d2
vmull.s16 q3, d27, d2
; step2[5] * cospi_20_64
vmull.s16 q9, d26, d3
vmull.s16 q15, d27, d3
; temp1 = input[5] * cospi_12_64 - input[3] * cospi_20_64
vmlsl.s16 q2, d22, d3
vmlsl.s16 q3, d23, d3
; temp2 = step2[5] * cospi_20_64 + step2[6] * cospi_12_64
vmlal.s16 q9, d22, d2
vmlal.s16 q15, d23, d2
; dct_const_round_shift(temp1)
vqrshrn.s32 d10, q2, #14 ; >> 14
vqrshrn.s32 d11, q3, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d12, q9, #14 ; >> 14
vqrshrn.s32 d13, q15, #14 ; >> 14
; stage 4
vdup.16 d30, r3 ; cospi_16_64
; step1[0] * cospi_16_64
vmull.s16 q2, d16, d30
vmull.s16 q11, d17, d30
; step1[1] * cospi_16_64
vmull.s16 q0, d24, d30
vmull.s16 q1, d25, d30
; generate cospi_8_64 = 15137
mov r3, #0x3b00
add r3, #0x21
vdup.16 d30, r12 ; duplicate cospi_24_64
vdup.16 d31, r3 ; duplicate cospi_8_64
; temp1 = (step1[0] + step1[1]) * cospi_16_64
vadd.s32 q3, q2, q0
vadd.s32 q12, q11, q1
; temp2 = (step1[0] - step1[1]) * cospi_16_64
vsub.s32 q13, q2, q0
vsub.s32 q1, q11, q1
; dct_const_round_shift(temp1)
vqrshrn.s32 d16, q3, #14 ; >> 14
vqrshrn.s32 d17, q12, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d18, q13, #14 ; >> 14
vqrshrn.s32 d19, q1, #14 ; >> 14
; step1[2] * cospi_24_64 - step1[3] * cospi_8_64;
; step1[2] * cospi_8_64
vmull.s16 q0, d20, d31
vmull.s16 q1, d21, d31
; step1[2] * cospi_24_64
vmull.s16 q12, d20, d30
vmull.s16 q13, d21, d30
; temp2 = input[1] * cospi_8_64 + input[3] * cospi_24_64
vmlal.s16 q0, d28, d30
vmlal.s16 q1, d29, d30
; temp1 = input[1] * cospi_24_64 - input[3] * cospi_8_64
vmlsl.s16 q12, d28, d31
vmlsl.s16 q13, d29, d31
; dct_const_round_shift(temp2)
vqrshrn.s32 d22, q0, #14 ; >> 14
vqrshrn.s32 d23, q1, #14 ; >> 14
; dct_const_round_shift(temp1)
vqrshrn.s32 d20, q12, #14 ; >> 14
vqrshrn.s32 d21, q13, #14 ; >> 14
vsub.s16 q13, q4, q5 ; step2[5] = step1[4] - step1[5];
vadd.s16 q4, q4, q5 ; step2[4] = step1[4] + step1[5];
vsub.s16 q14, q7, q6 ; step2[6] = -step1[6] + step1[7];
vadd.s16 q15, q6, q7 ; step2[7] = step1[6] + step1[7];
; generate cospi_16_64 = 11585
mov r3, #0x2d00
add r3, #0x41
; stage 5
vadd.s16 q0, q8, q11 ; step1[0] = step2[0] + step2[3];
vadd.s16 q1, q9, q10 ; step1[1] = step2[1] + step2[2];
vsub.s16 q2, q9, q10 ; step1[2] = step2[1] - step2[2];
vsub.s16 q3, q8, q11 ; step1[3] = step2[0] - step2[3];
vdup.16 d16, r3; ; duplicate cospi_16_64
; step2[5] * cospi_16_64
vmull.s16 q11, d26, d16
vmull.s16 q12, d27, d16
; step2[6] * cospi_16_64
vmull.s16 q9, d28, d16
vmull.s16 q10, d29, d16
; temp1 = (step2[6] - step2[5]) * cospi_16_64
vsub.s32 q6, q9, q11
vsub.s32 q13, q10, q12
; temp2 = (step2[5] + step2[6]) * cospi_16_64
vadd.s32 q9, q9, q11
vadd.s32 q10, q10, q12
; dct_const_round_shift(temp1)
vqrshrn.s32 d10, q6, #14 ; >> 14
vqrshrn.s32 d11, q13, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d12, q9, #14 ; >> 14
vqrshrn.s32 d13, q10, #14 ; >> 14
; stage 6
vadd.s16 q8, q0, q15 ; step2[0] = step1[0] + step1[7];
vadd.s16 q9, q1, q6 ; step2[1] = step1[1] + step1[6];
vadd.s16 q10, q2, q5 ; step2[2] = step1[2] + step1[5];
vadd.s16 q11, q3, q4 ; step2[3] = step1[3] + step1[4];
vsub.s16 q12, q3, q4 ; step2[4] = step1[3] - step1[4];
vsub.s16 q13, q2, q5 ; step2[5] = step1[2] - step1[5];
vsub.s16 q14, q1, q6 ; step2[6] = step1[1] - step1[6];
vsub.s16 q15, q0, q15 ; step2[7] = step1[0] - step1[7];
; store the data
vst1.64 {d16}, [r1], r2
vst1.64 {d17}, [r1], r2
vst1.64 {d18}, [r1], r2
vst1.64 {d19}, [r1], r2
vst1.64 {d20}, [r1], r2
vst1.64 {d21}, [r1], r2
vst1.64 {d22}, [r1], r2
vst1.64 {d23}, [r1], r2
vst1.64 {d24}, [r1], r2
vst1.64 {d25}, [r1], r2
vst1.64 {d26}, [r1], r2
vst1.64 {d27}, [r1], r2
vst1.64 {d28}, [r1], r2
vst1.64 {d29}, [r1], r2
vst1.64 {d30}, [r1], r2
vst1.64 {d31}, [r1], r2
bx lr
ENDP ; |vp9_idct16x16_256_add_neon_pass1|
;void vp9_idct16x16_256_add_neon_pass2(int16_t *src,
; int16_t *output,
; int16_t *pass1Output,
; int16_t skip_adding,
; uint8_t *dest,
; int dest_stride)
;
; r0 int16_t *src
; r1 int16_t *output,
; r2 int16_t *pass1Output,
; r3 int16_t skip_adding,
; r4 uint8_t *dest,
; r5 int dest_stride)
; idct16 stage1 - stage7 on all the elements loaded in q8-q15. The output
; will be stored back into q8-q15 registers. This function will touch q0-q7
; registers and use them as buffer during calculation.
|vp9_idct16x16_256_add_neon_pass2| PROC
push {r3-r9}
; TODO(hkuang): Find a better way to load the elements.
; load elements of 1, 3, 5, 7, 9, 11, 13, 15 into q8 - q15
vld2.s16 {q8,q9}, [r0]!
vld2.s16 {q9,q10}, [r0]!
vld2.s16 {q10,q11}, [r0]!
vld2.s16 {q11,q12}, [r0]!
vld2.s16 {q12,q13}, [r0]!
vld2.s16 {q13,q14}, [r0]!
vld2.s16 {q14,q15}, [r0]!
vld2.s16 {q0,q1}, [r0]!
vmov.s16 q15, q0;
; generate cospi_30_64 = 1606
mov r3, #0x0600
add r3, #0x46
; generate cospi_2_64 = 16305
mov r12, #0x3f00
add r12, #0xb1
; transpose the input data
TRANSPOSE8X8
; stage 3
vdup.16 d12, r3 ; duplicate cospi_30_64
vdup.16 d13, r12 ; duplicate cospi_2_64
; preloading to avoid stall
; generate cospi_14_64 = 12665
mov r3, #0x3100
add r3, #0x79
; generate cospi_18_64 = 10394
mov r12, #0x2800
add r12, #0x9a
; step1[8] * cospi_30_64
vmull.s16 q2, d16, d12
vmull.s16 q3, d17, d12
; step1[8] * cospi_2_64
vmull.s16 q1, d16, d13
vmull.s16 q4, d17, d13
; temp1 = step1[8] * cospi_30_64 - step1[15] * cospi_2_64
vmlsl.s16 q2, d30, d13
vmlsl.s16 q3, d31, d13
; temp2 = step1[8] * cospi_2_64 + step1[15] * cospi_30_64
vmlal.s16 q1, d30, d12
vmlal.s16 q4, d31, d12
vdup.16 d30, r3 ; duplicate cospi_14_64
vdup.16 d31, r12 ; duplicate cospi_18_64
; dct_const_round_shift(temp1)
vqrshrn.s32 d0, q2, #14 ; >> 14
vqrshrn.s32 d1, q3, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d14, q1, #14 ; >> 14
vqrshrn.s32 d15, q4, #14 ; >> 14
; preloading to avoid stall
; generate cospi_22_64 = 7723
mov r3, #0x1e00
add r3, #0x2b
; generate cospi_10_64 = 14449
mov r12, #0x3800
add r12, #0x71
; step1[9] * cospi_14_64
vmull.s16 q2, d24, d30
vmull.s16 q3, d25, d30
; step1[9] * cospi_18_64
vmull.s16 q4, d24, d31
vmull.s16 q5, d25, d31
; temp1 = step1[9] * cospi_14_64 - step1[14] * cospi_18_64
vmlsl.s16 q2, d22, d31
vmlsl.s16 q3, d23, d31
; temp2 = step1[9] * cospi_18_64 + step1[14] * cospi_14_64
vmlal.s16 q4, d22, d30
vmlal.s16 q5, d23, d30
vdup.16 d30, r3 ; duplicate cospi_22_64
vdup.16 d31, r12 ; duplicate cospi_10_64
; dct_const_round_shift(temp1)
vqrshrn.s32 d2, q2, #14 ; >> 14
vqrshrn.s32 d3, q3, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d12, q4, #14 ; >> 14
vqrshrn.s32 d13, q5, #14 ; >> 14
; step1[10] * cospi_22_64
vmull.s16 q11, d20, d30
vmull.s16 q12, d21, d30
; step1[10] * cospi_10_64
vmull.s16 q4, d20, d31
vmull.s16 q5, d21, d31
; temp1 = step1[10] * cospi_22_64 - step1[13] * cospi_10_64
vmlsl.s16 q11, d26, d31
vmlsl.s16 q12, d27, d31
; temp2 = step1[10] * cospi_10_64 + step1[13] * cospi_22_64
vmlal.s16 q4, d26, d30
vmlal.s16 q5, d27, d30
; preloading to avoid stall
; generate cospi_6_64 = 15679
mov r3, #0x3d00
add r3, #0x3f
; generate cospi_26_64 = 4756
mov r12, #0x1200
add r12, #0x94
vdup.16 d30, r3 ; duplicate cospi_6_64
vdup.16 d31, r12 ; duplicate cospi_26_64
; dct_const_round_shift(temp1)
vqrshrn.s32 d4, q11, #14 ; >> 14
vqrshrn.s32 d5, q12, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d11, q5, #14 ; >> 14
vqrshrn.s32 d10, q4, #14 ; >> 14
; step1[11] * cospi_6_64
vmull.s16 q10, d28, d30
vmull.s16 q11, d29, d30
; step1[11] * cospi_26_64
vmull.s16 q12, d28, d31
vmull.s16 q13, d29, d31
; temp1 = step1[11] * cospi_6_64 - step1[12] * cospi_26_64
vmlsl.s16 q10, d18, d31
vmlsl.s16 q11, d19, d31
; temp2 = step1[11] * cospi_26_64 + step1[12] * cospi_6_64
vmlal.s16 q12, d18, d30
vmlal.s16 q13, d19, d30
vsub.s16 q9, q0, q1 ; step1[9]=step2[8]-step2[9]
vadd.s16 q0, q0, q1 ; step1[8]=step2[8]+step2[9]
; dct_const_round_shift(temp1)
vqrshrn.s32 d6, q10, #14 ; >> 14
vqrshrn.s32 d7, q11, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d8, q12, #14 ; >> 14
vqrshrn.s32 d9, q13, #14 ; >> 14
; stage 3
vsub.s16 q10, q3, q2 ; step1[10]=-step2[10]+step2[11]
vadd.s16 q11, q2, q3 ; step1[11]=step2[10]+step2[11]
vadd.s16 q12, q4, q5 ; step1[12]=step2[12]+step2[13]
vsub.s16 q13, q4, q5 ; step1[13]=step2[12]-step2[13]
vsub.s16 q14, q7, q6 ; step1[14]=-step2[14]+tep2[15]
vadd.s16 q7, q6, q7 ; step1[15]=step2[14]+step2[15]
; stage 4
; generate cospi_24_64 = 6270
mov r3, #0x1800
add r3, #0x7e
; generate cospi_8_64 = 15137
mov r12, #0x3b00
add r12, #0x21
; -step1[9] * cospi_8_64 + step1[14] * cospi_24_64
vdup.16 d30, r12 ; duplicate cospi_8_64
vdup.16 d31, r3 ; duplicate cospi_24_64
; step1[9] * cospi_24_64
vmull.s16 q2, d18, d31
vmull.s16 q3, d19, d31
; step1[14] * cospi_24_64
vmull.s16 q4, d28, d31
vmull.s16 q5, d29, d31
; temp2 = step1[9] * cospi_24_64 + step1[14] * cospi_8_64
vmlal.s16 q2, d28, d30
vmlal.s16 q3, d29, d30
; temp1 = -step1[9] * cospi_8_64 + step1[14] * cospi_24_64
vmlsl.s16 q4, d18, d30
vmlsl.s16 q5, d19, d30
rsb r12, #0
vdup.16 d30, r12 ; duplicate -cospi_8_64
; dct_const_round_shift(temp2)
vqrshrn.s32 d12, q2, #14 ; >> 14
vqrshrn.s32 d13, q3, #14 ; >> 14
; dct_const_round_shift(temp1)
vqrshrn.s32 d2, q4, #14 ; >> 14
vqrshrn.s32 d3, q5, #14 ; >> 14
vmov.s16 q3, q11
vmov.s16 q4, q12
; - step1[13] * cospi_8_64
vmull.s16 q11, d26, d30
vmull.s16 q12, d27, d30
; -step1[10] * cospi_8_64
vmull.s16 q8, d20, d30
vmull.s16 q9, d21, d30
; temp2 = -step1[10] * cospi_8_64 + step1[13] * cospi_24_64
vmlsl.s16 q11, d20, d31
vmlsl.s16 q12, d21, d31
; temp1 = -step1[10] * cospi_8_64 + step1[13] * cospi_24_64
vmlal.s16 q8, d26, d31
vmlal.s16 q9, d27, d31
; dct_const_round_shift(temp2)
vqrshrn.s32 d4, q11, #14 ; >> 14
vqrshrn.s32 d5, q12, #14 ; >> 14
; dct_const_round_shift(temp1)
vqrshrn.s32 d10, q8, #14 ; >> 14
vqrshrn.s32 d11, q9, #14 ; >> 14
; stage 5
vadd.s16 q8, q0, q3 ; step1[8] = step2[8]+step2[11];
vadd.s16 q9, q1, q2 ; step1[9] = step2[9]+step2[10];
vsub.s16 q10, q1, q2 ; step1[10] = step2[9]-step2[10];
vsub.s16 q11, q0, q3 ; step1[11] = step2[8]-step2[11];
vsub.s16 q12, q7, q4 ; step1[12] =-step2[12]+step2[15];
vsub.s16 q13, q6, q5 ; step1[13] =-step2[13]+step2[14];
vadd.s16 q14, q6, q5 ; step1[14] =step2[13]+step2[14];
vadd.s16 q15, q7, q4 ; step1[15] =step2[12]+step2[15];
; stage 6.
; generate cospi_16_64 = 11585
mov r12, #0x2d00
add r12, #0x41
vdup.16 d14, r12 ; duplicate cospi_16_64
; step1[13] * cospi_16_64
vmull.s16 q3, d26, d14
vmull.s16 q4, d27, d14
; step1[10] * cospi_16_64
vmull.s16 q0, d20, d14
vmull.s16 q1, d21, d14
; temp1 = (-step1[10] + step1[13]) * cospi_16_64
vsub.s32 q5, q3, q0
vsub.s32 q6, q4, q1
; temp2 = (step1[10] + step1[13]) * cospi_16_64
vadd.s32 q10, q3, q0
vadd.s32 q4, q4, q1
; dct_const_round_shift(temp1)
vqrshrn.s32 d4, q5, #14 ; >> 14
vqrshrn.s32 d5, q6, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d10, q10, #14 ; >> 14
vqrshrn.s32 d11, q4, #14 ; >> 14
; step1[11] * cospi_16_64
vmull.s16 q0, d22, d14
vmull.s16 q1, d23, d14
; step1[12] * cospi_16_64
vmull.s16 q13, d24, d14
vmull.s16 q6, d25, d14
; temp1 = (-step1[11] + step1[12]) * cospi_16_64
vsub.s32 q10, q13, q0
vsub.s32 q4, q6, q1
; temp2 = (step1[11] + step1[12]) * cospi_16_64
vadd.s32 q13, q13, q0
vadd.s32 q6, q6, q1
; dct_const_round_shift(temp1)
vqrshrn.s32 d6, q10, #14 ; >> 14
vqrshrn.s32 d7, q4, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d8, q13, #14 ; >> 14
vqrshrn.s32 d9, q6, #14 ; >> 14
mov r4, #16 ; pass1Output stride
ldr r3, [sp] ; load skip_adding
cmp r3, #0 ; check if need adding dest data
beq skip_adding_dest
ldr r7, [sp, #28] ; dest used to save element 0-7
mov r9, r7 ; save dest pointer for later use
ldr r8, [sp, #32] ; load dest_stride
; stage 7
; load the data in pass1
vld1.s16 {q0}, [r2], r4 ; load data step2[0]
vld1.s16 {q1}, [r2], r4 ; load data step2[1]
vld1.s16 {q10}, [r2], r4 ; load data step2[2]
vld1.s16 {q11}, [r2], r4 ; load data step2[3]
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vadd.s16 q12, q0, q15 ; step2[0] + step2[15]
vadd.s16 q13, q1, q14 ; step2[1] + step2[14]
vrshr.s16 q12, q12, #6 ; ROUND_POWER_OF_TWO
vrshr.s16 q13, q13, #6 ; ROUND_POWER_OF_TWO
vaddw.u8 q12, q12, d12 ; + dest[j * dest_stride + i]
vaddw.u8 q13, q13, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q12 ; clip pixel
vqmovun.s16 d13, q13 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vst1.64 {d13}, [r9], r8 ; store the data
vsub.s16 q14, q1, q14 ; step2[1] - step2[14]
vsub.s16 q15, q0, q15 ; step2[0] - step2[15]
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vadd.s16 q12, q10, q5 ; step2[2] + step2[13]
vadd.s16 q13, q11, q4 ; step2[3] + step2[12]
vrshr.s16 q12, q12, #6 ; ROUND_POWER_OF_TWO
vrshr.s16 q13, q13, #6 ; ROUND_POWER_OF_TWO
vaddw.u8 q12, q12, d12 ; + dest[j * dest_stride + i]
vaddw.u8 q13, q13, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q12 ; clip pixel
vqmovun.s16 d13, q13 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vst1.64 {d13}, [r9], r8 ; store the data
vsub.s16 q4, q11, q4 ; step2[3] - step2[12]
vsub.s16 q5, q10, q5 ; step2[2] - step2[13]
vld1.s16 {q0}, [r2], r4 ; load data step2[4]
vld1.s16 {q1}, [r2], r4 ; load data step2[5]
vld1.s16 {q10}, [r2], r4 ; load data step2[6]
vld1.s16 {q11}, [r2], r4 ; load data step2[7]
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vadd.s16 q12, q0, q3 ; step2[4] + step2[11]
vadd.s16 q13, q1, q2 ; step2[5] + step2[10]
vrshr.s16 q12, q12, #6 ; ROUND_POWER_OF_TWO
vrshr.s16 q13, q13, #6 ; ROUND_POWER_OF_TWO
vaddw.u8 q12, q12, d12 ; + dest[j * dest_stride + i]
vaddw.u8 q13, q13, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q12 ; clip pixel
vqmovun.s16 d13, q13 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vst1.64 {d13}, [r9], r8 ; store the data
vsub.s16 q2, q1, q2 ; step2[5] - step2[10]
vsub.s16 q3, q0, q3 ; step2[4] - step2[11]
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vadd.s16 q12, q10, q9 ; step2[6] + step2[9]
vadd.s16 q13, q11, q8 ; step2[7] + step2[8]
vrshr.s16 q12, q12, #6 ; ROUND_POWER_OF_TWO
vrshr.s16 q13, q13, #6 ; ROUND_POWER_OF_TWO
vaddw.u8 q12, q12, d12 ; + dest[j * dest_stride + i]
vaddw.u8 q13, q13, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q12 ; clip pixel
vqmovun.s16 d13, q13 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vst1.64 {d13}, [r9], r8 ; store the data
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vsub.s16 q8, q11, q8 ; step2[7] - step2[8]
vsub.s16 q9, q10, q9 ; step2[6] - step2[9]
; store the data output 8,9,10,11,12,13,14,15
vrshr.s16 q8, q8, #6 ; ROUND_POWER_OF_TWO
vaddw.u8 q8, q8, d12 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q8 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vrshr.s16 q9, q9, #6
vaddw.u8 q9, q9, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d13, q9 ; clip pixel
vst1.64 {d13}, [r9], r8 ; store the data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vrshr.s16 q2, q2, #6
vaddw.u8 q2, q2, d12 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q2 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vrshr.s16 q3, q3, #6
vaddw.u8 q3, q3, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d13, q3 ; clip pixel
vst1.64 {d13}, [r9], r8 ; store the data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vrshr.s16 q4, q4, #6
vaddw.u8 q4, q4, d12 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q4 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vrshr.s16 q5, q5, #6
vaddw.u8 q5, q5, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d13, q5 ; clip pixel
vst1.64 {d13}, [r9], r8 ; store the data
vld1.64 {d13}, [r7], r8 ; load destinatoin data
vrshr.s16 q14, q14, #6
vaddw.u8 q14, q14, d12 ; + dest[j * dest_stride + i]
vqmovun.s16 d12, q14 ; clip pixel
vst1.64 {d12}, [r9], r8 ; store the data
vld1.64 {d12}, [r7], r8 ; load destinatoin data
vrshr.s16 q15, q15, #6
vaddw.u8 q15, q15, d13 ; + dest[j * dest_stride + i]
vqmovun.s16 d13, q15 ; clip pixel
vst1.64 {d13}, [r9], r8 ; store the data
b end_idct16x16_pass2
skip_adding_dest
; stage 7
; load the data in pass1
mov r5, #24
mov r3, #8
vld1.s16 {q0}, [r2], r4 ; load data step2[0]
vld1.s16 {q1}, [r2], r4 ; load data step2[1]
vadd.s16 q12, q0, q15 ; step2[0] + step2[15]
vadd.s16 q13, q1, q14 ; step2[1] + step2[14]
vld1.s16 {q10}, [r2], r4 ; load data step2[2]
vld1.s16 {q11}, [r2], r4 ; load data step2[3]
vst1.64 {d24}, [r1], r3 ; store output[0]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[1]
vst1.64 {d27}, [r1], r5
vadd.s16 q12, q10, q5 ; step2[2] + step2[13]
vadd.s16 q13, q11, q4 ; step2[3] + step2[12]
vsub.s16 q14, q1, q14 ; step2[1] - step2[14]
vsub.s16 q15, q0, q15 ; step2[0] - step2[15]
vst1.64 {d24}, [r1], r3 ; store output[2]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[3]
vst1.64 {d27}, [r1], r5
vsub.s16 q4, q11, q4 ; step2[3] - step2[12]
vsub.s16 q5, q10, q5 ; step2[2] - step2[13]
vld1.s16 {q0}, [r2], r4 ; load data step2[4]
vld1.s16 {q1}, [r2], r4 ; load data step2[5]
vadd.s16 q12, q0, q3 ; step2[4] + step2[11]
vadd.s16 q13, q1, q2 ; step2[5] + step2[10]
vld1.s16 {q10}, [r2], r4 ; load data step2[6]
vld1.s16 {q11}, [r2], r4 ; load data step2[7]
vst1.64 {d24}, [r1], r3 ; store output[4]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[5]
vst1.64 {d27}, [r1], r5
vadd.s16 q12, q10, q9 ; step2[6] + step2[9]
vadd.s16 q13, q11, q8 ; step2[7] + step2[8]
vsub.s16 q2, q1, q2 ; step2[5] - step2[10]
vsub.s16 q3, q0, q3 ; step2[4] - step2[11]
vsub.s16 q8, q11, q8 ; step2[7] - step2[8]
vsub.s16 q9, q10, q9 ; step2[6] - step2[9]
vst1.64 {d24}, [r1], r3 ; store output[6]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[7]
vst1.64 {d27}, [r1], r5
; store the data output 8,9,10,11,12,13,14,15
vst1.64 {d16}, [r1], r3
vst1.64 {d17}, [r1], r5
vst1.64 {d18}, [r1], r3
vst1.64 {d19}, [r1], r5
vst1.64 {d4}, [r1], r3
vst1.64 {d5}, [r1], r5
vst1.64 {d6}, [r1], r3
vst1.64 {d7}, [r1], r5
vst1.64 {d8}, [r1], r3
vst1.64 {d9}, [r1], r5
vst1.64 {d10}, [r1], r3
vst1.64 {d11}, [r1], r5
vst1.64 {d28}, [r1], r3
vst1.64 {d29}, [r1], r5
vst1.64 {d30}, [r1], r3
vst1.64 {d31}, [r1], r5
end_idct16x16_pass2
pop {r3-r9}
bx lr
ENDP ; |vp9_idct16x16_256_add_neon_pass2|
;void |vp9_idct16x16_10_add_neon_pass1|(int16_t *input,
; int16_t *output, int output_stride)
;
; r0 int16_t input
; r1 int16_t *output
; r2 int output_stride)
; idct16 stage1 - stage6 on all the elements loaded in q8-q15. The output
; will be stored back into q8-q15 registers. This function will touch q0-q7
; registers and use them as buffer during calculation.
|vp9_idct16x16_10_add_neon_pass1| PROC
; TODO(hkuang): Find a better way to load the elements.
; load elements of 0, 2, 4, 6, 8, 10, 12, 14 into q8 - q15
vld2.s16 {q8,q9}, [r0]!
vld2.s16 {q9,q10}, [r0]!
vld2.s16 {q10,q11}, [r0]!
vld2.s16 {q11,q12}, [r0]!
vld2.s16 {q12,q13}, [r0]!
vld2.s16 {q13,q14}, [r0]!
vld2.s16 {q14,q15}, [r0]!
vld2.s16 {q1,q2}, [r0]!
vmov.s16 q15, q1
; generate cospi_28_64*2 = 6392
mov r3, #0x1800
add r3, #0xf8
; generate cospi_4_64*2 = 32138
mov r12, #0x7d00
add r12, #0x8a
; transpose the input data
TRANSPOSE8X8
; stage 3
vdup.16 q0, r3 ; duplicate cospi_28_64*2
vdup.16 q1, r12 ; duplicate cospi_4_64*2
; The following instructions use vqrdmulh to do the
; dct_const_round_shift(step2[4] * cospi_28_64). vvqrdmulh will multiply,
; double, and return the high 16 bits, effectively giving >> 15. Doubling
; the constant will change this to >> 14.
; dct_const_round_shift(step2[4] * cospi_28_64);
vqrdmulh.s16 q4, q9, q0
; preloading to avoid stall
; generate cospi_16_64*2 = 23170
mov r3, #0x5a00
add r3, #0x82
; dct_const_round_shift(step2[4] * cospi_4_64);
vqrdmulh.s16 q7, q9, q1
; stage 4
vdup.16 q1, r3 ; cospi_16_64*2
; generate cospi_16_64 = 11585
mov r3, #0x2d00
add r3, #0x41
vdup.16 d4, r3; ; duplicate cospi_16_64
; dct_const_round_shift(step1[0] * cospi_16_64)
vqrdmulh.s16 q8, q8, q1
; step2[6] * cospi_16_64
vmull.s16 q9, d14, d4
vmull.s16 q10, d15, d4
; step2[5] * cospi_16_64
vmull.s16 q12, d9, d4
vmull.s16 q11, d8, d4
; temp1 = (step2[6] - step2[5]) * cospi_16_64
vsub.s32 q15, q10, q12
vsub.s32 q6, q9, q11
; temp2 = (step2[5] + step2[6]) * cospi_16_64
vadd.s32 q9, q9, q11
vadd.s32 q10, q10, q12
; dct_const_round_shift(temp1)
vqrshrn.s32 d11, q15, #14 ; >> 14
vqrshrn.s32 d10, q6, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d12, q9, #14 ; >> 14
vqrshrn.s32 d13, q10, #14 ; >> 14
; stage 6
vadd.s16 q2, q8, q7 ; step2[0] = step1[0] + step1[7];
vadd.s16 q10, q8, q5 ; step2[2] = step1[2] + step1[5];
vadd.s16 q11, q8, q4 ; step2[3] = step1[3] + step1[4];
vadd.s16 q9, q8, q6 ; step2[1] = step1[1] + step1[6];
vsub.s16 q12, q8, q4 ; step2[4] = step1[3] - step1[4];
vsub.s16 q13, q8, q5 ; step2[5] = step1[2] - step1[5];
vsub.s16 q14, q8, q6 ; step2[6] = step1[1] - step1[6];
vsub.s16 q15, q8, q7 ; step2[7] = step1[0] - step1[7];
; store the data
vst1.64 {d4}, [r1], r2
vst1.64 {d5}, [r1], r2
vst1.64 {d18}, [r1], r2
vst1.64 {d19}, [r1], r2
vst1.64 {d20}, [r1], r2
vst1.64 {d21}, [r1], r2
vst1.64 {d22}, [r1], r2
vst1.64 {d23}, [r1], r2
vst1.64 {d24}, [r1], r2
vst1.64 {d25}, [r1], r2
vst1.64 {d26}, [r1], r2
vst1.64 {d27}, [r1], r2
vst1.64 {d28}, [r1], r2
vst1.64 {d29}, [r1], r2
vst1.64 {d30}, [r1], r2
vst1.64 {d31}, [r1], r2
bx lr
ENDP ; |vp9_idct16x16_10_add_neon_pass1|
;void vp9_idct16x16_10_add_neon_pass2(int16_t *src,
; int16_t *output,
; int16_t *pass1Output,
; int16_t skip_adding,
; uint8_t *dest,
; int dest_stride)
;
; r0 int16_t *src
; r1 int16_t *output,
; r2 int16_t *pass1Output,
; r3 int16_t skip_adding,
; r4 uint8_t *dest,
; r5 int dest_stride)
; idct16 stage1 - stage7 on all the elements loaded in q8-q15. The output
; will be stored back into q8-q15 registers. This function will touch q0-q7
; registers and use them as buffer during calculation.
|vp9_idct16x16_10_add_neon_pass2| PROC
push {r3-r9}
; TODO(hkuang): Find a better way to load the elements.
; load elements of 1, 3, 5, 7, 9, 11, 13, 15 into q8 - q15
vld2.s16 {q8,q9}, [r0]!
vld2.s16 {q9,q10}, [r0]!
vld2.s16 {q10,q11}, [r0]!
vld2.s16 {q11,q12}, [r0]!
vld2.s16 {q12,q13}, [r0]!
vld2.s16 {q13,q14}, [r0]!
vld2.s16 {q14,q15}, [r0]!
vld2.s16 {q0,q1}, [r0]!
vmov.s16 q15, q0;
; generate 2*cospi_30_64 = 3212
mov r3, #0xc00
add r3, #0x8c
; generate 2*cospi_2_64 = 32610
mov r12, #0x7f00
add r12, #0x62
; transpose the input data
TRANSPOSE8X8
; stage 3
vdup.16 q6, r3 ; duplicate 2*cospi_30_64
; dct_const_round_shift(step1[8] * cospi_30_64)
vqrdmulh.s16 q0, q8, q6
vdup.16 q6, r12 ; duplicate 2*cospi_2_64
; dct_const_round_shift(step1[8] * cospi_2_64)
vqrdmulh.s16 q7, q8, q6
; preloading to avoid stall
; generate 2*cospi_26_64 = 9512
mov r12, #0x2500
add r12, #0x28
rsb r12, #0
vdup.16 q15, r12 ; duplicate -2*cospi_26_64
; generate 2*cospi_6_64 = 31358
mov r3, #0x7a00
add r3, #0x7e
vdup.16 q14, r3 ; duplicate 2*cospi_6_64
; dct_const_round_shift(- step1[12] * cospi_26_64)
vqrdmulh.s16 q3, q9, q15
; dct_const_round_shift(step1[12] * cospi_6_64)
vqrdmulh.s16 q4, q9, q14
; stage 4
; generate cospi_24_64 = 6270
mov r3, #0x1800
add r3, #0x7e
vdup.16 d31, r3 ; duplicate cospi_24_64
; generate cospi_8_64 = 15137
mov r12, #0x3b00
add r12, #0x21
vdup.16 d30, r12 ; duplicate cospi_8_64
; step1[14] * cospi_24_64
vmull.s16 q12, d14, d31
vmull.s16 q5, d15, d31
; step1[9] * cospi_24_64
vmull.s16 q2, d0, d31
vmull.s16 q11, d1, d31
; temp1 = -step1[9] * cospi_8_64 + step1[14] * cospi_24_64
vmlsl.s16 q12, d0, d30
vmlsl.s16 q5, d1, d30
; temp2 = step1[9] * cospi_24_64 + step1[14] * cospi_8_64
vmlal.s16 q2, d14, d30
vmlal.s16 q11, d15, d30
rsb r12, #0
vdup.16 d30, r12 ; duplicate -cospi_8_64
; dct_const_round_shift(temp1)
vqrshrn.s32 d2, q12, #14 ; >> 14
vqrshrn.s32 d3, q5, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d12, q2, #14 ; >> 14
vqrshrn.s32 d13, q11, #14 ; >> 14
; - step1[13] * cospi_8_64
vmull.s16 q10, d8, d30
vmull.s16 q13, d9, d30
; -step1[10] * cospi_8_64
vmull.s16 q8, d6, d30
vmull.s16 q9, d7, d30
; temp1 = -step1[10] * cospi_24_64 - step1[13] * cospi_8_64
vmlsl.s16 q10, d6, d31
vmlsl.s16 q13, d7, d31
; temp2 = -step1[10] * cospi_8_64 + step1[13] * cospi_24_64
vmlal.s16 q8, d8, d31
vmlal.s16 q9, d9, d31
; dct_const_round_shift(temp1)
vqrshrn.s32 d4, q10, #14 ; >> 14
vqrshrn.s32 d5, q13, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d10, q8, #14 ; >> 14
vqrshrn.s32 d11, q9, #14 ; >> 14
; stage 5
vadd.s16 q8, q0, q3 ; step1[8] = step2[8]+step2[11];
vadd.s16 q9, q1, q2 ; step1[9] = step2[9]+step2[10];
vsub.s16 q10, q1, q2 ; step1[10] = step2[9]-step2[10];
vsub.s16 q11, q0, q3 ; step1[11] = step2[8]-step2[11];
vsub.s16 q12, q7, q4 ; step1[12] =-step2[12]+step2[15];
vsub.s16 q13, q6, q5 ; step1[13] =-step2[13]+step2[14];
vadd.s16 q14, q6, q5 ; step1[14] =step2[13]+step2[14];
vadd.s16 q15, q7, q4 ; step1[15] =step2[12]+step2[15];
; stage 6.
; generate cospi_16_64 = 11585
mov r12, #0x2d00
add r12, #0x41
vdup.16 d14, r12 ; duplicate cospi_16_64
; step1[13] * cospi_16_64
vmull.s16 q3, d26, d14
vmull.s16 q4, d27, d14
; step1[10] * cospi_16_64
vmull.s16 q0, d20, d14
vmull.s16 q1, d21, d14
; temp1 = (-step1[10] + step1[13]) * cospi_16_64
vsub.s32 q5, q3, q0
vsub.s32 q6, q4, q1
; temp2 = (step1[10] + step1[13]) * cospi_16_64
vadd.s32 q0, q3, q0
vadd.s32 q1, q4, q1
; dct_const_round_shift(temp1)
vqrshrn.s32 d4, q5, #14 ; >> 14
vqrshrn.s32 d5, q6, #14 ; >> 14
; dct_const_round_shift(temp2)
vqrshrn.s32 d10, q0, #14 ; >> 14
vqrshrn.s32 d11, q1, #14 ; >> 14
; step1[11] * cospi_16_64
vmull.s16 q0, d22, d14
vmull.s16 q1, d23, d14
; step1[12] * cospi_16_64
vmull.s16 q13, d24, d14
vmull.s16 q6, d25, d14
; temp1 = (-step1[11] + step1[12]) * cospi_16_64
vsub.s32 q10, q13, q0
vsub.s32 q4, q6, q1
; temp2 = (step1[11] + step1[12]) * cospi_16_64
vadd.s32 q13, q13, q0
vadd.s32 q6, q6, q1
; dct_const_round_shift(input_dc * cospi_16_64)
vqrshrn.s32 d6, q10, #14 ; >> 14
vqrshrn.s32 d7, q4, #14 ; >> 14
; dct_const_round_shift((step1[11] + step1[12]) * cospi_16_64);
vqrshrn.s32 d8, q13, #14 ; >> 14
vqrshrn.s32 d9, q6, #14 ; >> 14
mov r4, #16 ; pass1Output stride
ldr r3, [sp] ; load skip_adding
; stage 7
; load the data in pass1
mov r5, #24
mov r3, #8
vld1.s16 {q0}, [r2], r4 ; load data step2[0]
vld1.s16 {q1}, [r2], r4 ; load data step2[1]
vadd.s16 q12, q0, q15 ; step2[0] + step2[15]
vadd.s16 q13, q1, q14 ; step2[1] + step2[14]
vld1.s16 {q10}, [r2], r4 ; load data step2[2]
vld1.s16 {q11}, [r2], r4 ; load data step2[3]
vst1.64 {d24}, [r1], r3 ; store output[0]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[1]
vst1.64 {d27}, [r1], r5
vadd.s16 q12, q10, q5 ; step2[2] + step2[13]
vadd.s16 q13, q11, q4 ; step2[3] + step2[12]
vsub.s16 q14, q1, q14 ; step2[1] - step2[14]
vsub.s16 q15, q0, q15 ; step2[0] - step2[15]
vst1.64 {d24}, [r1], r3 ; store output[2]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[3]
vst1.64 {d27}, [r1], r5
vsub.s16 q4, q11, q4 ; step2[3] - step2[12]
vsub.s16 q5, q10, q5 ; step2[2] - step2[13]
vld1.s16 {q0}, [r2], r4 ; load data step2[4]
vld1.s16 {q1}, [r2], r4 ; load data step2[5]
vadd.s16 q12, q0, q3 ; step2[4] + step2[11]
vadd.s16 q13, q1, q2 ; step2[5] + step2[10]
vld1.s16 {q10}, [r2], r4 ; load data step2[6]
vld1.s16 {q11}, [r2], r4 ; load data step2[7]
vst1.64 {d24}, [r1], r3 ; store output[4]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[5]
vst1.64 {d27}, [r1], r5
vadd.s16 q12, q10, q9 ; step2[6] + step2[9]
vadd.s16 q13, q11, q8 ; step2[7] + step2[8]
vsub.s16 q2, q1, q2 ; step2[5] - step2[10]
vsub.s16 q3, q0, q3 ; step2[4] - step2[11]
vsub.s16 q8, q11, q8 ; step2[7] - step2[8]
vsub.s16 q9, q10, q9 ; step2[6] - step2[9]
vst1.64 {d24}, [r1], r3 ; store output[6]
vst1.64 {d25}, [r1], r5
vst1.64 {d26}, [r1], r3 ; store output[7]
vst1.64 {d27}, [r1], r5
; store the data output 8,9,10,11,12,13,14,15
vst1.64 {d16}, [r1], r3
vst1.64 {d17}, [r1], r5
vst1.64 {d18}, [r1], r3
vst1.64 {d19}, [r1], r5
vst1.64 {d4}, [r1], r3
vst1.64 {d5}, [r1], r5
vst1.64 {d6}, [r1], r3
vst1.64 {d7}, [r1], r5
vst1.64 {d8}, [r1], r3
vst1.64 {d9}, [r1], r5
vst1.64 {d10}, [r1], r3
vst1.64 {d11}, [r1], r5
vst1.64 {d28}, [r1], r3
vst1.64 {d29}, [r1], r5
vst1.64 {d30}, [r1], r3
vst1.64 {d31}, [r1], r5
end_idct10_16x16_pass2
pop {r3-r9}
bx lr
ENDP ; |vp9_idct16x16_10_add_neon_pass2|
END