/*! * \copy * Copyright (c) 2013, Cisco Systems * All rights reserved. * * Redistribution and use in source and binary forms, with or without * modification, are permitted provided that the following conditions * are met: * * * Redistributions of source code must retain the above copyright * notice, this list of conditions and the following disclaimer. * * * Redistributions in binary form must reproduce the above copyright * notice, this list of conditions and the following disclaimer in * the documentation and/or other materials provided with the * distribution. * * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS * "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT * LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS * FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE * COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, * INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER * CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN * ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE * POSSIBILITY OF SUCH DAMAGE. * */ #ifdef HAVE_NEON .text #include "arm_arch_common_macro.S" #ifdef __APPLE__ .macro AVERAGE_TWO_8BITS // { // input:dst_d, src_d A and B; working: q13 vaddl.u8 q13, $2, $1 vrshrn.u16 $0, q13, #1 // } .endm .macro FILTER_6TAG_8BITS // { // input:src[-2], src[-1], src[0], src[1], src[2], src[3], dst_d, multiplier a/b; working: q12, q13 vaddl.u8 q12, $0, $5 //q12=src[-2]+src[3] vaddl.u8 q13, $2, $3 //src[0]+src[1] vmla.u16 q12, q13, $7 //q12 += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, $1, $4 //src[-1]+src[2] vmls.s16 q12, q13, $8 //q12 -= 5*(src[-1]+src[2]), 2 cycles vqrshrun.s16 $6, q12, #5 // } .endm .macro FILTER_SINGLE_TAG_8BITS // when width=17/9, used // { // input: src_d{Y[0][1][2][3][4][5]X, the even of working_q2}, vrev64.8 $2, $0 // X[5][4][3][2][1][0]O vaddl.u8 $3, $0, $2 // each 16bits, *[50][41][32][23][14][05]* vmul.s16 $0, $2, $1 // 0+1*[50]-5*[41]+20[32] vpadd.s16 $0, $0, $0 vpadd.s16 $0, $0, $0 vqrshrun.s16 $0, $4, #5 // } .endm .macro FILTER_6TAG_8BITS_AVERAGE_WITH_0 // { // input:src[-2], src[-1], src[0], src[1], src[2], src[3], dst_d, multiplier a/b; working: q12, q13 vaddl.u8 q12, $0, $5 //q12=src[-2]+src[3] vaddl.u8 q13, $2, $3 //src[0]+src[1] vmla.u16 q12, q13, $7 //q12 += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, $1, $4 //src[-1]+src[2] vmls.s16 q12, q13, $8 //q12 -= 5*(src[-1]+src[2]), 2 cycles vqrshrun.s16 $6, q12, #5 vaddl.u8 q13, $2, $6 vrshrn.u16 $6, q13, #1 // } .endm .macro FILTER_6TAG_8BITS_AVERAGE_WITH_1 // { // input:src[-2], src[-1], src[0], src[1], src[2], src[3], dst_d, multiplier a/b; working: q12, q13 vaddl.u8 q12, $0, $5 //q12=src[-2]+src[3] vaddl.u8 q13, $2, $3 //src[0]+src[1] vmla.u16 q12, q13, $7 //q12 += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, $1, $4 //src[-1]+src[2] vmls.s16 q12, q13, $8 //q12 -= 5*(src[-1]+src[2]), 2 cycles vqrshrun.s16 $6, q12, #5 vaddl.u8 q13, $3, $6 vrshrn.u16 $6, q13, #1 // } .endm .macro FILTER_6TAG_8BITS_TO_16BITS // { // input:d_src[-2], d_src[-1], d_src[0], d_src[1], d_src[2], d_src[3], dst_q, multiplier a/b; working:q13 vaddl.u8 $6, $0, $5 //dst_q=src[-2]+src[3] vaddl.u8 q13, $2, $3 //src[0]+src[1] vmla.u16 $6, q13, $7 //dst_q += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, $1, $4 //src[-1]+src[2] vmls.s16 $6, q13, $8 //dst_q -= 5*(src[-1]+src[2]), 2 cycles // } .endm .macro FILTER_3_IN_16BITS_TO_8BITS // { // input:a, b, c, dst_d; vsub.s16 $0, $0, $1 //a-b vshr.s16 $0, $0, #2 //(a-b)/4 vsub.s16 $0, $0, $1 //(a-b)/4-b vadd.s16 $0, $0, $2 //(a-b)/4-b+c vshr.s16 $0, $0, #2 //((a-b)/4-b+c)/4 vadd.s16 $0, $0, $2 //((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16 vqrshrun.s16 $3, $0, #6 //(+32)>>6 // } .endm .macro UNPACK_2_16BITS_TO_ABC // { // input:q_src[-2:5], q_src[6:13](avail 8+5)/q_src[6:**](avail 4+5), dst_a, dst_b, dst_c; vext.16 $4, $0, $1, #2 //src[0] vext.16 $3, $0, $1, #3 //src[1] vadd.s16 $4, $3 //c=src[0]+src[1] vext.16 $3, $0, $1, #1 //src[-1] vext.16 $2, $0, $1, #4 //src[2] vadd.s16 $3, $2 //b=src[-1]+src[2] vext.16 $2, $0, $1, #5 //src[3] vadd.s16 $2, $0 //a=src[-2]+src[3] // } .endm .macro UNPACK_1_IN_8x16BITS_TO_8BITS // { // each 16bits; input: d_dst, d_src[0:3] (even), d_src[4:5]+%% (odd) vext.16 $3, $3, $3, #7 // 0x????, [0][1][2][3][4][5], vrev64.16 $1, $1 vadd.u16 $2, $1 // C[2+3],B[1+4],A[0+5], vshr.s64 $1, $2, #16 vshr.s64 $0, $2, #32 // Output: C $2, B $1, A $0 vsub.s16 $0, $0, $1 //a-b vshr.s16 $0, $0, #2 //(a-b)/4 vsub.s16 $0, $0, $1 //(a-b)/4-b vadd.s16 $0, $0, $2 //(a-b)/4-b+c vshr.s16 $0, $0, #2 //((a-b)/4-b+c)/4 vadd.s16 $1, $0, $2 //((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16 vqrshrun.s16 $0, $3, #6 //(+32)>>6 // } .endm #else .macro AVERAGE_TWO_8BITS arg0, arg1, arg2 // { // input:dst_d, src_d A and B; working: q13 vaddl.u8 q13, \arg2, \arg1 vrshrn.u16 \arg0, q13, #1 // } .endm .macro FILTER_6TAG_8BITS arg0, arg1, arg2, arg3, arg4, arg5, arg6, arg7, arg8 // { // input:src[-2], src[-1], src[0], src[1], src[2], src[3], dst_d, multiplier a/b; working: q12, q13 vaddl.u8 q12, \arg0, \arg5 //q12=src[-2]+src[3] vaddl.u8 q13, \arg2, \arg3 //src[0]+src[1] vmla.u16 q12, q13, \arg7 //q12 += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, \arg1, \arg4 //src[-1]+src[2] vmls.s16 q12, q13, \arg8 //q12 -= 5*(src[-1]+src[2]), 2 cycles vqrshrun.s16 \arg6, q12, #5 // } .endm .macro FILTER_SINGLE_TAG_8BITS arg0, arg1,arg2, arg3, arg4,arg5 // when width=17/9, used // { // input: src_d{Y[0][1][2][3][4][5]X, the even of working_q2} vrev64.8 \arg2, \arg0 // X[5][4][3][2][1][0]O vaddl.u8 \arg3, \arg0, \arg2 // each 16bits, *[50][41][32][23][14][05]* vmul.s16 \arg0, \arg2, \arg1 // 0+1*[50]-5*[41]+20[32] vpadd.s16 \arg0, \arg0, \arg0 vpadd.s16 \arg0, \arg0, \arg0 vqrshrun.s16 \arg0, \arg4, #5 // } .endm .macro FILTER_6TAG_8BITS_AVERAGE_WITH_0 arg0, arg1, arg2, arg3, arg4, arg5, arg6, arg7, arg8 // { // input:src[-2], src[-1], src[0], src[1], src[2], src[3], dst_d, multiplier a/b; working: q12, q13 vaddl.u8 q12, \arg0, \arg5 //q12=src[-2]+src[3] vaddl.u8 q13, \arg2, \arg3 //src[0]+src[1] vmla.u16 q12, q13, \arg7 //q12 += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, \arg1, \arg4 //src[-1]+src[2] vmls.s16 q12, q13, \arg8 //q12 -= 5*(src[-1]+src[2]), 2 cycles vqrshrun.s16 \arg6, q12, #5 vaddl.u8 q13, \arg2, \arg6 vrshrn.u16 \arg6, q13, #1 // } .endm .macro FILTER_6TAG_8BITS_AVERAGE_WITH_1 arg0, arg1, arg2, arg3, arg4, arg5, arg6, arg7, arg8 // { // input:src[-2], src[-1], src[0], src[1], src[2], src[3], dst_d, multiplier a/b; working: q12, q13 vaddl.u8 q12, \arg0, \arg5 //q12=src[-2]+src[3] vaddl.u8 q13, \arg2, \arg3 //src[0]+src[1] vmla.u16 q12, q13, \arg7 //q12 += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, \arg1, \arg4 //src[-1]+src[2] vmls.s16 q12, q13, \arg8 //q12 -= 5*(src[-1]+src[2]), 2 cycles vqrshrun.s16 \arg6, q12, #5 vaddl.u8 q13, \arg3, \arg6 vrshrn.u16 \arg6, q13, #1 // } .endm .macro FILTER_6TAG_8BITS_TO_16BITS arg0, arg1, arg2, arg3, arg4, arg5, arg6, arg7, arg8 // { // input:d_src[-2], d_src[-1], d_src[0], d_src[1], d_src[2], d_src[3], dst_q, multiplier a/b; working:q13 vaddl.u8 \arg6, \arg0, \arg5 //dst_q=src[-2]+src[3] vaddl.u8 q13, \arg2, \arg3 //src[0]+src[1] vmla.u16 \arg6, q13, \arg7 //dst_q += 20*(src[0]+src[1]), 2 cycles vaddl.u8 q13, \arg1, \arg4 //src[-1]+src[2] vmls.s16 \arg6, q13, \arg8 //dst_q -= 5*(src[-1]+src[2]), 2 cycles // } .endm .macro FILTER_3_IN_16BITS_TO_8BITS arg0, arg1, arg2, arg3 // { // input:a, b, c, dst_d; vsub.s16 \arg0, \arg0, \arg1 //a-b vshr.s16 \arg0, \arg0, #2 //(a-b)/4 vsub.s16 \arg0, \arg0, \arg1 //(a-b)/4-b vadd.s16 \arg0, \arg0, \arg2 //(a-b)/4-b+c vshr.s16 \arg0, \arg0, #2 //((a-b)/4-b+c)/4 vadd.s16 \arg0, \arg0, \arg2 //((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16 vqrshrun.s16 \arg3, \arg0, #6 //(+32)>>6 // } .endm .macro UNPACK_2_16BITS_TO_ABC arg0, arg1, arg2, arg3, arg4 // { // input:q_src[-2:5], q_src[6:13](avail 8+5)/q_src[6:**](avail 4+5), dst_a, dst_b, dst_c; vext.16 \arg4, \arg0, \arg1, #2 //src[0] vext.16 \arg3, \arg0, \arg1, #3 //src[1] vadd.s16 \arg4, \arg3 //c=src[0]+src[1] vext.16 \arg3, \arg0, \arg1, #1 //src[-1] vext.16 \arg2, \arg0, \arg1, #4 //src[2] vadd.s16 \arg3,\arg2 //b=src[-1]+src[2] vext.16 \arg2, \arg0, \arg1, #5 //src[3] vadd.s16 \arg2, \arg0 //a=src[-2]+src[3] // } .endm .macro UNPACK_1_IN_8x16BITS_TO_8BITS arg0, arg1,arg2, arg3 // { // each 16bits; input: d_dst, d_src[0:3] (even), d_src[4:5]+%% (odd) vext.16 \arg3, \arg3, \arg3, #7 // 0x????, [0][1][2][3][4][5] vrev64.16 \arg1, \arg1 vadd.u16 \arg2, \arg1 // C[2+3],B[1+4],A[0+5] vshr.s64 \arg1, \arg2, #16 vshr.s64 \arg0, \arg2, #32 // Output: C \arg2, B \arg1, A \arg0 vsub.s16 \arg0, \arg0, \arg1 //a-b vshr.s16 \arg0, \arg0, #2 //(a-b)/4 vsub.s16 \arg0, \arg0, \arg1 //(a-b)/4-b vadd.s16 \arg0, \arg0, \arg2 //(a-b)/4-b+c vshr.s16 \arg0, \arg0, #2 //((a-b)/4-b+c)/4 vadd.s16 \arg1, \arg0, \arg2 //((a-b)/4-b+c)/4+c = (a-5*b+20*c)/16 vqrshrun.s16 \arg0, \arg3, #6 //(+32)>>6 // } .endm #endif WELS_ASM_FUNC_BEGIN McHorVer20WidthEq16_neon push {r4} ldr r4, [sp, #4] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w16_h_mc_luma_loop: vld1.u8 {d0,d1,d2}, [r0], r1 //only use 21(16+5); q0=src[-2] pld [r0] pld [r0, #16] vext.8 q2, q0, q1, #1 //q2=src[-1] vext.8 q3, q0, q1, #2 //q3=src[0] vext.8 q8, q0, q1, #3 //q8=src[1] vext.8 q9, q0, q1, #4 //q9=src[2] vext.8 q10, q0, q1, #5 //q10=src[3] FILTER_6TAG_8BITS d0, d4, d6, d16, d18, d20, d2, q14, q15 FILTER_6TAG_8BITS d1, d5, d7, d17, d19, d21, d3, q14, q15 sub r4, #1 vst1.u8 {d2, d3}, [r2], r3 //write 16Byte cmp r4, #0 bne w16_h_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer20WidthEq8_neon push {r4} ldr r4, [sp, #4] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w8_h_mc_luma_loop: vld1.u8 {d0,d1}, [r0], r1 //only use 13(8+5); q0=src[-2] pld [r0] vext.8 d2, d0, d1, #1 //d2=src[-1] vext.8 d3, d0, d1, #2 //d3=src[0] vext.8 d4, d0, d1, #3 //d4=src[1] vext.8 d5, d0, d1, #4 //d5=src[2] vext.8 d6, d0, d1, #5 //d6=src[3] FILTER_6TAG_8BITS d0, d2, d3, d4, d5, d6, d1, q14, q15 sub r4, #1 vst1.u8 {d1}, [r2], r3 cmp r4, #0 bne w8_h_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer20WidthEq4_neon push {r4, r5, r6} ldr r6, [sp, #12] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w4_h_mc_luma_loop: vld1.u8 {d0, d1}, [r0], r1 //only use 9(4+5);d0: 1st row src[-2:5] pld [r0] vld1.u8 {d2, d3}, [r0], r1 //d2: 2nd row src[-2:5] pld [r0] vext.8 d4, d0, d1, #1 //d4: 1st row src[-1:6] vext.8 d5, d2, d3, #1 //d5: 2nd row src[-1:6] vext.8 q3, q2, q2, #1 //src[0:6 *] vext.8 q8, q2, q2, #2 //src[1:6 * *] vtrn.32 q3, q8 //q3::d6:1st row [0:3]+[1:4]; d7:2nd row [0:3]+[1:4] vtrn.32 d6, d7 //d6:[0:3]; d7[1:4] vtrn.32 d0, d2 //d0:[-2:1]; d2[2:5] vtrn.32 d4, d5 //d4:[-1:2]; d5[3:6] FILTER_6TAG_8BITS d0, d4, d6, d7, d2, d5, d1, q14, q15 vmov r4, r5, d1 str r4, [r2], r3 str r5, [r2], r3 sub r6, #2 cmp r6, #0 bne w4_h_mc_luma_loop pop {r4, r5, r6} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer10WidthEq16_neon push {r4} ldr r4, [sp, #4] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w16_xy_10_mc_luma_loop: vld1.u8 {d0,d1,d2}, [r0], r1 //only use 21(16+5); q0=src[-2] pld [r0] pld [r0, #16] vext.8 q2, q0, q1, #1 //q2=src[-1] vext.8 q3, q0, q1, #2 //q3=src[0] vext.8 q8, q0, q1, #3 //q8=src[1] vext.8 q9, q0, q1, #4 //q9=src[2] vext.8 q10, q0, q1, #5 //q10=src[3] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d0, d4, d6, d16, d18, d20, d2, q14, q15 FILTER_6TAG_8BITS_AVERAGE_WITH_0 d1, d5, d7, d17, d19, d21, d3, q14, q15 sub r4, #1 vst1.u8 {d2, d3}, [r2], r3 //write 16Byte cmp r4, #0 bne w16_xy_10_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer10WidthEq8_neon push {r4} ldr r4, [sp, #4] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w8_xy_10_mc_luma_loop: vld1.u8 {d0,d1}, [r0], r1 //only use 13(8+5); q0=src[-2] pld [r0] vext.8 d2, d0, d1, #1 //d2=src[-1] vext.8 d3, d0, d1, #2 //d3=src[0] vext.8 d4, d0, d1, #3 //d4=src[1] vext.8 d5, d0, d1, #4 //d5=src[2] vext.8 d6, d0, d1, #5 //d6=src[3] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d0, d2, d3, d4, d5, d6, d1, q14, q15 sub r4, #1 vst1.u8 {d1}, [r2], r3 cmp r4, #0 bne w8_xy_10_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer10WidthEq4_neon push {r4, r5, r6} ldr r6, [sp, #12] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w4_xy_10_mc_luma_loop: vld1.u8 {d0, d1}, [r0], r1 //only use 9(4+5);d0: 1st row src[-2:5] pld [r0] vld1.u8 {d2, d3}, [r0], r1 //d2: 2nd row src[-2:5] pld [r0] vext.8 d4, d0, d1, #1 //d4: 1st row src[-1:6] vext.8 d5, d2, d3, #1 //d5: 2nd row src[-1:6] vext.8 q3, q2, q2, #1 //src[0:6 *] vext.8 q8, q2, q2, #2 //src[1:6 * *] vtrn.32 q3, q8 //q3::d6:1st row [0:3]+[1:4]; d7:2nd row [0:3]+[1:4] vtrn.32 d6, d7 //d6:[0:3]; d7[1:4] vtrn.32 d0, d2 //d0:[-2:1]; d2[2:5] vtrn.32 d4, d5 //d4:[-1:2]; d5[3:6] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d0, d4, d6, d7, d2, d5, d1, q14, q15 vmov r4, r5, d1 str r4, [r2], r3 str r5, [r2], r3 sub r6, #2 cmp r6, #0 bne w4_xy_10_mc_luma_loop pop {r4, r5, r6} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer30WidthEq16_neon push {r4} ldr r4, [sp, #4] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w16_xy_30_mc_luma_loop: vld1.u8 {d0,d1,d2}, [r0], r1 //only use 21(16+5); q0=src[-2] pld [r0] pld [r0, #16] vext.8 q2, q0, q1, #1 //q2=src[-1] vext.8 q3, q0, q1, #2 //q3=src[0] vext.8 q8, q0, q1, #3 //q8=src[1] vext.8 q9, q0, q1, #4 //q9=src[2] vext.8 q10, q0, q1, #5 //q10=src[3] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d0, d4, d6, d16, d18, d20, d2, q14, q15 FILTER_6TAG_8BITS_AVERAGE_WITH_1 d1, d5, d7, d17, d19, d21, d3, q14, q15 sub r4, #1 vst1.u8 {d2, d3}, [r2], r3 //write 16Byte cmp r4, #0 bne w16_xy_30_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer30WidthEq8_neon push {r4} ldr r4, [sp, #4] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w8_xy_30_mc_luma_loop: vld1.u8 {d0,d1}, [r0], r1 //only use 13(8+5); q0=src[-2] pld [r0] vext.8 d2, d0, d1, #1 //d2=src[-1] vext.8 d3, d0, d1, #2 //d3=src[0] vext.8 d4, d0, d1, #3 //d4=src[1] vext.8 d5, d0, d1, #4 //d5=src[2] vext.8 d6, d0, d1, #5 //d6=src[3] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d0, d2, d3, d4, d5, d6, d1, q14, q15 sub r4, #1 vst1.u8 {d1}, [r2], r3 cmp r4, #0 bne w8_xy_30_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer30WidthEq4_neon push {r4, r5, r6} ldr r6, [sp, #12] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w4_xy_30_mc_luma_loop: vld1.u8 {d0, d1}, [r0], r1 //only use 9(4+5);d0: 1st row src[-2:5] pld [r0] vld1.u8 {d2, d3}, [r0], r1 //d2: 2nd row src[-2:5] pld [r0] vext.8 d4, d0, d1, #1 //d4: 1st row src[-1:6] vext.8 d5, d2, d3, #1 //d5: 2nd row src[-1:6] vext.8 q3, q2, q2, #1 //src[0:6 *] vext.8 q8, q2, q2, #2 //src[1:6 * *] vtrn.32 q3, q8 //q3::d6:1st row [0:3]+[1:4]; d7:2nd row [0:3]+[1:4] vtrn.32 d6, d7 //d6:[0:3]; d7[1:4] vtrn.32 d0, d2 //d0:[-2:1]; d2[2:5] vtrn.32 d4, d5 //d4:[-1:2]; d5[3:6] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d0, d4, d6, d7, d2, d5, d1, q14, q15 vmov r4, r5, d1 str r4, [r2], r3 str r5, [r2], r3 sub r6, #2 cmp r6, #0 bne w4_xy_30_mc_luma_loop pop {r4, r5, r6} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer01WidthEq16_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {q0}, [r0], r1 //q0=src[-2] vld1.u8 {q1}, [r0], r1 //q1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {q2}, [r0], r1 //q2=src[0] vld1.u8 {q3}, [r0], r1 //q3=src[1] vld1.u8 {q8}, [r0], r1 //q8=src[2] w16_xy_01_luma_loop: vld1.u8 {q9}, [r0], r1 //q9=src[3] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 2nd row vst1.u8 {q10}, [r2], r3 //write 1st 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_0 d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d3, d5, d7, d17, d19, d1, d21, q14, q15 vld1.u8 {q1}, [r0], r1 //read 3rd row vst1.u8 {q10}, [r2], r3 //write 2nd 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_0 d4, d6, d16, d18, d0, d2, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d5, d7, d17, d19, d1, d3, d21, q14, q15 vld1.u8 {q2}, [r0], r1 //read 4th row vst1.u8 {q10}, [r2], r3 //write 3rd 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_0 d6, d16, d18, d0, d2, d4, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d7, d17, d19, d1, d3, d5, d21, q14, q15 vld1.u8 {q3}, [r0], r1 //read 5th row vst1.u8 {q10}, [r2], r3 //write 4th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_0 d16, d18, d0, d2, d4, d6, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d17, d19, d1, d3, d5, d7, d21, q14, q15 vld1.u8 {q8}, [r0], r1 //read 6th row vst1.u8 {q10}, [r2], r3 //write 5th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_0 d18, d0, d2, d4, d6, d16, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d19, d1, d3, d5, d7, d17, d21, q14, q15 vld1.u8 {q9}, [r0], r1 //read 7th row vst1.u8 {q10}, [r2], r3 //write 6th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_0 d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 8th row vst1.u8 {q10}, [r2], r3 //write 7th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_0 d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d3, d5, d7, d17, d19, d1, d21, q14, q15 vst1.u8 {q10}, [r2], r3 //write 8th 16Byte //q2, q3, q4, q5, q0 --> q0~q4 vswp q0, q8 vswp q0, q2 vmov q1, q3 vmov q3, q9 //q0~q4 sub r4, #8 cmp r4, #0 bne w16_xy_01_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer01WidthEq8_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {d0}, [r0], r1 //d0=src[-2] vld1.u8 {d1}, [r0], r1 //d1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {d2}, [r0], r1 //d2=src[0] vld1.u8 {d3}, [r0], r1 //d3=src[1] vld1.u8 {d4}, [r0], r1 //d4=src[2] vld1.u8 {d5}, [r0], r1 //d5=src[3] w8_xy_01_mc_luma_loop: pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d0, d1, d2, d3, d4, d5, d16, q14, q15 vld1.u8 {d0}, [r0], r1 //read 2nd row vst1.u8 {d16}, [r2], r3 //write 1st 8Byte pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d1, d2, d3, d4, d5, d0, d16, q14, q15 vld1.u8 {d1}, [r0], r1 //read 3rd row vst1.u8 {d16}, [r2], r3 //write 2nd 8Byte pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d2, d3, d4, d5, d0, d1, d16, q14, q15 vld1.u8 {d2}, [r0], r1 //read 4th row vst1.u8 {d16}, [r2], r3 //write 3rd 8Byte pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_0 d3, d4, d5, d0, d1, d2, d16, q14, q15 vld1.u8 {d3}, [r0], r1 //read 5th row vst1.u8 {d16}, [r2], r3 //write 4th 8Byte //d4, d5, d0, d1, d2, d3 --> d0, d1, d2, d3, d4, d5 vswp q0, q2 vswp q1, q2 sub r4, #4 cmp r4, #0 bne w8_xy_01_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer01WidthEq4_neon push {r4, r5, r6, r7} sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 ldr r4, [r0], r1 //r4=src[-2] ldr r5, [r0], r1 //r5=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 ldr r6, [r0], r1 //r6=src[0] ldr r7, [r0], r1 //r7=src[1] vmov d0, r4, r5 vmov d1, r5, r6 vmov d2, r6, r7 ldr r4, [r0], r1 //r4=src[2] vmov d3, r7, r4 ldr r7, [sp, #16] w4_xy_01_mc_luma_loop: // pld [r0] //using reserving r4 ldr r5, [r0], r1 //r5=src[3] ldr r6, [r0], r1 //r6=src[0] vmov d4, r4, r5 vmov d5, r5, r6 //reserved r6 FILTER_6TAG_8BITS_AVERAGE_WITH_0 d0, d1, d2, d3, d4, d5, d16, q14, q15 vmov r4, r5, d16 str r4, [r2], r3 //write 1st 4Byte str r5, [r2], r3 //write 2nd 4Byte ldr r5, [r0], r1 //r5=src[1] ldr r4, [r0], r1 //r4=src[2] vmov d0, r6, r5 vmov d1, r5, r4 //reserved r4 FILTER_6TAG_8BITS_AVERAGE_WITH_0 d2, d3, d4, d5, d0, d1, d16, q14, q15 vmov r5, r6, d16 str r5, [r2], r3 //write 3rd 4Byte str r6, [r2], r3 //write 4th 4Byte //d4, d5, d0, d1 --> d0, d1, d2, d3 vmov q1, q0 vmov q0, q2 sub r7, #4 cmp r7, #0 bne w4_xy_01_mc_luma_loop pop {r4, r5, r6, r7} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer03WidthEq16_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {q0}, [r0], r1 //q0=src[-2] vld1.u8 {q1}, [r0], r1 //q1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {q2}, [r0], r1 //q2=src[0] vld1.u8 {q3}, [r0], r1 //q3=src[1] vld1.u8 {q8}, [r0], r1 //q8=src[2] w16_xy_03_luma_loop: vld1.u8 {q9}, [r0], r1 //q9=src[3] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 2nd row vst1.u8 {q10}, [r2], r3 //write 1st 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_1 d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d3, d5, d7, d17, d19, d1, d21, q14, q15 vld1.u8 {q1}, [r0], r1 //read 3rd row vst1.u8 {q10}, [r2], r3 //write 2nd 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_1 d4, d6, d16, d18, d0, d2, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d5, d7, d17, d19, d1, d3, d21, q14, q15 vld1.u8 {q2}, [r0], r1 //read 4th row vst1.u8 {q10}, [r2], r3 //write 3rd 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_1 d6, d16, d18, d0, d2, d4, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d7, d17, d19, d1, d3, d5, d21, q14, q15 vld1.u8 {q3}, [r0], r1 //read 5th row vst1.u8 {q10}, [r2], r3 //write 4th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_1 d16, d18, d0, d2, d4, d6, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d17, d19, d1, d3, d5, d7, d21, q14, q15 vld1.u8 {q8}, [r0], r1 //read 6th row vst1.u8 {q10}, [r2], r3 //write 5th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_1 d18, d0, d2, d4, d6, d16, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d19, d1, d3, d5, d7, d17, d21, q14, q15 vld1.u8 {q9}, [r0], r1 //read 7th row vst1.u8 {q10}, [r2], r3 //write 6th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_1 d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 8th row vst1.u8 {q10}, [r2], r3 //write 7th 16Byte FILTER_6TAG_8BITS_AVERAGE_WITH_1 d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d3, d5, d7, d17, d19, d1, d21, q14, q15 vst1.u8 {q10}, [r2], r3 //write 8th 16Byte //q2, q3, q8, q9, q0 --> q0~q8 vswp q0, q8 vswp q0, q2 vmov q1, q3 vmov q3, q9 //q0~q8 sub r4, #8 cmp r4, #0 bne w16_xy_03_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer03WidthEq8_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {d0}, [r0], r1 //d0=src[-2] vld1.u8 {d1}, [r0], r1 //d1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {d2}, [r0], r1 //d2=src[0] vld1.u8 {d3}, [r0], r1 //d3=src[1] vld1.u8 {d4}, [r0], r1 //d4=src[2] vld1.u8 {d5}, [r0], r1 //d5=src[3] w8_xy_03_mc_luma_loop: pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d0, d1, d2, d3, d4, d5, d16, q14, q15 vld1.u8 {d0}, [r0], r1 //read 2nd row vst1.u8 {d16}, [r2], r3 //write 1st 8Byte pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d1, d2, d3, d4, d5, d0, d16, q14, q15 vld1.u8 {d1}, [r0], r1 //read 3rd row vst1.u8 {d16}, [r2], r3 //write 2nd 8Byte pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d2, d3, d4, d5, d0, d1, d16, q14, q15 vld1.u8 {d2}, [r0], r1 //read 4th row vst1.u8 {d16}, [r2], r3 //write 3rd 8Byte pld [r0] FILTER_6TAG_8BITS_AVERAGE_WITH_1 d3, d4, d5, d0, d1, d2, d16, q14, q15 vld1.u8 {d3}, [r0], r1 //read 5th row vst1.u8 {d16}, [r2], r3 //write 4th 8Byte //d4, d5, d0, d1, d2, d3 --> d0, d1, d2, d3, d4, d5 vswp q0, q2 vswp q1, q2 sub r4, #4 cmp r4, #0 bne w8_xy_03_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer03WidthEq4_neon push {r4, r5, r6, r7} sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 ldr r4, [r0], r1 //r4=src[-2] ldr r5, [r0], r1 //r5=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 ldr r6, [r0], r1 //r6=src[0] ldr r7, [r0], r1 //r7=src[1] vmov d0, r4, r5 vmov d1, r5, r6 vmov d2, r6, r7 ldr r4, [r0], r1 //r4=src[2] vmov d3, r7, r4 ldr r7, [sp, #16] w4_xy_03_mc_luma_loop: // pld [r0] //using reserving r4 ldr r5, [r0], r1 //r5=src[3] ldr r6, [r0], r1 //r6=src[0] vmov d4, r4, r5 vmov d5, r5, r6 //reserved r6 FILTER_6TAG_8BITS_AVERAGE_WITH_1 d0, d1, d2, d3, d4, d5, d16, q14, q15 vmov r4, r5, d16 str r4, [r2], r3 //write 1st 4Byte str r5, [r2], r3 //write 2nd 4Byte ldr r5, [r0], r1 //r5=src[1] ldr r4, [r0], r1 //r4=src[2] vmov d0, r6, r5 vmov d1, r5, r4 //reserved r4 FILTER_6TAG_8BITS_AVERAGE_WITH_1 d2, d3, d4, d5, d0, d1, d16, q14, q15 vmov r5, r6, d16 str r5, [r2], r3 //write 3rd 4Byte str r6, [r2], r3 //write 4th 4Byte //d4, d5, d0, d1 --> d0, d1, d2, d3 vmov q1, q0 vmov q0, q2 sub r7, #4 cmp r7, #0 bne w4_xy_03_mc_luma_loop pop {r4, r5, r6, r7} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer02WidthEq16_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {q0}, [r0], r1 //q0=src[-2] vld1.u8 {q1}, [r0], r1 //q1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {q2}, [r0], r1 //q2=src[0] vld1.u8 {q3}, [r0], r1 //q3=src[1] vld1.u8 {q8}, [r0], r1 //q8=src[2] w16_v_mc_luma_loop: vld1.u8 {q9}, [r0], r1 //q9=src[3] FILTER_6TAG_8BITS d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 2nd row vst1.u8 {q10}, [r2], r3 //write 1st 16Byte FILTER_6TAG_8BITS d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d3, d5, d7, d17, d19, d1, d21, q14, q15 vld1.u8 {q1}, [r0], r1 //read 3rd row vst1.u8 {q10}, [r2], r3 //write 2nd 16Byte FILTER_6TAG_8BITS d4, d6, d16, d18, d0, d2, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d5, d7, d17, d19, d1, d3, d21, q14, q15 vld1.u8 {q2}, [r0], r1 //read 4th row vst1.u8 {q10}, [r2], r3 //write 3rd 16Byte FILTER_6TAG_8BITS d6, d16, d18, d0, d2, d4, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d7, d17, d19, d1, d3, d5, d21, q14, q15 vld1.u8 {q3}, [r0], r1 //read 5th row vst1.u8 {q10}, [r2], r3 //write 4th 16Byte FILTER_6TAG_8BITS d16, d18, d0, d2, d4, d6, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d17, d19, d1, d3, d5, d7, d21, q14, q15 vld1.u8 {q8}, [r0], r1 //read 6th row vst1.u8 {q10}, [r2], r3 //write 5th 16Byte FILTER_6TAG_8BITS d18, d0, d2, d4, d6, d16, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d19, d1, d3, d5, d7, d17, d21, q14, q15 vld1.u8 {q9}, [r0], r1 //read 7th row vst1.u8 {q10}, [r2], r3 //write 6th 16Byte FILTER_6TAG_8BITS d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 8th row vst1.u8 {q10}, [r2], r3 //write 7th 16Byte FILTER_6TAG_8BITS d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d3, d5, d7, d17, d19, d1, d21, q14, q15 vst1.u8 {q10}, [r2], r3 //write 8th 16Byte //q2, q3, q8, q9, q0 --> q0~q8 vswp q0, q8 vswp q0, q2 vmov q1, q3 vmov q3, q9 //q0~q8 sub r4, #8 cmp r4, #0 bne w16_v_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer02WidthEq8_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {d0}, [r0], r1 //d0=src[-2] vld1.u8 {d1}, [r0], r1 //d1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {d2}, [r0], r1 //d2=src[0] vld1.u8 {d3}, [r0], r1 //d3=src[1] vld1.u8 {d4}, [r0], r1 //d4=src[2] vld1.u8 {d5}, [r0], r1 //d5=src[3] w8_v_mc_luma_loop: pld [r0] FILTER_6TAG_8BITS d0, d1, d2, d3, d4, d5, d16, q14, q15 vld1.u8 {d0}, [r0], r1 //read 2nd row vst1.u8 {d16}, [r2], r3 //write 1st 8Byte pld [r0] FILTER_6TAG_8BITS d1, d2, d3, d4, d5, d0, d16, q14, q15 vld1.u8 {d1}, [r0], r1 //read 3rd row vst1.u8 {d16}, [r2], r3 //write 2nd 8Byte pld [r0] FILTER_6TAG_8BITS d2, d3, d4, d5, d0, d1, d16, q14, q15 vld1.u8 {d2}, [r0], r1 //read 4th row vst1.u8 {d16}, [r2], r3 //write 3rd 8Byte pld [r0] FILTER_6TAG_8BITS d3, d4, d5, d0, d1, d2, d16, q14, q15 vld1.u8 {d3}, [r0], r1 //read 5th row vst1.u8 {d16}, [r2], r3 //write 4th 8Byte //d4, d5, d0, d1, d2, d3 --> d0, d1, d2, d3, d4, d5 vswp q0, q2 vswp q1, q2 sub r4, #4 cmp r4, #0 bne w8_v_mc_luma_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer02WidthEq4_neon push {r4, r5, r6, r7} sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 ldr r4, [r0], r1 //r4=src[-2] ldr r5, [r0], r1 //r5=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 ldr r6, [r0], r1 //r6=src[0] ldr r7, [r0], r1 //r7=src[1] vmov d0, r4, r5 vmov d1, r5, r6 vmov d2, r6, r7 ldr r4, [r0], r1 //r4=src[2] vmov d3, r7, r4 ldr r7, [sp, #16] w4_v_mc_luma_loop: // pld [r0] //using reserving r4 ldr r5, [r0], r1 //r5=src[3] ldr r6, [r0], r1 //r6=src[0] vmov d4, r4, r5 vmov d5, r5, r6 //reserved r6 FILTER_6TAG_8BITS d0, d1, d2, d3, d4, d5, d16, q14, q15 vmov r4, r5, d16 str r4, [r2], r3 //write 1st 4Byte str r5, [r2], r3 //write 2nd 4Byte ldr r5, [r0], r1 //r5=src[1] ldr r4, [r0], r1 //r4=src[2] vmov d0, r6, r5 vmov d1, r5, r4 //reserved r4 FILTER_6TAG_8BITS d2, d3, d4, d5, d0, d1, d16, q14, q15 vmov r5, r6, d16 str r5, [r2], r3 //write 3rd 4Byte str r6, [r2], r3 //write 4th 4Byte //d4, d5, d0, d1 --> d0, d1, d2, d3 vmov q1, q0 vmov q0, q2 sub r7, #4 cmp r7, #0 bne w4_v_mc_luma_loop pop {r4, r5, r6, r7} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer22WidthEq16_neon push {r4} vpush {q4-q7} ldr r4, [sp, #68] sub r0, #2 //src[-2] sub r0, r0, r1, lsl #1 //src[-2*src_stride-2] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {d0-d2}, [r0], r1 //use 21(16+5), =src[-2] vld1.u8 {d3-d5}, [r0], r1 //use 21(16+5), =src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {d6-d8}, [r0], r1 //use 21(16+5), =src[0] vld1.u8 {d9-d11}, [r0], r1 //use 21(16+5), =src[1] pld [r0] pld [r0, r1] vld1.u8 {d12-d14}, [r0], r1 //use 21(16+5), =src[2] w16_hv_mc_luma_loop: vld1.u8 {d15-d17}, [r0], r1 //use 21(16+5), =src[3] //the 1st row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d0, d3, d6, d9, d12, d15, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d1, d4, d7,d10, d13, d16,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d0 //output to q0[0] // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d2, d5, d8,d11, d14, d17,q11, q14, q15 // only 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d1 //output to q0[1] vst1.u8 {q0}, [r2], r3 //write 16Byte vld1.u8 {d0-d2}, [r0], r1 //read 2nd row //the 2nd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d3, d6, d9, d12, d15, d0, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d4, d7,d10, d13, d16, d1,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d3 //output to d3 // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d5, d8,d11, d14, d17, d2,q11, q14, q15 // only 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d4 //output to d4 vst1.u8 {d3, d4}, [r2], r3 //write 16Byte vld1.u8 {d3-d5}, [r0], r1 //read 3rd row //the 3rd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d6, d9, d12, d15, d0, d3, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d7,d10, d13, d16, d1, d4,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d6 //output to d6 // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d8,d11, d14, d17, d2, d5,q11, q14, q15 // only 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d7 //output to d7 vst1.u8 {d6, d7}, [r2], r3 //write 16Byte vld1.u8 {d6-d8}, [r0], r1 //read 4th row //the 4th row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d9, d12, d15, d0, d3, d6, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d10, d13, d16, d1, d4, d7,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d9 //output to d9 // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d11, d14, d17, d2, d5, d8,q11, q14, q15 // only 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d10 //output to d10 vst1.u8 {d9, d10}, [r2], r3 //write 16Byte //d12~d17(q6~q8), d0~d8(q0~q3+d8), --> d0~d14 vswp q0, q6 vswp q6, q3 vmov q5, q2 vmov q2, q8 vmov d20,d8 vmov q4, q1 vmov q1, q7 vmov d14,d20 sub r4, #4 cmp r4, #0 bne w16_hv_mc_luma_loop vpop {q4-q7} pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer22WidthEq8_neon push {r4} vpush {q4} ldr r4, [sp, #20] sub r0, #2 //src[-2] sub r0, r0, r1, lsl #1 //src[-2*src_stride-2] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {q0}, [r0], r1 //use 13(8+5), =src[-2] vld1.u8 {q1}, [r0], r1 //use 13(8+5), =src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {q2}, [r0], r1 //use 13(8+5), =src[0] vld1.u8 {q3}, [r0], r1 //use 13(8+5), =src[1] pld [r0] pld [r0, r1] vld1.u8 {q4}, [r0], r1 //use 13(8+5), =src[2] w8_hv_mc_luma_loop: vld1.u8 {q8}, [r0], r1 //use 13(8+5), =src[3] //the 1st row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d0, d2, d4, d6, d8, d16, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d1, d3, d5, d7, d9, d17, q10, q14, q15 // 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2], r3 //write 8Byte vld1.u8 {q0}, [r0], r1 //read 2nd row //the 2nd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d2, d4, d6, d8, d16, d0, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d3, d5, d7, d9, d17, d1, q10, q14, q15 // 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2], r3 //write 8Byte vld1.u8 {q1}, [r0], r1 //read 3rd row //the 3rd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d4, d6, d8, d16, d0, d2, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d5, d7, d9, d17, d1, d3, q10, q14, q15 // 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2], r3 //write 8Byte vld1.u8 {q2}, [r0], r1 //read 4th row //the 4th row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d6, d8, d16, d0, d2, d4, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d7, d9, d17, d1, d3, d5, q10, q14, q15 // 5 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2], r3 //write 8Byte //q4~q5, q0~q2, --> q0~q4 vswp q0, q4 vswp q2, q4 vmov q3, q1 vmov q1, q8 sub r4, #4 cmp r4, #0 bne w8_hv_mc_luma_loop vpop {q4} pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer22WidthEq4_neon push {r4 ,r5, r6} vpush {q4-q7} ldr r6, [sp, #76] sub r0, #2 //src[-2] sub r0, r0, r1, lsl #1 //src[-2*src_stride-2] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {q0}, [r0], r1 //use 9(4+5), =src[-2] vld1.u8 {q1}, [r0], r1 //use 9(4+5), =src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {q2}, [r0], r1 //use 9(4+5), =src[0] vld1.u8 {q3}, [r0], r1 //use 9(4+5), =src[1] pld [r0] pld [r0, r1] vld1.u8 {q4}, [r0], r1 //use 9(4+5), =src[2] w4_hv_mc_luma_loop: vld1.u8 {q5}, [r0], r1 //use 9(4+5), =src[3] vld1.u8 {q6}, [r0], r1 //use 9(4+5), =src[4] //the 1st&2nd row pld [r0] pld [r0, r1] // vertical filtered FILTER_6TAG_8BITS_TO_16BITS d0, d2, d4, d6, d8, d10, q7, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d1, d3, d5, d7, d9, d11, q8, q14, q15 // 1 avail FILTER_6TAG_8BITS_TO_16BITS d2, d4, d6, d8,d10, d12, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d3, d5, d7, d9,d11, d13,q10, q14, q15 // 1 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q7, q8, q11, q12, q13 //4 avail UNPACK_2_16BITS_TO_ABC q9,q10, q0, q7, q8 //4 avail vmov d23, d0 vmov d25, d14 vmov d27, d16 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d22 //output to q11[0] vmov r4 ,r5, d22 str r4, [r2], r3 //write 4Byte str r5, [r2], r3 //write 4Byte //the 3rd&4th row vld1.u8 {q0}, [r0], r1 //use 9(4+5), =src[3] vld1.u8 {q1}, [r0], r1 //use 9(4+5), =src[4] pld [r0] pld [r0, r1] // vertical filtered FILTER_6TAG_8BITS_TO_16BITS d4, d6, d8, d10, d12, d0, q7, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d5, d7, d9, d11, d13, d1, q8, q14, q15 // 1 avail FILTER_6TAG_8BITS_TO_16BITS d6, d8,d10, d12, d0, d2, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d7, d9,d11, d13, d1, d3,q10, q14, q15 // 1 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q7, q8, q11, q12, q13 //4 avail UNPACK_2_16BITS_TO_ABC q9,q10, q2, q7, q8 //4 avail vmov d23, d4 vmov d25, d14 vmov d27, d16 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d22 //output to q11[0] vmov r4 ,r5, d22 str r4, [r2], r3 //write 4Byte str r5, [r2], r3 //write 4Byte //q4~q6, q0~q1, --> q0~q4 vswp q4, q0 vmov q3, q4 vmov q4, q1 vmov q1, q5 vmov q2, q6 sub r6, #4 cmp r6, #0 bne w4_hv_mc_luma_loop vpop {q4-q7} pop {r4, r5, r6} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McCopyWidthEq16_neon push {r4} ldr r4, [sp, #4] w16_copy_loop: vld1.u8 {q0}, [r0], r1 sub r4, #2 vld1.u8 {q1}, [r0], r1 vst1.u8 {q0}, [r2], r3 cmp r4, #0 vst1.u8 {q1}, [r2], r3 bne w16_copy_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McCopyWidthEq8_neon push {r4} ldr r4, [sp, #4] w8_copy_loop: vld1.u8 {d0}, [r0], r1 vld1.u8 {d1}, [r0], r1 vst1.u8 {d0}, [r2], r3 vst1.u8 {d1}, [r2], r3 sub r4, #2 cmp r4, #0 bne w8_copy_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McCopyWidthEq4_neon push {r4, r5, r6} ldr r4, [sp, #12] w4_copy_loop: ldr r5, [r0], r1 ldr r6, [r0], r1 str r5, [r2], r3 str r6, [r2], r3 sub r4, #2 cmp r4, #0 bne w4_copy_loop pop {r4, r5, r6} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN PixelAvgWidthEq16_neon push {r4} ldr r4, [sp, #4] w16_pix_avg_loop: vld1.u8 {q0}, [r2]! vld1.u8 {q1}, [r3]! vld1.u8 {q2}, [r2]! vld1.u8 {q3}, [r3]! vld1.u8 {q8}, [r2]! vld1.u8 {q9}, [r3]! vld1.u8 {q10}, [r2]! vld1.u8 {q11}, [r3]! AVERAGE_TWO_8BITS d0, d0, d2 AVERAGE_TWO_8BITS d1, d1, d3 vst1.u8 {q0}, [r0], r1 AVERAGE_TWO_8BITS d4, d4, d6 AVERAGE_TWO_8BITS d5, d5, d7 vst1.u8 {q2}, [r0], r1 AVERAGE_TWO_8BITS d16, d16, d18 AVERAGE_TWO_8BITS d17, d17, d19 vst1.u8 {q8}, [r0], r1 AVERAGE_TWO_8BITS d20, d20, d22 AVERAGE_TWO_8BITS d21, d21, d23 vst1.u8 {q10}, [r0], r1 sub r4, #4 cmp r4, #0 bne w16_pix_avg_loop pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN PixelAvgWidthEq8_neon push {r4, r5} ldr r4, [sp, #8] mov r5, #16 w8_pix_avg_loop: vld1.u8 {d0}, [r2], r5 vld1.u8 {d2}, [r3], r5 vld1.u8 {d1}, [r2], r5 vld1.u8 {d3}, [r3], r5 AVERAGE_TWO_8BITS d0, d0, d2 AVERAGE_TWO_8BITS d1, d1, d3 vst1.u8 {d0}, [r0], r1 vst1.u8 {d1}, [r0], r1 vld1.u8 {d4}, [r2], r5 vld1.u8 {d6}, [r3], r5 vld1.u8 {d5}, [r2], r5 vld1.u8 {d7}, [r3], r5 AVERAGE_TWO_8BITS d4, d4, d6 AVERAGE_TWO_8BITS d5, d5, d7 vst1.u8 {d4}, [r0], r1 vst1.u8 {d5}, [r0], r1 sub r4, #4 cmp r4, #0 bne w8_pix_avg_loop pop {r4, r5} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN PixelAvgWidthEq4_neon push {r4-r8} ldr r4, [sp, #20] w4_pix_avg_loop: ldr r5, [r2] ldr r6, [r2, #16] ldr r7, [r3] ldr r8, [r3, #16] add r2, #32 add r3, #32 vmov d0, r5, r6 vmov d1, r7, r8 AVERAGE_TWO_8BITS d0, d0, d1 vmov r5, r6, d0 str r5, [r0], r1 str r6, [r0], r1 sub r4, #2 cmp r4, #0 bne w4_pix_avg_loop pop {r4-r8} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McChromaWidthEq8_neon push {r4, r5} ldr r4, [sp, #8] ldr r5, [sp, #12] // normal case: {cA*src[x] + cB*src[x+1]} + {cC*src[x+stride] + cD*srcp[x+stride+1]} // we can opti it by adding vert only/ hori only cases, to be continue vld1.u8 {d31}, [r4] //load A/B/C/D vld1.u8 {q0}, [r0], r1 //src[x] vdup.u8 d28, d31[0] //A vdup.u8 d29, d31[1] //B vdup.u8 d30, d31[2] //C vdup.u8 d31, d31[3] //D vext.u8 d1, d0, d1, #1 //src[x+1] w8_mc_chroma_loop: // each two pxl row vld1.u8 {q1}, [r0], r1 //src[x+stride] vld1.u8 {q2}, [r0], r1 //src[x+2*stride] vext.u8 d3, d2, d3, #1 //src[x+stride+1] vext.u8 d5, d4, d5, #1 //src[x+2*stride+1] vmull.u8 q3, d0, d28 //(src[x] * A) vmlal.u8 q3, d1, d29 //+=(src[x+1] * B) vmlal.u8 q3, d2, d30 //+=(src[x+stride] * C) vmlal.u8 q3, d3, d31 //+=(src[x+stride+1] * D) vrshrn.u16 d6, q3, #6 vst1.u8 d6, [r2], r3 vmull.u8 q3, d2, d28 //(src[x] * A) vmlal.u8 q3, d3, d29 //+=(src[x+1] * B) vmlal.u8 q3, d4, d30 //+=(src[x+stride] * C) vmlal.u8 q3, d5, d31 //+=(src[x+stride+1] * D) vrshrn.u16 d6, q3, #6 vst1.u8 d6, [r2], r3 vmov q0, q2 sub r5, #2 cmp r5, #0 bne w8_mc_chroma_loop pop {r4, r5} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McChromaWidthEq4_neon push {r4, r5, r6} ldr r4, [sp, #12] ldr r6, [sp, #16] // normal case: {cA*src[x] + cB*src[x+1]} + {cC*src[x+stride] + cD*srcp[x+stride+1]} // we can opti it by adding vert only/ hori only cases, to be continue vld1.u8 {d31}, [r4] //load A/B/C/D vdup.u8 d28, d31[0] //A vdup.u8 d29, d31[1] //B vdup.u8 d30, d31[2] //C vdup.u8 d31, d31[3] //D w4_mc_chroma_loop: // each two pxl row vld1.u8 {d0}, [r0], r1 //a::src[x] vld1.u8 {d2}, [r0], r1 //b::src[x+stride] vld1.u8 {d4}, [r0] //c::src[x+2*stride] vshr.u64 d1, d0, #8 vshr.u64 d3, d2, #8 vshr.u64 d5, d4, #8 vmov q3, q1 //b::[0:7]+b::[1~8] vtrn.32 q0, q1 //d0{a::[0:3]+b::[0:3]}; d1{a::[1:4]+b::[1:4]} vtrn.32 q3, q2 //d6{b::[0:3]+c::[0:3]}; d7{b::[1:4]+c::[1:4]} vmull.u8 q1, d0, d28 //(src[x] * A) vmlal.u8 q1, d1, d29 //+=(src[x+1] * B) vmlal.u8 q1, d6, d30 //+=(src[x+stride] * C) vmlal.u8 q1, d7, d31 //+=(src[x+stride+1] * D) vrshrn.u16 d2, q1, #6 vmov r4, r5, d2 str r4, [r2], r3 str r5, [r2], r3 sub r6, #2 cmp r6, #0 bne w4_mc_chroma_loop pop {r4, r5, r6} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer20Width17_neon push {r4-r5} mov r4, #20 mov r5, #1 sub r4, r4, r4, lsl #(16-2) lsl r5, #16 ror r4, #16 vmov d3, r5, r4 // 0x0014FFFB00010000 sub r3, #16 ldr r4, [sp, #8] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w17_h_mc_luma_loop: vld1.u8 {d0,d1,d2}, [r0], r1 //only use 22(17+5); q0=src[-2] vext.8 q2, q0, q1, #1 //q2=src[-1] vext.8 q3, q0, q1, #2 //q3=src[0] vext.8 q8, q0, q1, #3 //q8=src[1] vext.8 q9, q0, q1, #4 //q9=src[2] vext.8 q10, q0, q1, #5 //q10=src[3] FILTER_6TAG_8BITS d0, d4, d6, d16, d18, d20, d22, q14, q15 FILTER_6TAG_8BITS d1, d5, d7, d17, d19, d21, d23, q14, q15 vst1.u8 {d22, d23}, [r2]! //write [0:15] Byte vsli.64 d2, d2, #8 // [0][1][2][3][4][5]XO-->O[0][1][2][3][4][5]X FILTER_SINGLE_TAG_8BITS d2, d3, d22, q11, q1 vst1.u8 {d2[0]}, [r2], r3 //write 16th Byte sub r4, #1 cmp r4, #0 bne w17_h_mc_luma_loop pop {r4-r5} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer20Width9_neon push {r4-r5} mov r4, #20 mov r5, #1 sub r4, r4, r4, lsl #(16-2) lsl r5, #16 ror r4, #16 vmov d7, r5, r4 // 0x0014FFFB00010000 sub r3, #8 ldr r4, [sp, #8] sub r0, #2 vmov.u16 q14, #0x0014 // 20 vshr.u16 q15, q14, #2 // 5 w9_h_mc_luma_loop: vld1.u8 {d0,d1}, [r0], r1 //only use 14(9+5); q0=src[-2] pld [r0] vext.8 d2, d0, d1, #1 //d2=src[-1] vext.8 d3, d0, d1, #2 //d3=src[0] vext.8 d4, d0, d1, #3 //d4=src[1] vext.8 d5, d0, d1, #4 //d5=src[2] vext.8 d6, d0, d1, #5 //d6=src[3] FILTER_6TAG_8BITS d0, d2, d3, d4, d5, d6, d16, q14, q15 sub r4, #1 vst1.u8 {d16}, [r2]! //write [0:7] Byte vsli.64 d2, d1, #8 // [0][1][2][3][4][5]XO-->O[0][1][2][3][4][5]X FILTER_SINGLE_TAG_8BITS d2, d7, d18, q9, q1 vst1.u8 {d2[0]}, [r2], r3 //write 8th Byte cmp r4, #0 bne w9_h_mc_luma_loop pop {r4-r5} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer02Height17_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {q0}, [r0], r1 //q0=src[-2] vld1.u8 {q1}, [r0], r1 //q1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {q2}, [r0], r1 //q2=src[0] vld1.u8 {q3}, [r0], r1 //q3=src[1] vld1.u8 {q8}, [r0], r1 //q8=src[2] w17_v_mc_luma_loop: vld1.u8 {q9}, [r0], r1 //q9=src[3] FILTER_6TAG_8BITS d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 2nd row vst1.u8 {q10}, [r2], r3 //write 1st 16Byte FILTER_6TAG_8BITS d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d3, d5, d7, d17, d19, d1, d21, q14, q15 vld1.u8 {q1}, [r0], r1 //read 3rd row vst1.u8 {q10}, [r2], r3 //write 2nd 16Byte FILTER_6TAG_8BITS d4, d6, d16, d18, d0, d2, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d5, d7, d17, d19, d1, d3, d21, q14, q15 vld1.u8 {q2}, [r0], r1 //read 4th row vst1.u8 {q10}, [r2], r3 //write 3rd 16Byte FILTER_6TAG_8BITS d6, d16, d18, d0, d2, d4, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d7, d17, d19, d1, d3, d5, d21, q14, q15 vld1.u8 {q3}, [r0], r1 //read 5th row vst1.u8 {q10}, [r2], r3 //write 4th 16Byte FILTER_6TAG_8BITS d16, d18, d0, d2, d4, d6, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d17, d19, d1, d3, d5, d7, d21, q14, q15 vld1.u8 {q8}, [r0], r1 //read 6th row vst1.u8 {q10}, [r2], r3 //write 5th 16Byte FILTER_6TAG_8BITS d18, d0, d2, d4, d6, d16, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d19, d1, d3, d5, d7, d17, d21, q14, q15 vld1.u8 {q9}, [r0], r1 //read 7th row vst1.u8 {q10}, [r2], r3 //write 6th 16Byte FILTER_6TAG_8BITS d0, d2, d4, d6, d16, d18, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d1, d3, d5, d7, d17, d19, d21, q14, q15 vld1.u8 {q0}, [r0], r1 //read 8th row vst1.u8 {q10}, [r2], r3 //write 7th 16Byte FILTER_6TAG_8BITS d2, d4, d6, d16, d18, d0, d20, q14, q15 pld [r0] FILTER_6TAG_8BITS d3, d5, d7, d17, d19, d1, d21, q14, q15 vst1.u8 {q10}, [r2], r3 //write 8th 16Byte //q2, q3, q8, q9, q0 --> q0~q8 vswp q0, q8 vswp q0, q2 vmov q1, q3 vmov q3, q9 //q0~q8 sub r4, #8 cmp r4, #1 bne w17_v_mc_luma_loop // the last 16Bytes vld1.u8 {q9}, [r0], r1 //q9=src[3] FILTER_6TAG_8BITS d0, d2, d4, d6, d16, d18, d20, q14, q15 FILTER_6TAG_8BITS d1, d3, d5, d7, d17, d19, d21, q14, q15 vst1.u8 {q10}, [r2], r3 //write 1st 16Byte pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer02Height9_neon push {r4} ldr r4, [sp, #4] sub r0, r0, r1, lsl #1 //src[-2*src_stride] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {d0}, [r0], r1 //d0=src[-2] vld1.u8 {d1}, [r0], r1 //d1=src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {d2}, [r0], r1 //d2=src[0] vld1.u8 {d3}, [r0], r1 //d3=src[1] vld1.u8 {d4}, [r0], r1 //d4=src[2] vld1.u8 {d5}, [r0], r1 //d5=src[3] w9_v_mc_luma_loop: pld [r0] FILTER_6TAG_8BITS d0, d1, d2, d3, d4, d5, d16, q14, q15 vld1.u8 {d0}, [r0], r1 //read 2nd row vst1.u8 {d16}, [r2], r3 //write 1st 8Byte pld [r0] FILTER_6TAG_8BITS d1, d2, d3, d4, d5, d0, d16, q14, q15 vld1.u8 {d1}, [r0], r1 //read 3rd row vst1.u8 {d16}, [r2], r3 //write 2nd 8Byte pld [r0] FILTER_6TAG_8BITS d2, d3, d4, d5, d0, d1, d16, q14, q15 vld1.u8 {d2}, [r0], r1 //read 4th row vst1.u8 {d16}, [r2], r3 //write 3rd 8Byte pld [r0] FILTER_6TAG_8BITS d3, d4, d5, d0, d1, d2, d16, q14, q15 vld1.u8 {d3}, [r0], r1 //read 5th row vst1.u8 {d16}, [r2], r3 //write 4th 8Byte //d4, d5, d0, d1, d2, d3 --> d0, d1, d2, d3, d4, d5 vswp q0, q2 vswp q1, q2 sub r4, #4 cmp r4, #1 bne w9_v_mc_luma_loop FILTER_6TAG_8BITS d0, d1, d2, d3, d4, d5, d16, q14, q15 vst1.u8 {d16}, [r2], r3 //write last 8Byte pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer22Width17_neon push {r4} vpush {q4-q7} ldr r4, [sp, #68] sub r0, #2 //src[-2] sub r0, r0, r1, lsl #1 //src[-2*src_stride-2] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {d0-d2}, [r0], r1 //use 21(17+5), =src[-2] vld1.u8 {d3-d5}, [r0], r1 //use 21(17+5), =src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {d6-d8}, [r0], r1 //use 21(17+5), =src[0] vld1.u8 {d9-d11}, [r0], r1 //use 21(17+5), =src[1] pld [r0] pld [r0, r1] vld1.u8 {d12-d14}, [r0], r1 //use 21(17+5), =src[2] sub r3, #16 w17_hv_mc_luma_loop: vld1.u8 {d15-d17}, [r0], r1 //use 21(17+5), =src[3] //the 1st row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d0, d3, d6, d9, d12, d15, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d1, d4, d7,d10, d13, d16,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d0 //output to q0[0] // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d2, d5, d8,d11, d14, d17,q11, q14, q15 // only 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d1 //output to q0[1] vst1.u8 {d0, d1}, [r2]! //write 16Byte UNPACK_1_IN_8x16BITS_TO_8BITS d2, d22, d23, q11 //output to d2[0] vst1.u8 {d2[0]}, [r2], r3 //write 16th Byte vld1.u8 {d0-d2}, [r0], r1 //read 2nd row //the 2nd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d3, d6, d9, d12, d15, d0, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d4, d7,d10, d13, d16, d1,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d3 //output to d3 // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d5, d8,d11, d14, d17, d2,q11, q14, q15 // only 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d4 //output to d4 vst1.u8 {d3, d4}, [r2]! //write 16Byte UNPACK_1_IN_8x16BITS_TO_8BITS d5, d22, d23, q11 //output to d5[0] vst1.u8 {d5[0]}, [r2], r3 //write 16th Byte vld1.u8 {d3-d5}, [r0], r1 //read 3rd row //the 3rd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d6, d9, d12, d15, d0, d3, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d7,d10, d13, d16, d1, d4,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d6 //output to d6 // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d8,d11, d14, d17, d2, d5,q11, q14, q15 // only 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d7 //output to d7 vst1.u8 {d6, d7}, [r2]! //write 16Byte UNPACK_1_IN_8x16BITS_TO_8BITS d8, d22, d23, q11 //output to d8[0] vst1.u8 {d8[0]}, [r2], r3 //write 16th Byte vld1.u8 {d6-d8}, [r0], r1 //read 4th row //the 4th row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d9, d12, d15, d0, d3, d6, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d10, d13, d16, d1, d4, d7,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d9 //output to d9 // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d11, d14, d17, d2, d5, d8,q11, q14, q15 // only 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d10 //output to d10 vst1.u8 {d9, d10}, [r2], r3 //write 16Byte UNPACK_1_IN_8x16BITS_TO_8BITS d11, d22, d23, q11 //output to d11[0] vst1.u8 {d11[0]}, [r2], r3 //write 16th Byte //d12~d17(q6~q8), d0~d8(q0~q3+d8), --> d0~d14 vswp q0, q6 vswp q6, q3 vmov q5, q2 vmov q2, q8 vmov d20,d8 vmov q4, q1 vmov q1, q7 vmov d14,d20 sub r4, #4 cmp r4, #1 bne w17_hv_mc_luma_loop //the last row vld1.u8 {d15-d17}, [r0], r1 //use 21(17+5), =src[3] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d0, d3, d6, d9, d12, d15, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d1, d4, d7,d10, d13, d16,q10, q14, q15 // 8 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d0 //output to q0[0] // vertical filtered into q10/q11 FILTER_6TAG_8BITS_TO_16BITS d2, d5, d8,d11, d14, d17,q11, q14, q15 // only 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q10, q11, q9, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q9, q12, q13, d1 //output to q0[1] vst1.u8 {q0}, [r2]! //write 16Byte UNPACK_1_IN_8x16BITS_TO_8BITS d2, d22, d23, q11 //output to d2[0] vst1.u8 {d2[0]}, [r2], r3 //write 16th Byte vpop {q4-q7} pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN McHorVer22Width9_neon push {r4} vpush {q4} ldr r4, [sp, #20] sub r0, #2 //src[-2] sub r0, r0, r1, lsl #1 //src[-2*src_stride-2] pld [r0] pld [r0, r1] vmov.u16 q14, #0x0014 // 20 vld1.u8 {q0}, [r0], r1 //use 14(9+5), =src[-2] vld1.u8 {q1}, [r0], r1 //use 14(9+5), =src[-1] pld [r0] pld [r0, r1] vshr.u16 q15, q14, #2 // 5 vld1.u8 {q2}, [r0], r1 //use 14(9+5), =src[0] vld1.u8 {q3}, [r0], r1 //use 14(9+5), =src[1] pld [r0] pld [r0, r1] vld1.u8 {q4}, [r0], r1 //use 14(9+5), =src[2] sub r3, #8 w9_hv_mc_luma_loop: vld1.u8 {q8}, [r0], r1 //use 14(9+5), =src[3] //the 1st row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d0, d2, d4, d6, d8, d16, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d1, d3, d5, d7, d9, d17, q10, q14, q15 // 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2]! //write 8Byte UNPACK_1_IN_8x16BITS_TO_8BITS d19, d20, d21, q10 //output to d19[0] vst1.u8 {d19[0]}, [r2], r3 //write 8th Byte vld1.u8 {q0}, [r0], r1 //read 2nd row //the 2nd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d2, d4, d6, d8, d16, d0, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d3, d5, d7, d9, d17, d1, q10, q14, q15 // 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2]! //write 8Byte UNPACK_1_IN_8x16BITS_TO_8BITS d19, d20, d21, q10 //output to d19[0] vst1.u8 {d19[0]}, [r2], r3 //write 8th Byte vld1.u8 {q1}, [r0], r1 //read 3rd row //the 3rd row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d4, d6, d8, d16, d0, d2, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d5, d7, d9, d17, d1, d3, q10, q14, q15 // 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2]! //write 8Byte UNPACK_1_IN_8x16BITS_TO_8BITS d19, d20, d21, q10 //output to d19[0] vst1.u8 {d19[0]}, [r2], r3 //write 8th Byte vld1.u8 {q2}, [r0], r1 //read 4th row //the 4th row pld [r0] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d6, d8, d16, d0, d2, d4, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d7, d9, d17, d1, d3, d5, q10, q14, q15 // 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2]! //write 8Byte UNPACK_1_IN_8x16BITS_TO_8BITS d19, d20, d21, q10 //output to d19[0] vst1.u8 {d19[0]}, [r2], r3 //write 8th Byte //q4~q8, q0~q2, --> q0~q4 vswp q0, q4 vswp q2, q4 vmov q3, q1 vmov q1, q8 sub r4, #4 cmp r4, #1 bne w9_hv_mc_luma_loop //the last row vld1.u8 {q8}, [r0], r1 //use 14(9+5), =src[3] // vertical filtered into q9/q10 FILTER_6TAG_8BITS_TO_16BITS d0, d2, d4, d6, d8, d16, q9, q14, q15 // 8 avail FILTER_6TAG_8BITS_TO_16BITS d1, d3, d5, d7, d9, d17, q10, q14, q15 // 6 avail // horizon filtered UNPACK_2_16BITS_TO_ABC q9, q10, q11, q12, q13 FILTER_3_IN_16BITS_TO_8BITS q11, q12, q13, d18 //output to q9[0] vst1.u8 d18, [r2]! //write 8Byte UNPACK_1_IN_8x16BITS_TO_8BITS d19, d20, d21, q10 //output to d19[0] vst1.u8 {d19[0]}, [r2], r3 //write 8th Byte vpop {q4} pop {r4} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN PixStrideAvgWidthEq16_neon push {r4, r5, r6} ldr r4, [sp, #12] ldr r5, [sp, #16] ldr r6, [sp, #20] enc_w16_pix_avg_loop: vld1.u8 {q0}, [r2], r3 vld1.u8 {q1}, [r4], r5 vld1.u8 {q2}, [r2], r3 vld1.u8 {q3}, [r4], r5 vld1.u8 {q8}, [r2], r3 vld1.u8 {q9}, [r4], r5 vld1.u8 {q10}, [r2], r3 vld1.u8 {q11}, [r4], r5 AVERAGE_TWO_8BITS d0, d0, d2 AVERAGE_TWO_8BITS d1, d1, d3 vst1.u8 {q0}, [r0], r1 AVERAGE_TWO_8BITS d4, d4, d6 AVERAGE_TWO_8BITS d5, d5, d7 vst1.u8 {q2}, [r0], r1 AVERAGE_TWO_8BITS d16, d16, d18 AVERAGE_TWO_8BITS d17, d17, d19 vst1.u8 {q8}, [r0], r1 AVERAGE_TWO_8BITS d20, d20, d22 AVERAGE_TWO_8BITS d21, d21, d23 vst1.u8 {q10}, [r0], r1 sub r6, #4 cmp r6, #0 bne enc_w16_pix_avg_loop pop {r4, r5, r6} WELS_ASM_FUNC_END WELS_ASM_FUNC_BEGIN PixStrideAvgWidthEq8_neon push {r4, r5, r6} ldr r4, [sp, #12] ldr r5, [sp, #16] ldr r6, [sp, #20] enc_w8_pix_avg_loop: vld1.u8 {d0}, [r2], r3 vld1.u8 {d2}, [r4], r5 vld1.u8 {d1}, [r2], r3 vld1.u8 {d3}, [r4], r5 AVERAGE_TWO_8BITS d0, d0, d2 AVERAGE_TWO_8BITS d1, d1, d3 vst1.u8 {d0}, [r0], r1 vst1.u8 {d1}, [r0], r1 vld1.u8 {d4}, [r2], r3 vld1.u8 {d6}, [r4], r5 vld1.u8 {d5}, [r2], r3 vld1.u8 {d7}, [r4], r5 AVERAGE_TWO_8BITS d4, d4, d6 AVERAGE_TWO_8BITS d5, d5, d7 vst1.u8 {d4}, [r0], r1 vst1.u8 {d5}, [r0], r1 sub r6, #4 cmp r6, #0 bne enc_w8_pix_avg_loop pop {r4, r5, r6} WELS_ASM_FUNC_END #endif