Partly add arm asm code to encoder.

2014-03-04 16:49:34 +08:00
parent 7150adc91b
commit bb244d736b
28 changed files with 7916 additions and 3 deletions
--- a/codec/build/iOS/common/common.xcodeproj/project.pbxproj
+++ b/codec/build/iOS/common/common.xcodeproj/project.pbxproj
@@ -7,6 +7,7 @@
 	objects = {

 /* Begin PBXBuildFile section */
+		4C34067D18C5C94C00DFA14A /* expand_picture.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34067C18C5C94C00DFA14A /* expand_picture.S */; };
 		4CE443D918B722CD0017DF25 /* Foundation.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE443D818B722CD0017DF25 /* Foundation.framework */; };
 		4CE443E718B722CD0017DF25 /* XCTest.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE443E618B722CD0017DF25 /* XCTest.framework */; };
 		4CE443E818B722CD0017DF25 /* Foundation.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE443D818B722CD0017DF25 /* Foundation.framework */; };
@@ -46,6 +47,7 @@
 /* End PBXCopyFilesBuildPhase section */

 /* Begin PBXFileReference section */
+		4C34067C18C5C94C00DFA14A /* expand_picture.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = expand_picture.S; sourceTree = "<group>"; };
 		4CE443D518B722CD0017DF25 /* libcommon.a */ = {isa = PBXFileReference; explicitFileType = archive.ar; includeInIndex = 0; path = libcommon.a; sourceTree = BUILT_PRODUCTS_DIR; };
 		4CE443D818B722CD0017DF25 /* Foundation.framework */ = {isa = PBXFileReference; lastKnownFileType = wrapper.framework; name = Foundation.framework; path = System/Library/Frameworks/Foundation.framework; sourceTree = SDKROOT; };
 		4CE443E518B722CD0017DF25 /* commonTests.xctest */ = {isa = PBXFileReference; explicitFileType = wrapper.cfbundle; includeInIndex = 0; path = commonTests.xctest; sourceTree = BUILT_PRODUCTS_DIR; };
@@ -148,6 +150,7 @@
 		4CE4472F18BC61650017DF25 /* common */ = {
 			isa = PBXGroup;
 			children = (
+				4C34067C18C5C94C00DFA14A /* expand_picture.S */,
 				4CE447BE18C085900017DF25 /* arm_arch_common_macro.S */,
 				4CE447BC18C085320017DF25 /* deblocking_neon.S */,
 				4CE4473118BC61650017DF25 /* cpu.cpp */,
@@ -257,6 +260,7 @@
 				4CE4475018BC61650017DF25 /* deblocking_common.cpp in Sources */,
 				4CE4474C18BC61650017DF25 /* cpu.cpp in Sources */,
 				4CE4475218BC61650017DF25 /* logging.cpp in Sources */,
+				4C34067D18C5C94C00DFA14A /* expand_picture.S in Sources */,
 				4CE447BD18C085320017DF25 /* deblocking_neon.S in Sources */,
 				4CE4475818BC61650017DF25 /* WelsThreadLib.cpp in Sources */,
 				4CE4474E18BC61650017DF25 /* crt_util_safe_x.cpp in Sources */,
--- a/codec/build/iOS/enc/welsenc/welsenc.xcodeproj/project.pbxproj
+++ b/codec/build/iOS/enc/welsenc/welsenc.xcodeproj/project.pbxproj
@@ -7,6 +7,12 @@
 	objects = {

 /* Begin PBXBuildFile section */
+		4C34066D18C57D0400DFA14A /* intra_pred_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34066618C57D0400DFA14A /* intra_pred_neon.S */; };
+		4C34066E18C57D0400DFA14A /* intra_pred_sad_3_opt_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34066718C57D0400DFA14A /* intra_pred_sad_3_opt_neon.S */; };
+		4C34066F18C57D0400DFA14A /* mc_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34066818C57D0400DFA14A /* mc_neon.S */; };
+		4C34067018C57D0400DFA14A /* memory_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34066918C57D0400DFA14A /* memory_neon.S */; };
+		4C34067118C57D0400DFA14A /* pixel_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34066A18C57D0400DFA14A /* pixel_neon.S */; };
+		4C34067218C57D0400DFA14A /* reconstruct_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34066B18C57D0400DFA14A /* reconstruct_neon.S */; };
 		4CE4431518B6FFA00017DF25 /* Foundation.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE4431418B6FFA00017DF25 /* Foundation.framework */; };
 		4CE4432318B6FFA00017DF25 /* XCTest.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE4432218B6FFA00017DF25 /* XCTest.framework */; };
 		4CE4432418B6FFA00017DF25 /* Foundation.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE4431418B6FFA00017DF25 /* Foundation.framework */; };
@@ -71,6 +77,12 @@
 /* End PBXCopyFilesBuildPhase section */

 /* Begin PBXFileReference section */
+		4C34066618C57D0400DFA14A /* intra_pred_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = intra_pred_neon.S; sourceTree = "<group>"; };
+		4C34066718C57D0400DFA14A /* intra_pred_sad_3_opt_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = intra_pred_sad_3_opt_neon.S; sourceTree = "<group>"; };
+		4C34066818C57D0400DFA14A /* mc_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = mc_neon.S; sourceTree = "<group>"; };
+		4C34066918C57D0400DFA14A /* memory_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = memory_neon.S; sourceTree = "<group>"; };
+		4C34066A18C57D0400DFA14A /* pixel_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = pixel_neon.S; sourceTree = "<group>"; };
+		4C34066B18C57D0400DFA14A /* reconstruct_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = reconstruct_neon.S; sourceTree = "<group>"; };
 		4CE4431118B6FFA00017DF25 /* libwelsenc.a */ = {isa = PBXFileReference; explicitFileType = archive.ar; includeInIndex = 0; path = libwelsenc.a; sourceTree = BUILT_PRODUCTS_DIR; };
 		4CE4431418B6FFA00017DF25 /* Foundation.framework */ = {isa = PBXFileReference; lastKnownFileType = wrapper.framework; name = Foundation.framework; path = System/Library/Frameworks/Foundation.framework; sourceTree = SDKROOT; };
 		4CE4432118B6FFA00017DF25 /* welsencTests.xctest */ = {isa = PBXFileReference; explicitFileType = wrapper.cfbundle; includeInIndex = 0; path = welsencTests.xctest; sourceTree = BUILT_PRODUCTS_DIR; };
@@ -189,6 +201,19 @@
 /* End PBXFrameworksBuildPhase section */

 /* Begin PBXGroup section */
+		4C34066418C57D0400DFA14A /* arm */ = {
+			isa = PBXGroup;
+			children = (
+				4C34066618C57D0400DFA14A /* intra_pred_neon.S */,
+				4C34066718C57D0400DFA14A /* intra_pred_sad_3_opt_neon.S */,
+				4C34066818C57D0400DFA14A /* mc_neon.S */,
+				4C34066918C57D0400DFA14A /* memory_neon.S */,
+				4C34066A18C57D0400DFA14A /* pixel_neon.S */,
+				4C34066B18C57D0400DFA14A /* reconstruct_neon.S */,
+			);
+			path = arm;
+			sourceTree = "<group>";
+		};
 		4CE4430818B6FFA00017DF25 = {
 			isa = PBXGroup;
 			children = (
@@ -249,6 +274,7 @@
 		4CE446A118BC605B0017DF25 /* core */ = {
 			isa = PBXGroup;
 			children = (
+				4C34066418C57D0400DFA14A /* arm */,
 				4CE446A918BC605C0017DF25 /* inc */,
 				4CE446DC18BC605C0017DF25 /* src */,
 			);
@@ -466,14 +492,18 @@
 				4CE4472A18BC605C0017DF25 /* utils.cpp in Sources */,
 				4CE4471018BC605C0017DF25 /* decode_mb_aux.cpp in Sources */,
 				4CE4472018BC605C0017DF25 /* sample.cpp in Sources */,
+				4C34066F18C57D0400DFA14A /* mc_neon.S in Sources */,
 				4CE4472D18BC605C0017DF25 /* welsCodecTrace.cpp in Sources */,
 				4CE4471318BC605C0017DF25 /* encoder_data_tables.cpp in Sources */,
+				4C34067118C57D0400DFA14A /* pixel_neon.S in Sources */,
 				4CE4471F18BC605C0017DF25 /* ref_list_mgr_svc.cpp in Sources */,
 				4CE4472218BC605C0017DF25 /* slice_multi_threading.cpp in Sources */,
 				4CE4471518BC605C0017DF25 /* expand_pic.cpp in Sources */,
+				4C34067018C57D0400DFA14A /* memory_neon.S in Sources */,
 				4CE4470F18BC605C0017DF25 /* deblocking.cpp in Sources */,
 				4CE4472518BC605C0017DF25 /* svc_encode_mb.cpp in Sources */,
 				4CE4471A18BC605C0017DF25 /* mv_pred.cpp in Sources */,
+				4C34066E18C57D0400DFA14A /* intra_pred_sad_3_opt_neon.S in Sources */,
 				4CE4472B18BC605C0017DF25 /* wels_preprocess.cpp in Sources */,
 				4CE4470E18BC605C0017DF25 /* au_set.cpp in Sources */,
 				4CE4471718BC605C0017DF25 /* mc.cpp in Sources */,
@@ -484,12 +514,14 @@
 				4CE4472418BC605C0017DF25 /* svc_enc_slice_segment.cpp in Sources */,
 				4CE4472318BC605C0017DF25 /* svc_base_layer_md.cpp in Sources */,
 				4CE4471E18BC605C0017DF25 /* ratectl.cpp in Sources */,
+				4C34066D18C57D0400DFA14A /* intra_pred_neon.S in Sources */,
 				4CE4471C18BC605C0017DF25 /* picture_handle.cpp in Sources */,
 				4CE4472618BC605C0017DF25 /* svc_encode_slice.cpp in Sources */,
 				4CE4471218BC605C0017DF25 /* encoder.cpp in Sources */,
 				4CE4471618BC605C0017DF25 /* get_intra_predictor.cpp in Sources */,
 				4CE4472E18BC605C0017DF25 /* welsEncoderExt.cpp in Sources */,
 				4CE4471418BC605C0017DF25 /* encoder_ext.cpp in Sources */,
+				4C34067218C57D0400DFA14A /* reconstruct_neon.S in Sources */,
 			);
 			runOnlyForDeploymentPostprocessing = 0;
 		};
--- a/codec/common/deblocking_neon.S
+++ b/codec/common/deblocking_neon.S
@@ -809,4 +809,232 @@ WELS_ASM_FUNC_BEGIN enc_avc_non_zero_count_neon
    vst1.64	{d0-d2}, [r0]
 WELS_ASM_FUNC_END

+#ifdef APPLE_IOS
+
+.macro BS_NZC_CHECK 
+    vld1.8   {d0,d1}, [$0]
+    /* Arrenge the input data --- TOP */
+	ands     r6, $1, #2
+	beq      bs_nzc_check_jump0
+	
+    sub      r6, $0, $2, lsl #4
+	sub      r6, $2, lsl #3
+    add      r6, #12
+    vld1.32  d3[1], [r6]
+	
+bs_nzc_check_jump0:	
+    vext.8   q1, q1, q0, #12
+	vadd.u8  $3, q0, q1
+
+    
+    /* Arrenge the input data --- LEFT */
+	ands     r6, $1, #1
+	beq      bs_nzc_check_jump1
+	
+    sub      r6, $0, #21
+	add      r7, r6, #4 
+    vld1.8   d3[4], [r6]
+	add      r6, r7, #4
+    vld1.8   d3[5], [r7]
+	add      r7, r6, #4
+    vld1.8   d3[6], [r6]
+    vld1.8   d3[7], [r7]
+	
+bs_nzc_check_jump1:
+	vzip.8   d0, d1	
+	vzip.8   d0, d1
+    vext.8   q1, q1, q0, #12
+	vadd.u8  $4, q0, q1
+.endm
+
+.macro BS_COMPARE_MV //in: $0,$1(const),$2(const),$3(const),$4(const); out:$5, $6
+    mov       r6, #4
+    vabd.s16  q5, $0, $1
+    vabd.s16  q6, $1, $2
+	vdup.s16  $0, r6
+    vabd.s16  q7, $2, $3	
+    vabd.s16  q8, $3, $4	    
+    
+    vcge.s16  q5, $0
+    vcge.s16  q6, $0
+    vcge.s16  q7, $0
+    vcge.s16  q8, $0 
+	
+	vpadd.i16 d10, d10, d11
+    vpadd.i16 d11, d12, d13
+    vpadd.i16 d12, d14, d15
+    vpadd.i16 d13, d16, d17  
+   
+    vaddhn.i16  $5, q5, q5
+    vaddhn.i16  $6, q6, q6
+.endm
+
+.macro BS_MV_CHECK 
+    vldm   $0, {q0,q1,q2,q3}
+
+    /* Arrenge the input data --- TOP */
+	ands     r6, $1, #2
+	beq      bs_mv_check_jump0
+		
+    sub      r6, $0, $2, lsl #6
+    add      r6, #48
+    vld1.8   {d8, d9}, [r6]
+	
+bs_mv_check_jump0:
+    BS_COMPARE_MV  q4, q0, q1, q2, q3, $3, $4
+    
+    /* Arrenge the input data --- LEFT */
+	ands     r6, $1, #1
+	beq      bs_mv_check_jump1
+	
+    sub      r6, $0, #52
+    add      r7, r6, #16
+	vld1.32   d8[0], [r6]
+	add      r6, r7, #16
+    vld1.32   d8[1], [r7]
+	add      r7, r6, #16
+    vld1.32   d9[0], [r6]
+    vld1.32   d9[1], [r7]
+	
+bs_mv_check_jump1:
+	vzip.32   q0, q2
+	vzip.32   q1, q3
+	vzip.32   q0, q1
+    vzip.32   q2, q3
+    BS_COMPARE_MV  q4, q0, q1, q2, q3, $5, $6
+.endm
+#else
+
+.macro BS_NZC_CHECK  arg0, arg1, arg2, arg3, arg4
+    vld1.8   {d0,d1}, [\arg0]
+    /* Arrenge the input data --- TOP */
+    ands     r6, \arg1, #2
+    beq      bs_nzc_check_jump0
+
+    sub      r6, \arg0, \arg2, lsl #4
+    sub      r6, \arg2, lsl #3
+    add      r6, #12
+    vld1.32  d3[1], [r6]
+
+    bs_nzc_check_jump0:
+    vext.8   q1, q1, q0, #12
+    vadd.u8  \arg3, q0, q1
+
+
+    /* Arrenge the input data --- LEFT */
+    ands     r6, \arg1, #1
+    beq      bs_nzc_check_jump1
+
+    sub      r6, \arg0, #21
+    add      r7, r6, #4
+    vld1.8   d3[4], [r6]
+    add      r6, r7, #4
+    vld1.8   d3[5], [r7]
+    add      r7, r6, #4
+    vld1.8   d3[6], [r6]
+    vld1.8   d3[7], [r7]
+
+    bs_nzc_check_jump1:
+    vzip.8   d0, d1
+    vzip.8   d0, d1
+    vext.8   q1, q1, q0, #12
+    vadd.u8  \arg4, q0, q1
+.endm
+
+.macro BS_COMPARE_MV  arg0, arg1, arg2, arg3, arg4, arg5, arg6 //in: $0,$1(const),$2(const),$3(const),$4(const); out:$5, $6
+    mov       r6, #4
+    vabd.s16  q5, \arg0, \arg1
+    vabd.s16  q6, \arg1, \arg2
+    vdup.s16  \arg0, r6
+    vabd.s16  q7, \arg2, \arg3
+    vabd.s16  q8, \arg3, \arg4
+
+    vcge.s16  q5, \arg0
+    vcge.s16  q6, \arg0
+    vcge.s16  q7, \arg0
+    vcge.s16  q8, \arg0
+
+    vpadd.i16 d10, d10, d11
+    vpadd.i16 d11, d12, d13
+    vpadd.i16 d12, d14, d15
+    vpadd.i16 d13, d16, d17
+
+    vaddhn.i16  \arg5, q5, q5
+    vaddhn.i16  \arg6, q6, q6
+.endm
+
+.macro BS_MV_CHECK  arg0, arg1, arg2, arg3, arg4, arg5, arg6
+    vldm   \arg0, {q0,q1,q2,q3}
+
+    /* Arrenge the input data --- TOP */
+    ands     r6, \arg1, #2
+    beq      bs_mv_check_jump0
+
+    sub      r6, \arg0, \arg2, lsl #6
+    add      r6, #48
+    vld1.8   {d8, d9}, [r6]
+
+    bs_mv_check_jump0:
+    BS_COMPARE_MV  q4, q0, q1, q2, q3, \arg3, \arg4
+
+    /* Arrenge the input data --- LEFT */
+    ands     r6, \arg1, #1
+    beq      bs_mv_check_jump1
+
+    sub      r6, \arg0, #52
+    add      r7, r6, #16
+    vld1.32   d8[0], [r6]
+    add      r6, r7, #16
+    vld1.32   d8[1], [r7]
+    add      r7, r6, #16
+    vld1.32   d9[0], [r6]
+    vld1.32   d9[1], [r7]
+
+    bs_mv_check_jump1:
+    vzip.32   q0, q2
+    vzip.32   q1, q3
+    vzip.32   q0, q1
+    vzip.32   q2, q3
+    BS_COMPARE_MV  q4, q0, q1, q2, q3, \arg5, \arg6
+.endm
+#endif
+
+ 
+WELS_ASM_FUNC_BEGIN DeblockingBSCalcEnc_neon
+	
+	stmdb sp!, {r5-r7}
+	
+	ldr  r5, [sp, #12]	//Save BS to r5
+	
+	/* Checking the nzc status */
+	BS_NZC_CHECK r0, r2, r3, q14, q15 //q14,q15 save the nzc status
+        
+	/* For checking bS[I] = 2 */
+	mov      r6, #2
+	vcgt.s8  q14, q14, #0
+	vdup.u8  q0, r6
+	vcgt.s8  q15, q15, #0
+	
+	vand.u8  q14, q14, q0 //q14 save the nzc check result all the time --- for dir is top
+	vand.u8  q15, q15, q0 //q15 save the nzc check result all the time --- for dir is left
+	
+	/* Checking the mv status*/
+	BS_MV_CHECK r1, r2, r3, d24, d25, d26, d27//q12, q13 save the mv status
+	
+	/* For checking bS[I] = 1 */
+    mov      r6, #1
+	vdup.u8  q0, r6
+
+	vand.u8  q12, q12, q0 //q12 save the nzc check result all the time --- for dir is top
+	vand.u8  q13, q13, q0 //q13 save the nzc check result all the time --- for dir is left
+	
+	
+	/* Check bS[I] is '1' or '2' */
+	vmax.u8 q1, q12, q14
+	vmax.u8 q0, q13, q15
+	
+	//vstm r5, {q0, q1}
+    vst1.32 {q0, q1}, [r5]
+	ldmia sp!, {r5-r7}
+WELS_ASM_FUNC_END
 #endif
--- a/codec/common/expand_picture.S
+++ b/codec/common/expand_picture.S
@@ -0,0 +1,137 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+
+#ifdef HAVE_NEON
+.text
+#include "arm_arch_common_macro.S"
+
+ 
+WELS_ASM_FUNC_BEGIN ExpandPictureLuma_neon
+    stmdb sp!, {r4-r8}
+	//Save the dst
+	mov r7, r0
+	mov r8, r3
+	
+	add r4, r7, r2
+	sub r4, #1
+    //For the left and right expand
+_expand_picture_luma_loop2:
+	sub r5, r7, #32
+	add r6, r4, #1
+
+	vld1.8 {d0[], d1[]}, [r7], r1
+	vld1.8 {d2[], d3[]}, [r4], r1
+
+	vst1.8 {q0}, [r5]!
+	vst1.8 {q0}, [r5]
+	vst1.8 {q1}, [r6]!
+	vst1.8 {q1}, [r6]
+	subs r8, #1
+	bne	_expand_picture_luma_loop2
+
+	//for the top and bottom expand              
+	add r2, #64
+	sub r0, #32
+	mla r4, r1, r3, r0
+	sub r4, r1
+_expand_picture_luma_loop0:
+	mov r5, #32 
+    mls r5, r5, r1, r0 
+	add r6, r4, r1
+	vld1.8 {q0}, [r0]!
+	vld1.8 {q1}, [r4]!
+	
+	mov r8, #32
+_expand_picture_luma_loop1:	
+	vst1.8 {q0}, [r5], r1 
+	vst1.8 {q1}, [r6], r1 
+	subs r8, #1
+    bne _expand_picture_luma_loop1
+	 
+	subs r2, #16
+	bne	_expand_picture_luma_loop0
+
+    //vldreq.32 d0, [r0]
+	
+	ldmia sp!, {r4-r8}
+WELS_ASM_FUNC_END
+
+ 
+WELS_ASM_FUNC_BEGIN ExpandPictureChroma_neon
+    stmdb sp!, {r4-r8}
+	//Save the dst
+	mov r7, r0
+	mov r8, r3
+	
+	add r4, r7, r2
+	sub r4, #1
+    //For the left and right expand
+_expand_picture_chroma_loop2:
+	sub r5, r7, #16
+	add r6, r4, #1
+
+	vld1.8 {d0[], d1[]}, [r7], r1
+	vld1.8 {d2[], d3[]}, [r4], r1
+
+	vst1.8 {q0}, [r5]
+	vst1.8 {q1}, [r6]
+	subs r8, #1
+	bne	_expand_picture_chroma_loop2
+
+	//for the top and bottom expand              
+	add r2, #32
+	sub r0, #16
+	mla r4, r1, r3, r0
+	sub r4, r1
+_expand_picture_chroma_loop0:
+	mov r5, #16 
+    mls r5, r5, r1, r0 
+	add r6, r4, r1
+	vld1.8 {q0}, [r0]!
+	vld1.8 {q1}, [r4]!
+	
+	mov r8, #16
+_expand_picture_chroma_loop1:	
+	vst1.8 {q0}, [r5], r1 
+	vst1.8 {q1}, [r6], r1 
+	subs r8, #1
+    bne _expand_picture_chroma_loop1
+	 
+	subs r2, #16
+	bne	_expand_picture_chroma_loop0
+
+    //vldreq.32 d0, [r0]
+	
+	ldmia sp!, {r4-r8}
+WELS_ASM_FUNC_END
+
+#endif
--- a/codec/common/expand_picture_common.h
+++ b/codec/common/expand_picture_common.h
@@ -61,6 +61,10 @@ void ExpandPictureChromaUnalign_sse2 (uint8_t* pDst,
                                      const int32_t kiPicH);
 #endif//X86_ASM

+#if defined(HAVE_NEON)
+void ExpandPictureLuma_neon(uint8_t *pDst, const int32_t kiStride, const int32_t kiPicW, const int32_t kiPicH);
+void ExpandPictureChroma_neon(uint8_t *pDst, const int32_t kiStride, const int32_t kiPicW, const int32_t kiPicH);
+#endif
 #if defined(__cplusplus)
 }
 #endif//__cplusplus
--- a/codec/encoder/core/arm/.DS_Store
+++ b/codec/encoder/core/arm/.DS_Store
--- a/codec/encoder/core/arm/intra_pred_neon.S
+++ b/codec/encoder/core/arm/intra_pred_neon.S
@@ -0,0 +1,648 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+
+#ifdef  HAVE_NEON
+.text
+
+#include "arm_arch_common_macro.S"
+
+#ifdef APPLE_IOS
+//Global macro
+.macro GET_8BYTE_DATA
+	vld1.8 {$0[0]}, [$1], $2
+	vld1.8 {$0[1]}, [$1], $2
+	vld1.8 {$0[2]}, [$1], $2
+	vld1.8 {$0[3]}, [$1], $2
+	vld1.8 {$0[4]}, [$1], $2
+	vld1.8 {$0[5]}, [$1], $2
+	vld1.8 {$0[6]}, [$1], $2
+	vld1.8 {$0[7]}, [$1], $2
+.endm
+#else
+//Global macro
+.macro GET_8BYTE_DATA arg0, arg1, arg2
+	vld1.8 {\arg0[0]}, [\arg1], \arg2
+	vld1.8 {\arg0[1]}, [\arg1], \arg2
+	vld1.8 {\arg0[2]}, [\arg1], \arg2
+	vld1.8 {\arg0[3]}, [\arg1], \arg2
+	vld1.8 {\arg0[4]}, [\arg1], \arg2
+	vld1.8 {\arg0[5]}, [\arg1], \arg2
+	vld1.8 {\arg0[6]}, [\arg1], \arg2
+	vld1.8 {\arg0[7]}, [\arg1], \arg2
+.endm
+#endif
+
+ 
+WELS_ASM_FUNC_BEGIN enc_get_i16x16_luma_pred_v_neon
+	//Get the top line data to 'q0'
+	sub  r3, r1, r2
+	vldm r3, {d0, d1}
+    
+	//mov  r2, #16
+	mov  r3, #4
+	//Set the top line to the each line of MB(16*16) 
+loop_0_get_i16x16_luma_pred_v:
+	vst1.8 {d0,d1}, [r0]!
+	vst1.8 {d0,d1}, [r0]!
+	vst1.8 {d0,d1}, [r0]!
+	vst1.8 {d0,d1}, [r0]!
+	subs  r3, #1
+	bne  loop_0_get_i16x16_luma_pred_v																
+WELS_ASM_FUNC_END
+
+ 
+WELS_ASM_FUNC_BEGIN enc_get_i16x16_luma_pred_h_neon
+    //stmdb sp!, {r4, lr}
+	sub  r1, r1, #1
+	mov  r3, #4
+loop_0_get_i16x16_luma_pred_h:
+	//Get one byte data from left side
+	vld1.8 {d0[],d1[]}, [r1], r2
+	vld1.8 {d2[],d3[]}, [r1], r2	
+	vld1.8 {d4[],d5[]}, [r1], r2	
+	vld1.8 {d6[],d7[]}, [r1], r2
+	
+	//Set the line of MB using the left side byte data
+	vst1.8 {d0,d1}, [r0]!
+	//add r0, #16
+	vst1.8 {d2,d3}, [r0]!
+	//add r0, #16
+	vst1.8 {d4,d5}, [r0]!
+	//add r0, #16
+	vst1.8 {d6,d7}, [r0]!
+	//add r0, #16
+	
+	subs  r3, #1
+	bne  loop_0_get_i16x16_luma_pred_h		
+
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i16x16_luma_pred_dc_both_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Get the left vertical line data
+	sub r3, r1, #1
+	GET_8BYTE_DATA d0, r3, r2
+	GET_8BYTE_DATA d1, r3, r2
+	
+	//Get the top horizontal line data
+	sub  r3, r1, r2			
+	vldm r3, {d2, d3}
+	
+	//Calculate the sum of top horizontal line data and vertical line data
+	vpaddl.u8 q0, q0
+	vpaddl.u8 q1, q1
+	vadd.u16  q0, q0, q1
+	vadd.u16  d0, d0, d1
+	vpaddl.u16 d0, d0
+	vpaddl.u32 d0, d0
+	
+	//Calculate the mean value 
+	vrshr.u16  d0, d0, #5
+	vdup.8     q0, d0[0]
+	
+	//Set the mean value to the all of member of MB
+	mov  r3, #4
+loop_0_get_i16x16_luma_pred_dc_both:
+	vst1.8 {d0,d1}, [r0]!
+	vst1.8 {d0,d1}, [r0]!
+	vst1.8 {d0,d1}, [r0]!
+	vst1.8 {d0,d1}, [r0]!
+	subs  r3, #1
+	bne  loop_0_get_i16x16_luma_pred_dc_both					
+			
+WELS_ASM_FUNC_END
+
+
+//The table for SIMD instruction {(8,7,6,5,4,3,2,1) * 5}
+CONST0_GET_I16X16_LUMA_PRED_PLANE: .long 0x191e2328, 0x050a0f14
+
+//The table for SIMD instruction {-7,-6,-5,-4,-3,-2,-1,0}                
+CONST1_GET_I16X16_LUMA_PRED_PLANE: .long 0xfcfbfaf9, 0x00fffefd
+                  
+
+WELS_ASM_FUNC_BEGIN enc_get_i16x16_luma_pred_plane_neon
+	//stmdb sp!, { r4, lr}
+        
+	//Load the table {(8,7,6,5,4,3,2,1) * 5}
+	adr r3, CONST0_GET_I16X16_LUMA_PRED_PLANE
+	vldr    d0, [r3]
+
+	//Pack the top[-1] ~ top[6] to d1
+	sub       r3,  r1, r2
+	sub       r1,  r3, #1
+	vld1.8    d1, [r1]
+	
+	//Pack the top[8] ~ top[15] to d2
+	add       r1, #9
+	vld1.8    d2, [r1]
+    
+	//Save the top[15] to d6 for next step
+	vdup.u8   d6,   d2[7]
+	
+	//Get and pack left[-1] ~ left[6] to d4
+	sub       r1,  r3, #1
+	GET_8BYTE_DATA d4, r1, r2
+	
+	//Get and pack left[8] ~ left[15] to d3
+	add       r1,  r2
+	GET_8BYTE_DATA d3, r1, r2
+	
+	//Save the left[15] to d7 for next step
+	vdup.u8   d7,   d3[7]
+    
+	//revert the sequence of d2,d3
+	vrev64.8   q1, q1
+
+	vsubl.u8   q2, d3, d4 //q2={left[8]-left[6],left[9]-left[5],left[10]-left[4], ...}
+	vsubl.u8   q1, d2, d1 //q1={top[8]-top[6],top[9]-top[5],top[10]-top[4], ...}
+
+        
+	vmovl.u8   q0, d0
+	vmul.s16   q1, q0, q1 //q1 = q1*{(8,7,6,5,4,3,2,1) * 5}
+	vmul.s16   q2, q0, q2 //q2 = q2*{(8,7,6,5,4,3,2,1) * 5}
+	
+	//Calculate the sum of items of q1, q2
+	vpadd.s16  d0, d2, d3
+	vpadd.s16  d1, d4, d5
+	vpaddl.s16 q0, q0
+	vpaddl.s32 q0, q0
+	
+	//Get the value of 'b', 'c' and extend to q1, q2.
+	vrshr.s64  q0, #6
+	vdup.s16   q1, d0[0]
+	vdup.s16   q2, d1[0]
+	
+	//Load the table {-7,-6,-5,-4,-3,-2,-1,0} to d0
+	adr r3, CONST1_GET_I16X16_LUMA_PRED_PLANE
+	vld1.32   {d0}, [r3]
+	
+	//Get the value of 'a' and save to q3
+	vaddl.u8  q3, d6, d7
+	vshl.u16  q3, #4
+
+	//calculate a+'b'*{-7,-6,-5,-4,-3,-2,-1,0} + c*{-7}
+	vmovl.s8  q0, d0
+	vmla.s16  q3, q0, q1
+	vmla.s16  q3, q2, d0[0]
+	
+	//Calculate a+'b'*{1,2,3,4,5,6,7,8} + c*{-7}
+	vshl.s16  q5, q1, #3
+	vadd.s16  q5, q3
+	
+	//right shift 5 bits and rounding
+	vqrshrun.s16 d0, q3, #5
+	vqrshrun.s16 d1, q5, #5
+	
+	//Set the line of MB
+	vst1.u32  {d0,d1}, [r0]!
+	
+	
+	//Do the same processing for setting other lines
+	mov  r3, #15
+loop_0_get_i16x16_luma_pred_plane:	
+	vadd.s16  q3, q2
+	vadd.s16  q5, q2
+	vqrshrun.s16 d0, q3, #5
+	vqrshrun.s16 d1, q5, #5
+	vst1.u32  {d0,d1}, [r0]!
+	subs  r3, #1
+	bne  loop_0_get_i16x16_luma_pred_plane	
+		
+WELS_ASM_FUNC_END
+
+ 
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_v_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the top row (4 bytes)
+	sub  r3, r1, r2
+	ldr  r3, [r3]
+	
+	//Set the luma MB using top line
+	str  r3, [r0], #4
+	str  r3, [r0], #4
+	str  r3, [r0], #4
+	str  r3, [r0]
+        
+WELS_ASM_FUNC_END
+
+ 
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_h_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the left column (4 bytes)
+	sub  r3, r1, #1
+	vld1.8 {d0[]}, [r3], r2
+	vld1.8 {d1[]}, [r3], r2	
+	vld1.8 {d2[]}, [r3], r2	
+	vld1.8 {d3[]}, [r3]
+	
+	//Set the luma MB using the left side byte
+	vst1.32 {d0[0]}, [r0]!
+	vst1.32 {d1[0]}, [r0]!
+	vst1.32 {d2[0]}, [r0]!
+	vst1.32 {d3[0]}, [r0]
+
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_d_l_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the top row data(8 bytes)
+	sub    r3,  r1, r2
+	vld1.32  {d0}, [r3]
+	
+	//For "t7 + (t7<<1)"
+	vdup.8   d1,  d0[7]
+	
+	//calculate "t0+t1,t1+t2,t2+t3...t6+t7,t7+t7"
+	vext.8   d1,  d0, d1, #1
+	vaddl.u8 q1,  d1, d0
+	
+	//calculate "x,t0+t1+t1+t2,t1+t2+t2+t3,...t5+t6+t6+t7,t6+t7+t7+t7"
+	vext.8   q2,  q1, q1, #14
+	vadd.u16 q0,  q1, q2
+	
+	//right shift 2 bits and rounding
+	vqrshrn.u16  d0,  q0, #2
+	
+	//Save "ddl0, ddl1, ddl2, ddl3"
+	vext.8   d1, d0, d0, #1
+	vst1.32  d1[0], [r0]!
+	
+	//Save "ddl1, ddl2, ddl3, ddl4"
+	vext.8   d1, d0, d0, #2
+	vst1.32  d1[0], [r0]!
+	
+	//Save "ddl2, ddl3, ddl4, ddl5"
+	vext.8   d1, d0, d0, #3
+	vst1.32  d1[0], [r0]!	
+	
+	//Save "ddl3, ddl4, ddl5, ddl6"
+	vst1.32  d0[1], [r0]	
+		
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_d_r_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the top row (4 bytes)
+	sub    r3,  r1, r2
+	vld1.32  {d0[1]}, [r3]
+	
+	//Load the left column (5 bytes)
+	sub    r3,  #1
+	vld1.8 {d0[3]}, [r3], r2
+	vld1.8 {d0[2]}, [r3], r2	
+	vld1.8 {d0[1]}, [r3], r2
+	vld1.8 {d0[0]}, [r3], r2	
+	vld1.8 {d1[7]}, [r3] //For packing the right sequence to do SIMD processing
+	
+	
+	vext.8   d2, d1, d0, #7   //d0:{L2,L1,L0,LT,T0,T1,T2,T3}
+	                          //d2:{L3,L2,L1,L0,LT,T0,T1,T2}
+	
+	//q2:{L2+L3,L1+L2,L0+L1...T1+T2,T2+T3}
+	vaddl.u8 q2, d2, d0
+	
+	//q1:{TL0+LT0,LT0+T01,...L12+L23}
+	vext.8   q3, q3, q2, #14
+	vadd.u16 q1, q2, q3
+	
+	//right shift 2 bits and rounding
+	vqrshrn.u16 d0, q1, #2
+	
+	//Adjust the data sequence for setting luma MB of 'pred'
+	vst1.32   d0[1], [r0]!
+	vext.8    d0, d0, d0, #7
+	vst1.32   d0[1], [r0]!
+	vext.8    d0, d0, d0, #7
+	vst1.32   d0[1], [r0]!
+	vext.8    d0, d0, d0, #7
+	vst1.32   d0[1], [r0]
+
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_v_l_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the top row (8 bytes)
+	sub    r3,  r1, r2
+	vld1.32  {d0}, [r3]
+
+        
+	vext.8   d1,  d0, d0, #1
+	vaddl.u8 q1,  d1, d0     //q1:{t0+t1,t1+t2,t2+t3...t5+t6,x,x}
+	
+	vext.8   q2,  q1, q1, #2
+	vadd.u16 q2,  q1, q2     //q2:{t0+t1+t1+t2,t1+t2+t2+t3,...t4+t5+t5+t6,x,x}
+	
+	//calculate the "vl0,vl1,vl2,vl3,vl4"
+	vqrshrn.u16  d0,  q1, #1
+	
+	//calculate the "vl5,vl6,vl7,vl8,vl9"
+	vqrshrn.u16  d1,  q2, #2
+	
+	//Adjust the data sequence for setting the luma MB
+	vst1.32  d0[0], [r0]!
+	vst1.32  d1[0], [r0]!
+	vext.8   d0,  d0, d0, #1
+	vext.8   d1,  d1, d1, #1
+	vst1.32  d0[0], [r0]!
+	vst1.32  d1[0], [r0]
+	
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_v_r_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the top row (4 bytes)
+	sub       r3,  r1, r2
+	vld1.32   {d0[1]}, [r3]
+	
+	//Load the left column (4 bytes)
+	sub       r3,  #1
+	vld1.8    {d0[3]}, [r3], r2	
+	vld1.8    {d0[2]}, [r3], r2
+	vld1.8    {d0[1]}, [r3], r2	
+	vld1.8    {d0[0]}, [r3]	
+
+        
+	vext.8    d1, d0, d0, #7
+	vaddl.u8  q1, d0, d1      //q1:{X,L2+L1,L1+L0,L0+LT,LT+T0,T0+T1,T1+T2,T2+T3}
+	
+	vext.u8   q2, q1, q1, #14
+	vadd.u16  q2, q2, q1      //q2:{X,L2+L1+L1+L0,L1+L0+L0+LT,...T1+T2+T2+T3}
+	
+	//Calculate the vr0 ~ vr9
+	vqrshrn.u16 d1, q2, #2
+	vqrshrn.u16 d0, q1, #1
+	
+	//Adjust the data sequence for setting the luma MB
+	vst1.32  d0[1], [r0]!
+	vst1.32  d1[1], [r0]!
+	//add    r2, r0, r1
+	vst1.8   d1[3], [r0]!
+	vst1.16  d0[2], [r0]!    
+	vst1.8   d0[6], [r0]!
+	vst1.8   d1[2], [r0]!
+	vst1.16  d1[2], [r0]!    
+	vst1.8   d1[6], [r0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_h_u_neon
+	//stmdb sp!, { r4, lr}
+	//Load the left column data
+	sub       r3,  r1, #1
+	mov       r1,  #3
+	mul       r1,  r2
+	add       r1,  r3
+	vld1.8    {d0[]},  [r1]	   	   
+	vld1.8    {d0[4]}, [r3], r2	
+	vld1.8    {d0[5]}, [r3], r2
+	vld1.8    {d0[6]}, [r3], r2 //d0:{L3,L3,L3,L3,L0,L1,L2,L3}	
+
+	vext.8    d1, d0, d0, #1
+	vaddl.u8  q2, d0, d1        //q2:{L3+L3,L3+L3,L3+L3,L3+L0,L0+L1,L1+L2,L2+L3,L3+L3}	
+	
+	vext.u8   d2, d5, d4, #2
+	vadd.u16  d3, d2, d5        //d3:{L0+L1+L1+L2,L1+L2+L2+L3,L2+L3+L3+L3,L3+L3+L3+L3} 
+	
+	//Calculate the hu0 ~ hu5
+	vqrshrn.u16 d2, q2, #1
+	vqrshrn.u16 d1, q1, #2
+	
+	//Adjust the data sequence for setting the luma MB
+	vzip.8   d2, d1
+	vst1.32  d1[0], [r0]!
+	vext.8   d2, d1, d1, #2	
+	vst1.32  d2[0], [r0]!
+	vst1.32  d1[1], [r0]!
+	vst1.32  d0[0], [r0]
+	
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i4x4_luma_pred_h_d_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the data
+	sub       r3,  r1, r2
+	sub       r3,  #1
+	vld1.32   {d0[1]}, [r3], r2
+	vld1.8    {d0[3]}, [r3], r2	
+	vld1.8    {d0[2]}, [r3], r2
+	vld1.8    {d0[1]}, [r3], r2	
+	vld1.8    {d0[0]}, [r3]	    //d0:{L3,L2,L1,L0,LT,T0,T1,T2}
+
+
+	vext.8    d1, d0, d0, #7
+	vaddl.u8  q1, d0, d1        //q1:{x,L3+L2,L2+L1,L1+L0,L0+LT,LT+T0,T0+T1,T1+T2}
+	
+	vext.u8   q2, q1, q1, #14   //q2:{x,x, L3+L2,L2+L1,L1+L0,L0+LT,LT+T0,T0+T1}
+	vadd.u16  q3, q2, q1        //q3:{x,x,L3+L2+L2+L1,L2+L1+L1+L0,L1+L0+L0+LT,L0+LT+LT+T0,LT+T0+T0+T1,T0+T1+T1+T2}
+	
+	//Calculate the hd0~hd9
+	vqrshrn.u16 d1, q3, #2
+	vqrshrn.u16 d0, q2, #1
+	
+	//Adjust the data sequence for setting the luma MB
+	vmov      d3, d1
+	vtrn.8    d0, d1
+	vext.u8   d2, d1, d1, #6
+	vst2.16  {d2[3], d3[3]}, [r0]!
+	vst2.16  {d0[2], d1[2]}, [r0]!
+	vmov     d3, d0
+	vst2.16  {d2[2], d3[2]}, [r0]!
+	vst2.16  {d0[1], d1[1]}, [r0]
+
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i_chroma_pred_v_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Get the top row (8 byte)
+	sub  r3, r1, r2
+	vldr d0, [r3]
+
+	//Set the chroma MB using top row data
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d0}, [r0]			
+													
+WELS_ASM_FUNC_END
+
+ 
+WELS_ASM_FUNC_BEGIN enc_get_i_chroma_pred_h_neon
+	//stmdb sp!, { r2-r5, lr}
+	////Get the left column (8 byte)
+	sub  r3, r1, #1
+	vld1.8 {d0[]}, [r3], r2
+	vld1.8 {d1[]}, [r3], r2	
+	vld1.8 {d2[]}, [r3], r2	
+	vld1.8 {d3[]}, [r3], r2
+	vld1.8 {d4[]}, [r3], r2
+	vld1.8 {d5[]}, [r3], r2	
+	vld1.8 {d6[]}, [r3], r2	
+	vld1.8 {d7[]}, [r3]
+	 
+	//Set the chroma MB using left column data 
+	vst1.8 {d0}, [r0]!
+	vst1.8 {d1}, [r0]!
+	vst1.8 {d2}, [r0]!
+	vst1.8 {d3}, [r0]!
+	vst1.8 {d4}, [r0]!
+	vst1.8 {d5}, [r0]!
+	vst1.8 {d6}, [r0]!
+	vst1.8 {d7}, [r0]	
+	
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN enc_get_i_chroma_pred_dc_both_neon
+    //stmdb sp!, { r2-r5, lr}
+    //Load the left column data (8 bytes)
+    sub r3, r1, #1
+    GET_8BYTE_DATA d0, r3, r2	
+    
+    //Load the top row data (8 bytes)
+    sub  r3, r1, r2			
+    vldr d1, [r3]
+    
+    //Calculate the sum of left column and top row
+    vpaddl.u8  q0, q0
+    vpaddl.u16 q0, q0
+    vadd.u32   d2, d0, d1 //'m1' save to d2
+    
+    vrshr.u32  q0, q0, #2 //calculate 'm2','m3' 
+    vrshr.u32  d2, d2, #3 //calculate 'm4' 
+    
+    //duplicate the 'mx' to a vector line
+    vdup.8     d4, d2[0]
+    vdup.8     d5, d1[4]
+    vdup.8     d6, d0[4]
+    vdup.8     d7, d2[4]
+    
+    //Set the chroma MB 
+    vst2.32 {d4[0],d5[0]}, [r0]!
+    vst2.32 {d4[0],d5[0]}, [r0]!
+    vst2.32 {d4[0],d5[0]}, [r0]!	
+    vst2.32 {d4[0],d5[0]}, [r0]!
+    vst2.32 {d6[0],d7[0]}, [r0]!
+    vst2.32 {d6[0],d7[0]}, [r0]!
+    vst2.32 {d6[0],d7[0]}, [r0]!
+    vst2.32 {d6[0],d7[0]}, [r0]
+    		
+WELS_ASM_FUNC_END
+
+
+//Table {{1,2,3,4,1,2,3,4}*17}
+CONST0_GET_I_CHROMA_PRED_PLANE: .long 0x44332211, 0x44332211//0x140f0a05, 0x28231e19
+//Table {-3,-2,-1,0,1,2,3,4}
+CONST1_GET_I_CHROMA_PRED_PLANE: .long 0xfffefffd, 0x0000ffff,0x00020001,0x00040003
+
+WELS_ASM_FUNC_BEGIN enc_get_i_chroma_pred_plane_neon
+	//stmdb sp!, { r2-r5, lr}
+	//Load the top row data
+	sub  r3, r1, #1
+	sub  r3, r2
+	vld1.32 {d1[0]}, [r3] 
+	add  r3, #5
+	vld1.32 {d0[0]}, [r3]
+	
+	//Load the left column data
+	sub  r3, #5
+	vld1.8 {d1[4]}, [r3], r2
+	vld1.8 {d1[5]}, [r3], r2	
+	vld1.8 {d1[6]}, [r3], r2
+	vld1.8 {d1[7]}, [r3], r2 //d1:{LT,T0,T1,T2,LT,L0,L1,L2}	
+	add  r3, r2
+	vld1.8 {d0[4]}, [r3], r2
+	vld1.8 {d0[5]}, [r3], r2
+	vld1.8 {d0[6]}, [r3], r2
+	vld1.8 {d0[7]}, [r3]     //d0:{T4,T5,T6,T7,L4,L5,L6.L7}
+	
+	
+	//Save T7 to d3 for next step
+	vdup.u8   d3,   d0[3]
+	//Save L7 to d4 for next step
+	vdup.u8   d4,   d0[7]
+	
+	//Calculate the value of 'a' and save to q2
+	vaddl.u8  q2, d3, d4
+	vshl.u16  q2, #4
+	
+	//Load the table {{1,2,3,4,1,2,3,4}*17}
+	adr r3, CONST0_GET_I_CHROMA_PRED_PLANE
+	vld1.32   {d2}, [r3]
+	
+	//Calculate the 'b','c', and save to q0
+	vrev32.8  d1, d1
+	vsubl.u8  q0, d0, d1
+	vmovl.u8   q1, d2
+	vmul.s16   q0, q1
+	vpaddl.s16 q0, q0
+	vpaddl.s32 q0, q0
+	vrshr.s64  q0, #5
+	
+	//Load the table {-3,-2,-1,0,1,2,3,4} to q3
+	adr r3, CONST1_GET_I_CHROMA_PRED_PLANE
+	vld1.32   {d6, d7}, [r3]
+	
+	//Duplicate the 'b','c' to q0, q1 for SIMD instruction
+	vdup.s16   q1, d1[0]
+	vdup.s16   q0, d0[0]
+		
+	//Calculate the "(a + b * (j - 3) + c * (- 3) + 16) >> 5;"
+	vmla.s16   q2, q0, q3
+	vmla.s16   q2, q1, d6[0]
+	vqrshrun.s16 d0, q2, #5
+	
+	//Set a line of chroma MB
+	vst1.u32  {d0}, [r0]!
+	
+	//Do the same processing for each line.
+	mov  r3, #7
+loop_0_get_i_chroma_pred_plane:	
+	vadd.s16   q2, q1
+	vqrshrun.s16 d0, q2, #5
+	vst1.u32  {d0}, [r0]!
+	subs  r3, #1
+	bne  loop_0_get_i_chroma_pred_plane		
+    
+WELS_ASM_FUNC_END
+
+#endif
--- a/codec/encoder/core/arm/intra_pred_sad_3_opt_neon.S
+++ b/codec/encoder/core/arm/intra_pred_sad_3_opt_neon.S
@@ -0,0 +1,793 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+ 
+#ifdef HAVE_NEON
+.text
+#include "arm_arch_common_macro.S"
+
+ 
+#ifdef APPLE_IOS
+ //The data sequence will be used 
+.macro GET_8BYTE_DATA_L0
+	vld1.8 {$0[0]}, [$1], $2
+	vld1.8 {$0[1]}, [$1], $2
+	vld1.8 {$0[2]}, [$1], $2
+	vld1.8 {$0[3]}, [$1], $2
+	vld1.8 {$0[4]}, [$1], $2
+	vld1.8 {$0[5]}, [$1], $2
+	vld1.8 {$0[6]}, [$1], $2
+	vld1.8 {$0[7]}, [$1], $2
+.endm
+
+
+.macro HDM_TRANSFORM_4X4_L0 
+
+	//Do the vertical transform
+	vaddl.u8 q0, $0, $1 //{0,4,8,12,1,5,9,13}
+	vsubl.u8 q1, $0, $1 //{2,6,10,14,3,7,11,15}
+	vswp  d1, d2
+	vadd.s16 q2, q0, q1 //{0,1,2,3,4,5,6,7}
+	vsub.s16 q1, q0, q1 //{12,13,14,15,8,9,10,11}
+	
+	//Do the horizontal transform
+	vtrn.32 q2, q1
+	vadd.s16 q0, q2, q1
+	vsub.s16 q1, q2, q1
+	
+	vtrn.16 q0, q1
+	vadd.s16 q2, q0, q1
+	vsub.s16 q1, q0, q1 	
+
+	vmov.s16 d0, d4
+	vmov.s16 d1, d2
+
+	vabs.s16 d3, d3
+
+	//16x16_v
+	vtrn.32 d0, d1 //{0,1,3,2}
+	vaba.s16 $5, d0, $2 //16x16_v
+	vaba.s16 $5, d1, $8
+	vaba.s16 $5, d5, $8	
+	vadd.u16 $5, d3
+	
+	//16x16_h
+	vtrn.16 d4, d5 //{0,4,12,8}
+	vaba.s16 $6, d4, $3 //16x16_h
+	vabs.s16 d2, d2
+	vabs.s16 d5, d5
+	vadd.u16 d2, d3
+	vadd.u16 d2, d5
+	vadd.u16 $6, d2
+	
+	//16x16_dc_both
+	vaba.s16 $7, d4, $4 //16x16_dc_both
+	vadd.u16 $7, d2
+
+.endm
+
+#else
+ //The data sequence will be used 
+.macro GET_8BYTE_DATA_L0 arg0, arg1, arg2
+	vld1.8 {\arg0[0]}, [\arg1], \arg2
+	vld1.8 {\arg0[1]}, [\arg1], \arg2
+	vld1.8 {\arg0[2]}, [\arg1], \arg2
+	vld1.8 {\arg0[3]}, [\arg1], \arg2
+	vld1.8 {\arg0[4]}, [\arg1], \arg2
+	vld1.8 {\arg0[5]}, [\arg1], \arg2
+	vld1.8 {\arg0[6]}, [\arg1], \arg2
+	vld1.8 {\arg0[7]}, [\arg1], \arg2
+.endm
+
+.macro HDM_TRANSFORM_4X4_L0 arg0, arg1, arg2,arg3, arg4, arg5, arg6, arg7, arg8
+
+	//Do the vertical transform
+	vaddl.u8 q0, \arg0, \arg1 //{0,4,8,12,1,5,9,13}
+	vsubl.u8 q1, \arg0, \arg1 //{2,6,10,14,3,7,11,15}
+	vswp  d1, d2
+	vadd.s16 q2, q0, q1 //{0,1,2,3,4,5,6,7}
+	vsub.s16 q1, q0, q1 //{12,13,14,15,8,9,10,11}
+	
+	//Do the horizontal transform
+	vtrn.32 q2, q1
+	vadd.s16 q0, q2, q1
+	vsub.s16 q1, q2, q1
+	
+	vtrn.16 q0, q1
+	vadd.s16 q2, q0, q1
+	vsub.s16 q1, q0, q1 	
+
+	vmov.s16 d0, d4
+	vmov.s16 d1, d2
+
+	vabs.s16 d3, d3
+
+	//16x16_v
+	vtrn.32 d0, d1 //{0,1,3,2}
+	vaba.s16 \arg5, d0, \arg2 //16x16_v
+	vaba.s16 \arg5, d1, \arg8
+	vaba.s16 \arg5, d5, \arg8	
+	vadd.u16 \arg5, d3
+	
+	//16x16_h
+	vtrn.16 d4, d5 //{0,4,12,8}
+	vaba.s16 \arg6, d4, \arg3 //16x16_h
+	vabs.s16 d2, d2
+	vabs.s16 d5, d5
+	vadd.u16 d2, d3
+	vadd.u16 d2, d5
+	vadd.u16 \arg6, d2
+	
+	//16x16_dc_both
+	vaba.s16 \arg7, d4, \arg4 //16x16_dc_both
+	vadd.u16 \arg7, d2
+.endm
+#endif
+
+WELS_ASM_FUNC_BEGIN satd_intra_16x16_x3_opt_neon
+    stmdb sp!, {r4-r7, lr}
+
+	//Get the top line data to 'q15'(16 bytes)
+	sub  r7, r0, r1
+    vld1.8 {q15}, [r7]
+    
+	//Get the left colume data to 'q14' (16 bytes)
+	sub  r7, r0, #1
+	GET_8BYTE_DATA_L0 d28, r7, r1
+	GET_8BYTE_DATA_L0 d29, r7, r1	
+	
+	//Calculate the mean value and save to 'q13->d27(reserve the d26)' (2 bytes)
+	//Calculate the 16x16_dc_both mode SATD	
+	vaddl.u8 q0, d30, d31
+	vaddl.u8 q1, d28, d29
+	vadd.u16 q0, q1
+	vadd.u16 d0, d1
+	vpaddl.u16 d0, d0
+	vpaddl.u32 d0, d0
+	
+	//Calculate the mean value 
+	vrshr.u16  d0, #5
+	vshl.u16   d27, d0, #4 
+	
+	
+	//Calculate the 16x16_v mode SATD and save to "q11, 12"
+	vshll.u8 q0, d30, #2
+	vshll.u8 q1, d31, #2	
+	vtrn.32  q0, q1
+	vadd.s16 q2, q0, q1
+	vsub.s16 q1, q0, q1
+	vtrn.16  q2, q1
+	vadd.s16 q12, q2, q1
+	vsub.s16 q11, q2, q1
+	vtrn.32  q12, q11 //{0,1,3,2, 4,5,7,6} q12
+	                  //{8,9,11,10, 12,13,15,14} q11
+    //Calculate the 16x16_h mode SATD and save to "q9, q10"
+	vshll.u8 q0, d28, #2
+	vshll.u8 q1, d29, #2	
+	vtrn.32  q0, q1
+	vadd.s16 q2, q0, q1
+	vsub.s16 q1, q0, q1
+	vtrn.16  q2, q1
+	vadd.s16 q10, q2, q1
+	vsub.s16 q9,  q2, q1
+	vtrn.32  q10, q9  //{0,1,3,2, 4,5,7,6} q10
+	                  //{8,9,11,10, 12,13,15,14} q9	
+	
+	vmov.i32 d17, #0//Save the SATD of DC_BOTH
+	vmov.i32 d16, #0//Save the SATD of H
+	vmov.i32 d15, #0//Save the SATD of V
+	vmov.i32 d14, #0//For zero D register
+	//Load the p_enc data and save to "q3 ~ q6"--- 16X4 bytes	
+	vld1.32  {q3}, [r2], r3
+	vld1.32  {q4}, [r2], r3
+	vld1.32  {q5}, [r2], r3
+	vld1.32  {q6}, [r2], r3	
+	vtrn.32  q3, q4
+	vtrn.32  q5, q6	
+	
+    HDM_TRANSFORM_4X4_L0 d6, d10, d24, d20, d27, d15, d16, d17, d14 
+    HDM_TRANSFORM_4X4_L0 d7, d11, d22, d20, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d8, d12, d25, d20, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d9, d13, d23, d20, d27, d15, d16, d17, d14		
+
+	//Load the p_enc data and save to "q3 ~ q6"--- 16X4 bytes	
+	vld1.32  {q3}, [r2], r3
+	vld1.32  {q4}, [r2], r3
+	vld1.32  {q5}, [r2], r3
+	vld1.32  {q6}, [r2], r3	
+	vtrn.32  q3, q4
+	vtrn.32  q5, q6	
+	
+    HDM_TRANSFORM_4X4_L0 d6, d10, d24, d21, d27, d15, d16, d17, d14 
+    HDM_TRANSFORM_4X4_L0 d7, d11, d22, d21, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d8, d12, d25, d21, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d9, d13, d23, d21, d27, d15, d16, d17, d14		
+	
+	//Load the p_enc data and save to "q3 ~ q6"--- 16X4 bytes	
+	vld1.32  {q3}, [r2], r3
+	vld1.32  {q4}, [r2], r3
+	vld1.32  {q5}, [r2], r3
+	vld1.32  {q6}, [r2], r3	
+	vtrn.32  q3, q4
+	vtrn.32  q5, q6	
+	
+    HDM_TRANSFORM_4X4_L0 d6, d10, d24, d18, d27, d15, d16, d17, d14 
+    HDM_TRANSFORM_4X4_L0 d7, d11, d22, d18, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d8, d12, d25, d18, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d9, d13, d23, d18, d27, d15, d16, d17, d14		
+	
+	//Load the p_enc data and save to "q3 ~ q6"--- 16X4 bytes	
+	vld1.32  {q3}, [r2], r3
+	vld1.32  {q4}, [r2], r3
+	vld1.32  {q5}, [r2], r3
+	vld1.32  {q6}, [r2], r3	
+	vtrn.32  q3, q4
+	vtrn.32  q5, q6	
+	
+    HDM_TRANSFORM_4X4_L0 d6, d10, d24, d19, d27, d15, d16, d17, d14 
+    HDM_TRANSFORM_4X4_L0 d7, d11, d22, d19, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d8, d12, d25, d19, d27, d15, d16, d17, d14
+    HDM_TRANSFORM_4X4_L0 d9, d13, d23, d19, d27, d15, d16, d17, d14		
+	
+	//Get the data from stack
+	ldr r5, [sp, #20] //the addr of Best_mode
+	ldr r6, [sp, #24] //the value of i_lambda
+
+	//vadd.u16   d24, d25
+	vrshr.u16  d15, #1
+	vpaddl.u16 d15, d15
+	vpaddl.u32 d15, d15
+	vmov.u32   r0, d15[0]
+	
+	//vadd.u16   d22, d23
+	vrshr.u16  d16, #1
+	vpaddl.u16 d16, d16
+	vpaddl.u32 d16, d16
+	vmov.u32   r1, d16[0] 
+	add  r1, r6, lsl #1
+	
+	//vadd.u16   d20, d21
+	vrshr.u16  d17, #1
+	vpaddl.u16 d17, d17
+	vpaddl.u32 d17, d17
+	vmov.u32   r2, d17[0] 
+	add  r2, r6, lsl #1
+
+    mov r4, #0
+    cmp r1, r0
+    movcc r0, r1
+    movcc r4, #1
+    cmp r2, r0
+    movcc r0, r2
+    movcc r4, #2
+
+    str r4, [r5]
+
+    ldmia sp!, {r4-r7, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN sad_intra_16x16_x3_opt_neon
+    stmdb sp!, {r4-r7, lr}
+	
+	//Get the top line data to 'q15'(16 bytes)
+	sub  r4, r0, r1
+    vld1.8 {q15}, [r4]
+    
+	//Get the left colume data to 'q14' (16 bytes)
+	sub  r4, r0, #1
+	GET_8BYTE_DATA_L0 d28, r4, r1
+	GET_8BYTE_DATA_L0 d29, r4, r1	
+	
+	//Calculate the mean value and save to 'q13' (8 bytes)
+	//Calculate the 16x16_dc_both mode SATD	
+	vaddl.u8 q0, d30, d31
+	vaddl.u8 q1, d28, d29
+	vadd.u16 q0, q1
+	vadd.u16 d0, d1
+	vpaddl.u16 d0, d0
+	vpaddl.u32 d0, d0
+	
+	//Calculate the mean value 
+	vrshr.u16  d0, d0, #5
+	vdup.8     q13, d0[0]
+	
+	sub  r4, r0, #1
+	
+	vmov.i32 q12, #0//Save the SATD of DC_BOTH
+	vmov.i32 q11, #0//Save the SATD of H
+	vmov.i32 q10, #0//Save the SATD of V
+	
+	mov lr, #16
+sad_intra_16x16_x3_opt_loop0:
+    //Get the left colume data to 'd0' (16 bytes)
+	vld1.8 {d0[]}, [r4], r1	
+
+	//Load the p_enc data and save to "q1 ~ q2"--- 16X4 bytes	
+	vld1.8  {q1}, [r2], r3
+	
+	subs lr, #1
+	//Do the SAD for top colume
+	vabal.u8  q12, d30, d2
+	vabal.u8  q12, d31, d3	
+
+	//Do the SAD for left colume
+	vabal.u8  q11, d0, d2
+	vabal.u8  q11, d0, d3	
+
+	//Do the SAD for mean value
+	vabal.u8  q10, d26, d2
+	vabal.u8  q10, d26, d3	
+	
+	bne sad_intra_16x16_x3_opt_loop0
+	
+	//Get the data from stack
+	ldr r5, [sp, #20] //the addr of Best_mode
+	ldr r6, [sp, #24] //the value of i_lambda
+
+	vadd.u16   d24, d25
+	vpaddl.u16 d24, d24
+	vpaddl.u32 d24, d24
+	vmov.u32   r0, d24[0]
+	
+	vadd.u16   d22, d23
+	vpaddl.u16 d22, d22
+	vpaddl.u32 d22, d22
+	vmov.u32   r1, d22[0] 
+	add  r1, r6, lsl #1
+	
+	vadd.u16   d20, d21
+	vpaddl.u16 d20, d20
+	vpaddl.u32 d20, d20
+	vmov.u32   r2, d20[0] 
+	add  r2, r6, lsl #1
+		
+    mov r4, #0
+    cmp r1, r0
+    movcc r0, r1
+    movcc r4, #1
+    cmp r2, r0
+    movcc r0, r2
+    movcc r4, #2
+
+    str r4, [r5]
+
+	ldmia sp!, {r4-r7, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN sad_intra_8x8_x3_opt_neon
+    stmdb sp!, {r4-r7, lr}
+	
+	//Get the data from stack
+	ldr r4, [sp, #32] //p_dec_cr
+	ldr r5, [sp, #36] //p_enc_cr
+	
+	//Get the left colume data to 'd28(cb), d30(cr)' (16 bytes)
+	sub  r6, r0, #1
+	GET_8BYTE_DATA_L0 d28, r6, r1
+	sub  r6, r4, #1	
+	GET_8BYTE_DATA_L0 d30, r6, r1	
+	
+	//Get the top line data to 'd29(cb), d31(cr)'(16 bytes)
+	sub  r6, r0, r1
+    vld1.8 {d29}, [r6]
+	sub  r6, r4, r1
+    vld1.8 {d31}, [r6]
+        
+	//Calculate the sum of left column and top row
+	vmov.i32   q0, q14
+    vpaddl.u8  q0, q0
+    vpaddl.u16 q0, q0
+    vadd.u32   d2, d0, d1 //'m1' save to d2
+    vrshr.u32  q0, q0, #2 //calculate 'm2','m3' 
+    vrshr.u32  d2, d2, #3 //calculate 'm4' 
+    
+    //duplicate the 'mx' to a vector line  
+    vdup.8     d27, d2[0]
+    vdup.8     d26, d1[4]
+	vtrn.32    d27, d26
+	
+    vdup.8     d26, d0[4]
+    vdup.8     d25, d2[4]
+    vtrn.32    d26, d25   //Save to "d27, d26"
+	
+	vmov.i32   q0, q15
+    vpaddl.u8  q0, q0
+    vpaddl.u16 q0, q0
+    vadd.u32   d2, d0, d1 //'m1' save to d2
+    vrshr.u32  q0, q0, #2 //calculate 'm2','m3' 
+    vrshr.u32  d2, d2, #3 //calculate 'm4' 
+    
+    //duplicate the 'mx' to a vector line
+    vdup.8     d25, d2[0]
+    vdup.8     d24, d1[4]
+	vtrn.32    d25, d24
+	
+    vdup.8     d24, d0[4]
+    vdup.8     d23, d2[4]
+	vtrn.32    d24, d23   //Save to "d25, d24"
+	
+	vmov.i32 q11, #0//Save the SATD of DC_BOTH
+	vmov.i32 q10, #0//Save the SATD of H
+	vmov.i32 q9 , #0//Save the SATD of V
+	sub  r6, r0, #1
+	sub  r7, r4, #1	
+	mov lr, #4
+sad_intra_8x8_x3_opt_loop0:
+
+	//Load the p_enc data and save to "q1 ~ q2"--- 16X4 bytes	
+	vld1.8  {d0}, [r2], r3
+	vld1.8  {d1}, [r5], r3
+	
+    //Get the left colume data to 'd0' (16 bytes)
+	vld1.8 {d2[]}, [r6], r1	
+	vld1.8 {d3[]}, [r7], r1	
+		
+	subs lr, #1
+
+	
+	//Do the SAD for top colume
+	vabal.u8  q11, d29, d0 
+	vabal.u8  q11, d31, d1	
+
+	//Do the SAD for left colume
+	vabal.u8  q10, d2, d0
+	vabal.u8  q10, d3, d1	
+
+	//Do the SAD for mean value
+	vabal.u8  q9, d27, d0
+	vabal.u8  q9, d25, d1	
+	
+	
+	bne sad_intra_8x8_x3_opt_loop0
+
+	mov lr, #4
+sad_intra_8x8_x3_opt_loop1:
+
+	//Load the p_enc data and save to "q1 ~ q2"--- 16X4 bytes	
+	vld1.8  {d0}, [r2], r3
+	vld1.8  {d1}, [r5], r3
+	
+    //Get the left colume data to 'd0' (16 bytes)
+	vld1.8 {d2[]}, [r6], r1	
+	vld1.8 {d3[]}, [r7], r1	
+		
+	subs lr, #1
+
+	
+	//Do the SAD for top colume
+	vabal.u8  q11, d29, d0 
+	vabal.u8  q11, d31, d1	
+
+	//Do the SAD for left colume
+	vabal.u8  q10, d2, d0
+	vabal.u8  q10, d3, d1	
+
+	//Do the SAD for mean value
+	vabal.u8  q9, d26, d0
+	vabal.u8  q9, d24, d1	
+	
+	
+	bne sad_intra_8x8_x3_opt_loop1	
+	//Get the data from stack
+	ldr r5, [sp, #20] //the addr of Best_mode
+	ldr r6, [sp, #24] //the value of i_lambda
+
+	vadd.u16   d22, d23
+	vpaddl.u16 d22, d22
+	vpaddl.u32 d22, d22
+	vmov.u32   r0, d22[0] 
+	add  r0, r6, lsl #1
+	
+	vadd.u16   d20, d21
+	vpaddl.u16 d20, d20
+	vpaddl.u32 d20, d20
+	vmov.u32   r1, d20[0] 
+	add  r1, r6, lsl #1
+
+	vadd.u16   d18, d19
+	vpaddl.u16 d18, d18
+	vpaddl.u32 d18, d18
+	vmov.u32   r2, d18[0]
+
+    mov r4, #2
+    cmp r1, r0
+    movcc r0, r1
+    movcc r4, #1
+    cmp r2, r0
+    movcc r0, r2
+    movcc r4, #0
+
+    str r4, [r5]
+
+	ldmia sp!, {r4-r7, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN satd_intra_8x8_x3_opt_neon
+    stmdb sp!, {r4-r7, lr}
+    
+	//Get the data from stack
+	ldr r4, [sp, #32] //p_dec_cr
+	ldr r5, [sp, #36] //p_enc_cr
+	
+	//Get the top line data to 'd29(cb), d31(cr)'(16 bytes)
+	sub  r6, r0, r1
+    vld1.8 {d29}, [r6]
+	sub  r6, r4, r1
+    vld1.8 {d31}, [r6]
+        
+	//Get the left colume data to 'd28(cb), d30(cr)' (16 bytes)
+	sub  r6, r0, #1
+	GET_8BYTE_DATA_L0 d28, r6, r1
+	sub  r6, r4, #1	
+	GET_8BYTE_DATA_L0 d30, r6, r1	
+		
+	//Calculate the 16x16_v mode SATD and save to "q12, 13"
+	vshll.u8 q0, d29, #2
+	vshll.u8 q1, d31, #2	
+	vtrn.32  q0, q1
+	vadd.s16 q2, q0, q1
+	vsub.s16 q1, q0, q1
+	vtrn.16  q2, q1
+	vadd.s16 q13, q2, q1
+	vsub.s16 q12, q2, q1
+	vtrn.32  q13, q12 //{0,1,3,2, 4,5,7,6} q13
+	                  //{8,9,11,10, 12,13,15,14} q12
+    //Calculate the 16x16_h mode SATD and save to "q10, q11"
+	vshll.u8 q0, d28, #2
+	vshll.u8 q1, d30, #2	
+	vtrn.32  q0, q1
+	vadd.s16 q2, q0, q1
+	vsub.s16 q1, q0, q1
+	vtrn.16  q2, q1
+	vadd.s16 q11, q2, q1
+	vsub.s16 q10,  q2, q1
+	vtrn.32  q11, q10  //{0,1,3,2, 4,5,7,6} q11
+	                   //{8,9,11,10, 12,13,15,14} q10	
+			
+	//Calculate the sum of left column and top row
+	//vmov.i32   q0, q14
+    vpaddl.u8  q0, q14
+    vpaddl.u16 q0, q0
+    vadd.u32   d2, d0, d1 
+
+    vpaddl.u8  q2, q15
+    vpaddl.u16 q2, q2
+    vadd.u32   d3, d4, d5 
+	
+	vtrn.32    q0, q2
+	vrshr.u32  q1, #3
+	vrshr.u32  q2, #2	
+	vshll.u32  q9, d4, #4 // {2cb, 2cr} q9
+	vshll.u32  q8, d5, #4 // {1cb, 1cr} q8
+	vshll.u32  q7, d2, #4 // {0cb, 3cb} q7
+	vshll.u32  q6, d3, #4 // {0cr, 3cr} q6
+	
+	
+    vmov.i32 d28, #0//Save the SATD of DC_BOTH
+	vmov.i32 d10, #0//Save the SATD of H
+	vmov.i32 d11, #0//Save the SATD of V
+	vmov.i32 d30, #0//For zero D register
+	//Load the p_enc data and save to "q3 ~ q6"--- 16X4 bytes	
+	vld1.32  {d6}, [r2], r3
+	vld1.32  {d7}, [r2], r3
+	vld1.32  {d8}, [r2], r3
+	vld1.32  {d9}, [r2], r3	
+	vtrn.32  d6, d7
+	vtrn.32  d8, d9	
+    HDM_TRANSFORM_4X4_L0 d6, d8, d26, d22, d14, d11, d10, d28, d30
+    HDM_TRANSFORM_4X4_L0 d7, d9, d27, d22, d16, d11, d10, d28, d30
+	
+	vld1.32  {d6}, [r5], r3
+	vld1.32  {d7}, [r5], r3
+	vld1.32  {d8}, [r5], r3
+	vld1.32  {d9}, [r5], r3	
+	vtrn.32  d6, d7
+	vtrn.32  d8, d9	
+    HDM_TRANSFORM_4X4_L0 d6, d8, d24, d20, d12, d11, d10, d28, d30
+    HDM_TRANSFORM_4X4_L0 d7, d9, d25, d20, d17, d11, d10, d28, d30		
+
+	//Load the p_enc data and save to "q3 ~ q6"--- 16X4 bytes	
+	vld1.32  {d6}, [r2], r3
+	vld1.32  {d7}, [r2], r3
+	vld1.32  {d8}, [r2], r3
+	vld1.32  {d9}, [r2], r3	
+	vtrn.32  d6, d7
+	vtrn.32  d8, d9	
+    HDM_TRANSFORM_4X4_L0 d6, d8, d26, d23, d18, d11, d10, d28, d30 
+    HDM_TRANSFORM_4X4_L0 d7, d9, d27, d23, d15, d11, d10, d28, d30
+	
+	vld1.32  {d6}, [r5], r3
+	vld1.32  {d7}, [r5], r3
+	vld1.32  {d8}, [r5], r3
+	vld1.32  {d9}, [r5], r3	
+	vtrn.32  d6, d7
+	vtrn.32  d8, d9	
+    HDM_TRANSFORM_4X4_L0 d6, d8, d24, d21, d19, d11, d10, d28, d30
+    HDM_TRANSFORM_4X4_L0 d7, d9, d25, d21, d13, d11, d10, d28, d30	
+		
+	//Get the data from stack
+	ldr r5, [sp, #20] //the addr of Best_mode
+	ldr r6, [sp, #24] //the value of i_lambda
+
+	vrshr.u16  d11, #1
+	vpaddl.u16 d11, d11
+	vpaddl.u32 d11, d11
+	vmov.u32   lr, d11[0] 
+	add  lr, r6, lsl #1
+	
+	vrshr.u16  d10, #1
+	vpaddl.u16 d10, d10
+	vpaddl.u32 d10, d10
+	vmov.u32   r3, d10[0] 
+	add  r3, r6, lsl #1
+
+	vrshr.u16  d28, #1
+	vpaddl.u16 d28, d28
+	vpaddl.u32 d28, d28
+	vmov.u32   r2, d28[0]
+
+    mov r6, #2
+    cmp r3, lr
+    movcc lr, r3
+    movcc r6, #1
+    cmp r2, lr
+    movcc lr, r2
+    movcc r6, #0
+
+    str r6, [r5]
+    mov r0, lr
+
+	ldmia sp!, {r4-r7, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN satd_intra_4x4_x3_opt_neon
+    stmdb sp!, {r4-r7, lr}
+
+    //Get the top line data to 'd31[0~3]'(4 bytes)
+	sub  r7, r0, r1
+    vld1.32 {d31[0]}, [r7]
+    
+	//Get the left colume data to 'd31[4~7]' (4 bytes)
+	sub  r7, r0, #1
+    vld1.8 {d31[4]}, [r7], r1
+    vld1.8 {d31[5]}, [r7], r1
+    vld1.8 {d31[6]}, [r7], r1
+    vld1.8 {d31[7]}, [r7], r1
+	
+	//Calculate the mean value and save to 'd30' (2 bytes)
+	vpaddl.u8 d0, d31
+	vpaddl.u16 d0, d0
+	vpaddl.u32 d0, d0	
+	//Calculate the mean value 
+	vrshr.u16  d0, #3
+	vshl.u16   d30, d0, #4 
+	
+	//Calculate the 16x16_v mode SATD and save to "d29"
+    //Calculate the 16x16_h mode SATD and save to "d28"	
+	vshll.u8 q0, d31, #2	
+	vtrn.32  d0, d1
+	vadd.s16 d2, d0, d1
+	vsub.s16 d1, d0, d1
+	vtrn.16  d2, d1
+	vadd.s16 d29, d2, d1
+	vsub.s16 d28, d2, d1
+	vtrn.32  d29, d28 //{0,1,3,2 top} d29
+	                  //{0,1,3,2 left} d28
+
+    vmov.i32 d27, #0//Save the SATD of DC_BOTH
+	vmov.i32 d26, #0//Save the SATD of H
+	vmov.i32 d25, #0//Save the SATD of V
+	vmov.i32 d24, #0//For zero D register
+	
+	//Load the p_enc data and save to "d22,d23"--- 4X4 bytes	
+	vld1.32  {d23[0]}, [r2], r3
+	vld1.32  {d23[1]}, [r2], r3
+	vld1.32  {d22[0]}, [r2], r3
+	vld1.32  {d22[1]}, [r2], r3	
+
+    HDM_TRANSFORM_4X4_L0 d23, d22, d29, d28, d30, d25, d26, d27, d24
+
+	//Get the data from stack
+	ldr r5, [sp, #28] //the value of lambda2
+	ldr r6, [sp, #32] //the value of lambda1
+	ldr r7, [sp, #36] //the value of lambda0
+	
+	vrshr.u16  d25, #1
+	vpaddl.u16 d25, d25
+	vpaddl.u32 d25, d25
+	vmov.u32   r0, d25[0] 
+	add  r0, r7
+	
+	vrshr.u16  d26, #1
+	vpaddl.u16 d26, d26
+	vpaddl.u32 d26, d26
+	vmov.u32   r1, d26[0] 
+	add  r1, r6
+
+	vrshr.u16  d27, #1
+	vpaddl.u16 d27, d27
+	vpaddl.u32 d27, d27
+	vmov.u32   r2, d27[0]
+	add  r2, r5
+	
+	ldr r5, [sp, #20] //p_dst
+	ldr r6, [sp, #24] //the addr of Best_mode	
+						
+	mov r4, r0
+	cmp r1, r4
+	movcc r4, r1
+	cmp r2, r4
+	movcc r4, r2
+
+	//The compare sequence affect the resule
+	cmp r4, r2
+	bne satd_intra_4x4_x3_opt_jump0
+	mov r0, #2
+	str r0, [r6]
+	vshr.u32  d0, d30, #4 // {2cb, 2cr} q9
+	vdup.8 q1, d0[0]
+	vst1.8 {q1}, [r5]
+	//...
+	bl satd_intra_4x4_x3_opt_end
+satd_intra_4x4_x3_opt_jump0:
+
+	cmp r4, r1
+	bne satd_intra_4x4_x3_opt_jump1
+	mov r0, #1
+	str r0, [r6]
+	vdup.8 d0, d31[4]
+	vdup.8 d1, d31[5]
+	vdup.8 d2, d31[6]
+	vdup.8 d3, d31[7]	
+	vst4.32 {d0[0],d1[0],d2[0],d3[0]}, [r5]							
+
+	bl satd_intra_4x4_x3_opt_end
+satd_intra_4x4_x3_opt_jump1:
+
+	mov r0, #0
+	str r0, [r6]
+	vst1.32 {d31[0]}, [r5]!
+	vst1.32 {d31[0]}, [r5]!
+	vst1.32 {d31[0]}, [r5]!
+	vst1.32 {d31[0]}, [r5]!
+
+			
+satd_intra_4x4_x3_opt_end:
+	mov r0, r4	
+		
+	ldmia sp!, {r4-r7, lr}
+WELS_ASM_FUNC_END
+
+#endif
--- a/codec/encoder/core/arm/mc_neon.S
+++ b/codec/encoder/core/arm/mc_neon.S
--- a/codec/encoder/core/arm/memory_neon.S
+++ b/codec/encoder/core/arm/memory_neon.S
@@ -0,0 +1,63 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+
+#ifdef  HAVE_NEON
+.text
+#include "arm_arch_common_macro.S"
+
+
+WELS_ASM_FUNC_BEGIN WelsSetMemZero_neon
+    veor q0, q0
+    cmp r1, #32
+    beq mem_zero_32_neon_start
+    blt mem_zero_24_neon_start
+
+mem_zero_loop:
+    subs r1, r1, #64
+    vst1.64 {q0}, [r0]!
+    vst1.64 {q0}, [r0]!
+    vst1.64 {q0}, [r0]!
+    vst1.64 {q0}, [r0]!
+    bne mem_zero_loop
+WELS_ASM_FUNC_END
+
+mem_zero_32_neon_start:
+    vst1.64 {q0}, [r0]!
+    vst1.64 {q0}, [r0]!
+WELS_ASM_FUNC_END
+
+mem_zero_24_neon_start:
+    vst1.64 {q0}, [r0]!
+    vst1.64 {d0}, [r0]!
+WELS_ASM_FUNC_END
+
+#endif
--- a/codec/encoder/core/arm/pixel_neon.S
+++ b/codec/encoder/core/arm/pixel_neon.S
@@ -0,0 +1,880 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+
+#ifdef HAVE_NEON
+.text
+#include "arm_arch_common_macro.S"
+
+.macro SATD_16x4
+    vld1.64     {q0}, [r0,:128], r1   
+    vld1.64     {q1}, [r2], r3   
+
+    vsubl.u8    q4,  d0,  d2        
+    vld1.64     {q2}, [r0,:128], r1  
+
+    vsubl.u8    q6, d1,  d3       
+    vld1.64     {q3}, [r2], r3   
+
+    vsubl.u8    q5,  d4,  d6        
+    vld1.64     {q0}, [r0,:128], r1  
+
+    vsubl.u8    q7, d5,  d7	
+    vld1.64     {q1}, [r2], r3
+
+    vsubl.u8    q8, d0,  d2
+    vld1.64     {q2}, [r0,:128], r1 
+
+    vsubl.u8    q10, d1,  d3
+    vadd.s16    q0,  q4,  q5  
+
+    vld1.64     {q3}, [r2], r3  
+    vsub.s16    q1,  q4,  q5     
+
+    vsubl.u8    q9, d4,  d6     
+    vsubl.u8    q11, d5,  d7    
+
+    vadd.s16    q2, q8, q9       
+    vsub.s16    q3, q8, q9		
+
+    vadd.s16    q4, q6, q7			
+    vsub.s16	q5, q6, q7
+
+    vadd.s16    q6, q10, q11	
+    vsub.s16	q7, q10, q11	
+
+    vadd.s16    q8, q0, q2      
+    vsub.s16    q10, q0, q2 
+
+    vadd.s16    q9, q4, q6  
+    vsub.s16    q11, q4, q6 	
+
+    vsub.s16    q0, q1, q3		
+    vadd.s16    q2, q1, q3     
+
+    vsub.s16    q1, q5, q7		
+    vadd.s16    q3, q5, q7    
+
+    vtrn.16 q8, q10  
+    vtrn.16 q9, q11	
+
+    vadd.s16 q4, q8, q10		
+    vabd.s16 q6, q8, q10	
+
+    vadd.s16 q5, q9, q11		
+    vabd.s16 q7, q9, q11	
+
+    vabs.s16 q4, q4
+    vabs.s16 q5, q5
+
+    vtrn.16 q0, q2			
+    vtrn.16 q1, q3			
+
+    vadd.s16 q8, q0, q2			  
+    vabd.s16 q10, q0, q2		 
+
+    vadd.s16 q9, q1, q3			  
+    vabd.s16 q11, q1, q3
+
+    vabs.s16 q8, q8
+    vabs.s16 q9, q9
+
+    vtrn.32 q4, q6
+    vtrn.32 q5, q7
+
+    vtrn.32 q8, q10
+    vtrn.32 q9, q11
+
+    vmax.s16    q0, q4,  q6
+    vmax.s16    q1, q5,  q7
+    vmax.s16    q2, q8,  q10
+    vmax.s16    q3, q9,  q11
+
+    vadd.u16 q0, q0, q1
+    vadd.u16 q2, q2, q3
+.endm
+
+.macro SATD_8x4
+
+    vld1.64     {d0}, [r0,:64], r1
+    vld1.64     {d1}, [r2], r3
+
+    vld1.64     {d2}, [r0,:64], r1
+    vsubl.u8    q4, d0, d1            
+
+    vld1.64     {d3}, [r2], r3
+    vsubl.u8    q5, d2, d3         
+
+    vld1.64     {d4}, [r0,:64], r1
+    vld1.64     {d5}, [r2], r3
+
+    vadd.s16    q8, q4, q5                 
+    vsubl.u8    q6, d4, d5             
+
+    vld1.64     {d6}, [r0,:64], r1
+    vld1.64     {d7}, [r2], r3
+
+    vsubl.u8    q7, d6,  d7               
+    vsub.s16    q9, q4, q5       
+
+    vadd.s16    q10, q6, q7         
+    vsub.s16    q11, q6, q7         
+
+    vadd.s16    q0, q8, q10               
+    vsub.s16    q1, q8, q10      
+
+    vsub.s16    q2, q9, q11            
+    vadd.s16    q3, q9, q11        
+
+    vtrn.16     q0, q1
+    vtrn.16     q2, q3
+
+    vadd.s16    q4, q0, q1
+    vabd.s16    q5, q0, q1
+
+    vabs.s16    q4, q4
+    vadd.s16    q6, q2, q3
+
+    vabd.s16    q7, q2, q3
+    vabs.s16    q6, q6
+
+    vtrn.32     q4, q5
+    vtrn.32     q6, q7
+
+    vmax.s16    q0, q4, q5
+    vmax.s16    q1, q6, q7
+.endm
+
+.macro SAD_16x4
+    vld1.64 {q6}, [r0, :128], r1
+    vabal.u8 q10, d8, d10
+
+    vld1.64 {q7}, [r2], r3
+    vabal.u8 q11, d9, d11
+
+    vld1.64 {q0}, [r0, :128], r1
+    vabal.u8 q12, d12, d14
+
+    vld1.64 {q1}, [r2], r3
+    vabal.u8 q13, d13, d15
+
+    vld1.64 {q2}, [r0, :128], r1
+    vabal.u8 q10, d0, d2
+
+    vld1.64 {q3}, [r2], r3
+    vabal.u8 q11, d1, d3
+
+    vld1.64 {q4}, [r0, :128], r1
+    vabal.u8 q12, d4, d6
+
+    vld1.64 {q5}, [r2], r3
+    vabal.u8 q13, d5, d7
+.endm
+
+.macro SAD_8x4
+    vld1.64 {d0}, [r0, :64], r1
+    vld1.64 {d1}, [r2], r3
+
+    vabal.u8 q10, d0, d1
+    vld1.64 {d2}, [r0, :64], r1
+
+    vld1.64 {d3}, [r2], r3
+    vabal.u8 q11, d2, d3
+
+    vld1.64 {d4}, [r0, :64], r1
+    vld1.64 {d5}, [r2], r3
+
+    vabal.u8 q12, d4, d5
+    vld1.64 {d6}, [r0, :64], r1
+
+    vld1.64 {d7}, [r2], r3
+    vabal.u8 q13, d6, d7
+.endm
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_16x16_neon
+
+    vld1.64 {q0}, [r0, :128], r1
+    vld1.64 {q1}, [r2], r3
+
+    vabdl.u8 q10, d0, d2
+    vld1.64 {q2}, [r0, :128], r1
+
+    vabdl.u8 q11, d1, d3
+    vld1.64 {q3}, [r2], r3
+
+    vld1.64 {q4}, [r0, :128], r1
+    vabdl.u8 q12, d4, d6
+    vld1.64 {q5}, [r2], r3
+    vabdl.u8 q13, d5, d7
+
+    SAD_16x4
+    SAD_16x4
+    SAD_16x4
+
+    vld1.64 {q6}, [r0, :128], r1
+    vabal.u8 q10, d8, d10
+
+    vld1.64 {q7}, [r2], r3
+    vabal.u8 q11, d9, d11
+
+    vabal.u8 q12, d12, d14
+    vabal.u8 q13, d13, d15
+
+    vadd.u16 q14, q10, q11
+    vadd.u16 q15, q12, q13
+
+    vadd.u16 q15, q14, q15
+    vadd.u16 d0, d30, d31
+    vpaddl.u16 d0, d0
+    vpaddl.u32 d0, d0
+    vmov.u32   r0, d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_16x8_neon
+
+    vld1.64 {q0}, [r0, :128], r1
+    vld1.64 {q1}, [r2], r3
+
+    vabdl.u8 q10, d0, d2
+    vld1.64 {q2}, [r0, :128], r1
+
+    vabdl.u8 q11, d1, d3
+    vld1.64 {q3}, [r2], r3
+
+    vld1.64 {q4}, [r0, :128], r1
+    vabdl.u8 q12, d4, d6
+    vld1.64 {q5}, [r2], r3
+    vabdl.u8 q13, d5, d7
+
+    SAD_16x4
+
+    vld1.64 {q6}, [r0, :128], r1
+    vabal.u8 q10, d8, d10
+
+    vld1.64 {q7}, [r2], r3
+    vabal.u8 q11, d9, d11
+
+    vabal.u8 q12, d12, d14
+    vabal.u8 q13, d13, d15
+
+    vadd.u16 q14, q10, q11
+    vadd.u16 q15, q12, q13
+
+    vadd.u16 q15, q14, q15
+    vadd.u16 d0, d30, d31
+    vpaddl.u16 d0, d0
+    vpaddl.u32 d0, d0
+    vmov.u32   r0, d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_8x16_neon
+
+    vld1.64 {d0}, [r0, :64], r1
+    vld1.64 {d1}, [r2], r3
+
+    vabdl.u8 q10, d0, d1
+    vld1.64 {d2}, [r0, :64], r1
+
+    vld1.64 {d3}, [r2], r3
+    vabdl.u8 q11, d2, d3
+
+    vld1.64 {d4}, [r0, :64], r1
+    vld1.64 {d5}, [r2], r3
+
+    vabdl.u8 q12, d4, d5
+    vld1.64 {d6}, [r0, :64], r1
+
+    vld1.64 {d7}, [r2], r3
+    vabdl.u8 q13, d6, d7
+
+    SAD_8x4
+    SAD_8x4
+    SAD_8x4
+
+    vadd.u16 q14, q10, q11
+    vadd.u16 q15, q12, q13
+    vadd.u16 q15, q15, q14
+    vadd.u16 d0, d30, d31
+    vpaddl.u16 d0, d0
+    vpaddl.u32 d0, d0
+    vmov.u32   r0, d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_8x8_neon
+
+    vld1.64 {d0}, [r0, :64], r1
+    vld1.64 {d1}, [r2], r3
+
+    vabdl.u8 q10, d0, d1
+    vld1.64 {d2}, [r0, :64], r1
+
+    vld1.64 {d3}, [r2], r3
+    vabdl.u8 q11, d2, d3
+
+    vld1.64 {d4}, [r0, :64], r1
+    vld1.64 {d5}, [r2], r3
+
+    vabdl.u8 q12, d4, d5
+    vld1.64 {d6}, [r0, :64], r1
+
+    vld1.64 {d7}, [r2], r3
+    vabdl.u8 q13, d6, d7
+
+    SAD_8x4
+
+    vadd.u16 q14, q10, q11
+    vadd.u16 q15, q12, q13
+    vadd.u16 q15, q15, q14
+    vadd.u16 d0, d30, d31
+    vpaddl.u16 d0, d0
+    vpaddl.u32 d0, d0
+    vmov.u32   r0, d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_4x4_neon
+    stmdb sp!, {r4-r5, lr}
+
+	//Loading a horizontal line data (4 bytes)
+	//line 0
+	ldr r4, [r0], r1
+	ldr r5, [r2], r3
+	usad8  lr, r4, r5
+
+    //line 1
+	ldr r4, [r0], r1
+	ldr r5, [r2], r3
+	usada8  lr, r4, r5, lr	
+
+    //line 2	
+	ldr r4, [r0], r1
+	ldr r5, [r2], r3
+	usada8  lr, r4, r5, lr	
+	
+	//line 3
+	ldr r4, [r0]
+	ldr r5, [r2]
+	usada8  r0, r4, r5, lr	
+
+	ldmia sp!, {r4-r5, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_4_16x16_neon
+
+    stmdb sp!, {r4-r5, lr}
+
+	//Generate the pix2 start addr
+	sub   r4, r2, #1
+	add   r5, r2, #1
+	sub   r2, r3
+			
+    //Loading a horizontal line data (16 bytes)
+	vld1.8 {q0}, [r0], r1 //save pix1
+	
+	vld1.8 {q1}, [r2], r3 //save pix2 - stride
+	vld1.8 {q6}, [r2], r3 //save pix2
+	vld1.8 {q2}, [r2], r3 //save pix2 + stride
+	
+	vld1.8 {q3}, [r4], r3 //save pix2 - 1
+	vld1.8 {q4}, [r5], r3 //save pix2 + 1	
+		    
+	//Do the SAD for 16 bytes
+	vabdl.u8  q15, d0, d2
+	vabal.u8  q15, d1, d3
+	
+	vabdl.u8  q13, d0, d4
+	vabal.u8  q13, d1, d5
+	
+	vabdl.u8  q11, d0, d6
+	vabal.u8  q11, d1, d7
+	
+	vabdl.u8  q9, d0, d8
+	vabal.u8  q9, d1, d9			
+	
+	mov lr, #15
+pixel_sad_4_16x16_loop_0:
+
+    //Loading a horizontal line data (16 bytes)
+	vld1.8 {q0}, [r0], r1 //save pix1
+	vmov.8 q1,   q6       //save pix2 - stride
+	vmov.8 q6,   q2
+	vabal.u8  q15, d0, d2
+	vld1.8 {q2}, [r2], r3 //save pix2 + stride
+	vabal.u8  q15, d1, d3
+	vld1.8 {q3}, [r4], r3 //save pix2 - 1
+	vabal.u8  q13, d0, d4
+	vld1.8 {q4}, [r5], r3 //save pix2 + 1	
+    vabal.u8  q13, d1, d5
+	subs lr, #1
+
+	vabal.u8  q11, d0, d6
+	vabal.u8  q11, d1, d7
+	
+	vabal.u8  q9, d0, d8
+	vabal.u8  q9, d1, d9
+
+	bne pixel_sad_4_16x16_loop_0
+
+
+    //Save SAD to 'r0'
+	ldr   r0, [sp, #12]
+	
+	vadd.u16   d0, d30, d31
+	vadd.u16   d1, d26, d27
+	vadd.u16   d2, d22, d23
+	vadd.u16   d3, d18, d19
+	
+	vpaddl.u16 q0, q0
+	vpaddl.u16 q1, q1
+	
+	vpaddl.u32 q0, q0
+	vpaddl.u32 q1, q1
+		
+	vshl.u32   q0, #4
+	vshl.u32   q1, #4
+	vst4.32    {d0[0],d1[0],d2[0],d3[0]}, [r0]
+
+	ldmia sp!, {r4-r5, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_4_16x8_neon
+    stmdb sp!, {r4-r5, lr}
+	
+	//Generate the pix2 start addr
+	sub   r4, r2, #1
+	add   r5, r2, #1
+	sub   r2, r3
+			
+    //Loading a horizontal line data (16 bytes)
+	vld1.8 {q0}, [r0], r1 //save pix1
+	
+	vld1.8 {q1}, [r2], r3 //save pix2 - stride
+	vld1.8 {q6}, [r2], r3 //save pix2
+	vld1.8 {q2}, [r2], r3 //save pix2 + stride
+	
+	vld1.8 {q3}, [r4], r3 //save pix2 - 1
+	vld1.8 {q4}, [r5], r3 //save pix2 + 1	
+		    
+	//Do the SAD for 16 bytes
+	vabdl.u8  q15, d0, d2
+	vabal.u8  q15, d1, d3
+	
+	vabdl.u8  q13, d0, d4
+	vabal.u8  q13, d1, d5
+	
+	vabdl.u8  q11, d0, d6
+	vabal.u8  q11, d1, d7
+	
+	vabdl.u8  q9, d0, d8
+	vabal.u8  q9, d1, d9			
+	
+	mov lr, #7
+pixel_sad_4_16x8_loop_0:
+
+    //Loading a horizontal line data (16 bytes)
+	vld1.8 {q0}, [r0], r1 //save pix1
+	vmov.8 q1,   q6       //save pix2 - stride
+	vmov.8 q6,   q2
+	vabal.u8  q15, d0, d2
+	vld1.8 {q2}, [r2], r3 //save pix2 + stride
+	vabal.u8  q15, d1, d3
+	vld1.8 {q3}, [r4], r3 //save pix2 - 1
+	vabal.u8  q13, d0, d4
+	vld1.8 {q4}, [r5], r3 //save pix2 + 1	
+    vabal.u8  q13, d1, d5
+	subs lr, #1
+
+	vabal.u8  q11, d0, d6
+	vabal.u8  q11, d1, d7
+	
+	vabal.u8  q9, d0, d8
+	vabal.u8  q9, d1, d9
+	
+	bne pixel_sad_4_16x8_loop_0
+
+    //Save SAD to 'r0'
+	ldr   r0, [sp, #12]
+	
+	vadd.u16   d0, d30, d31
+	vadd.u16   d1, d26, d27
+	vadd.u16   d2, d22, d23
+	vadd.u16   d3, d18, d19
+	
+	vpaddl.u16 q0, q0
+	vpaddl.u16 q1, q1
+	
+	vpaddl.u32 q0, q0
+	vpaddl.u32 q1, q1
+		
+	vshl.u32   q0, #4
+	vshl.u32   q1, #4
+	vst4.32    {d0[0],d1[0],d2[0],d3[0]}, [r0]
+	
+	ldmia sp!, {r4-r5, lr}
+WELS_ASM_FUNC_END
+
+ 
+WELS_ASM_FUNC_BEGIN pixel_sad_4_8x16_neon
+    stmdb sp!, {r4-r5, lr}
+	
+	//Generate the pix2 start addr
+	sub   r4, r2, #1
+	add   r5, r2, #1
+	sub   r2, r3
+			
+    //Loading a horizontal line data (8 bytes)
+	vld1.8 {d0}, [r0], r1 //save pix1
+	
+	vld1.8 {d1}, [r2], r3 //save pix2 - stride
+	vld1.8 {d6}, [r2], r3 //save pix2
+	vld1.8 {d2}, [r2], r3 //save pix2 + stride
+	
+	vld1.8 {d3}, [r4], r3 //save pix2 - 1
+	vld1.8 {d4}, [r5], r3 //save pix2 + 1	
+		    
+	//Do the SAD for 8 bytes
+	vabdl.u8  q15, d0, d1
+	vabdl.u8  q14, d0, d2
+	vabdl.u8  q13, d0, d3
+	vabdl.u8  q12, d0, d4		
+	
+	mov lr, #15
+pixel_sad_4_8x16_loop_0:
+	
+    //Loading a horizontal line data (8 bytes)
+	vld1.8 {d0}, [r0], r1 //save pix1
+	vmov.8 d1,   d6       //save pix2 - stride
+	vmov.8 d6,   d2
+	vld1.8 {d2}, [r2], r3 //save pix2 + stride
+	vld1.8 {d3}, [r4], r3 //save pix2 - 1
+	vabal.u8  q15, d0, d1
+	
+	vld1.8 {d4}, [r5], r3 //save pix2 + 1
+	//Do the SAD for 8 bytes
+	vabal.u8  q14, d0, d2
+	vabal.u8  q13, d0, d3
+	vabal.u8  q12, d0, d4
+    subs lr, #1
+
+	bne pixel_sad_4_8x16_loop_0
+
+    //Save SAD to 'r0'
+	ldr   r0, [sp, #12]
+	
+	vadd.u16   d0, d30, d31
+	vadd.u16   d1, d28, d29
+	vadd.u16   d2, d26, d27
+	vadd.u16   d3, d24, d25
+	
+	vpaddl.u16 q0, q0
+	vpaddl.u16 q1, q1
+	
+	vpaddl.u32 q0, q0
+	vpaddl.u32 q1, q1
+		
+	vshl.u32   q0, #4
+	vshl.u32   q1, #4
+	vst4.32    {d0[0],d1[0],d2[0],d3[0]}, [r0]
+	
+	ldmia sp!, {r4-r5, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_4_8x8_neon
+	stmdb sp!, {r4-r5, lr}
+	
+	//Generate the pix2 start addr
+	sub   r4, r2, #1
+	add   r5, r2, #1
+	sub   r2, r3
+			
+    //Loading a horizontal line data (8 bytes)
+	vld1.8 {d0}, [r0], r1 //save pix1
+	
+	vld1.8 {d1}, [r2], r3 //save pix2 - stride
+	vld1.8 {d6}, [r2], r3 //save pix2
+	vld1.8 {d2}, [r2], r3 //save pix2 + stride
+	
+	vld1.8 {d3}, [r4], r3 //save pix2 - 1
+	vld1.8 {d4}, [r5], r3 //save pix2 + 1	
+		    
+	//Do the SAD for 8 bytes
+	vabdl.u8  q15, d0, d1
+	vabdl.u8  q14, d0, d2
+	vabdl.u8  q13, d0, d3
+	vabdl.u8  q12, d0, d4		
+	
+	mov lr, #7
+pixel_sad_4_8x8_loop_0:
+
+    //Loading a horizontal line data (8 bytes)
+	vld1.8 {d0}, [r0], r1 //save pix1
+	vmov.8 d1,   d6       //save pix2 - stride
+	vmov.8 d6,   d2
+	vld1.8 {d2}, [r2], r3 //save pix2 + stride
+	vld1.8 {d3}, [r4], r3 //save pix2 - 1
+	vabal.u8  q15, d0, d1
+	
+	vld1.8 {d4}, [r5], r3 //save pix2 + 1
+	//Do the SAD for 8 bytes
+	vabal.u8  q14, d0, d2
+	vabal.u8  q13, d0, d3
+	vabal.u8  q12, d0, d4
+    subs lr, #1
+	bne pixel_sad_4_8x8_loop_0
+
+    //Save SAD to 'r0'
+	ldr   r0, [sp, #12]
+	
+	vadd.u16   d0, d30, d31
+	vadd.u16   d1, d28, d29
+	vadd.u16   d2, d26, d27
+	vadd.u16   d3, d24, d25
+	
+	vpaddl.u16 q0, q0
+	vpaddl.u16 q1, q1
+	
+	vpaddl.u32 q0, q0
+	vpaddl.u32 q1, q1
+		
+	vshl.u32   q0, #4
+	vshl.u32   q1, #4
+	vst4.32    {d0[0],d1[0],d2[0],d3[0]}, [r0]
+	
+	ldmia sp!, {r4-r5, lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_4_4x4_neon
+
+	vld1.32  {d0[0]}, [r0], r1
+	vld1.32  {d0[1]}, [r0], r1
+	vld1.32  {d1[0]}, [r0], r1
+	vld1.32  {d1[1]}, [r0]
+	
+	
+	sub   r0, r2, r3
+	vld1.32  {d2[0]}, [r0], r3
+	vld1.32  {d2[1]}, [r0], r3
+	vld1.32  {d3[0]}, [r0], r3
+	vld1.32  {d3[1]}, [r0], r3
+	vld1.32  {d4[0]}, [r0], r3
+	vld1.32  {d4[1]}, [r0]		
+					
+	sub   r0,  r2, #1				
+	vld1.32  {d5[0]}, [r0], r3
+	vld1.32  {d5[1]}, [r0], r3
+	vld1.32  {d6[0]}, [r0], r3
+	vld1.32  {d6[1]}, [r0]	
+	
+	add   r0,  r2, #1				
+	vld1.32  {d7[0]}, [r0], r3
+	vld1.32  {d7[1]}, [r0], r3
+	vld1.32  {d8[0]}, [r0], r3
+	vld1.32  {d8[1]}, [r0]
+	
+	vabdl.u8  q15, d0, d2
+	vabdl.u8  q14, d1, d3
+	
+	vabdl.u8  q13, d0, d3
+	vabdl.u8  q12, d1, d4
+	
+	vabdl.u8  q11, d0, d5
+	vabdl.u8  q10, d1, d6
+	
+	vabdl.u8  q9, d0, d7
+	vabdl.u8  q8, d1, d8
+	
+	//Save SAD to 'r4'
+	ldr   r0, [sp]
+	vadd.u16   q0, q14, q15
+	vadd.u16   q1, q12, q13
+	vadd.u16   q2, q10, q11
+	vadd.u16   q3, q8 , q9
+	
+	vadd.u16   d0, d1
+	vadd.u16   d1, d2, d3
+	vadd.u16   d2, d4, d5
+	vadd.u16   d3, d6, d7
+	
+	vpaddl.u16 q0, q0
+	vpaddl.u16 q1, q1
+	
+	vpaddl.u32 q0, q0
+	vpaddl.u32 q1, q1
+		
+	vshl.u32   q0, #4
+	vshl.u32   q1, #4
+	vst4.32    {d0[0],d1[0],d2[0],d3[0]}, [r0]
+
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_satd_16x16_neon
+
+    SATD_16x4
+    vadd.u16    q15,  q0, q2
+
+    SATD_16x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q2
+
+    SATD_16x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q2
+
+    SATD_16x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q2
+
+    vadd.u16  d0, d30, d31
+    vpaddl.u16  d0, d0
+    vpaddl.u32  d0, d0
+
+    vmov.32     r0,  d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_satd_16x8_neon
+
+    SATD_16x4
+    vadd.u16    q15,  q0, q2
+
+    SATD_16x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q2
+
+    vadd.u16  d0, d30, d31
+    vpaddl.u16  d0, d0
+    vpaddl.u32  d0, d0
+
+    vmov.32     r0,  d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_satd_8x16_neon
+
+    SATD_8x4
+    vadd.u16    q15,  q0, q1
+
+    SATD_8x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q1
+
+    SATD_8x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q1
+
+    SATD_8x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q1
+
+    vadd.u16  d0, d30, d31
+    vpaddl.u16  d0, d0
+    vpaddl.u32  d0, d0
+
+    vmov.32     r0,  d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_satd_8x8_neon
+
+    SATD_8x4
+    vadd.u16    q15,  q0, q1
+
+    SATD_8x4
+    vadd.u16    q15,  q15, q0
+    vadd.u16    q15,  q15, q1
+
+    vadd.u16  d0, d30, d31
+    vpaddl.u16  d0, d0
+    vpaddl.u32  d0, d0
+
+    vmov.32     r0,  d0[0]
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN pixel_satd_4x4_neon
+
+    //Load the pix1 data --- 16 bytes
+	vld1.32  {d0[0]}, [r0], r1
+	vld1.32  {d0[1]}, [r0], r1
+	vld1.32  {d1[0]}, [r0], r1
+	vld1.32  {d1[1]}, [r0]
+
+    //Load the pix2 data --- 16 bytes	
+	vld1.32  {d2[0]}, [r2], r3
+	vld1.32  {d2[1]}, [r2], r3
+	vld1.32  {d3[0]}, [r2], r3
+	vld1.32  {d3[1]}, [r2]	
+
+    //Get the difference
+    vsubl.u8 q15, d0, d2 //{0,1,2,3,4,5,6,7}
+    vsubl.u8 q14, d1, d3 //{8,9,10,11,12,13,14,15}
+
+    //Do the vertical transform
+    vadd.s16 q13, q15, q14 //{0,4,8,12,1,5,9,13}
+    vsub.s16 q12, q15, q14 //{2,6,10,14,3,7,11,15}
+    vswp  d27, d24
+    vadd.s16 q15, q13, q12 //{0,1,2,3,4,5,6,7}
+    vsub.s16 q14, q13, q12 //{12,13,14,15,8,9,10,11}
+
+    //Do the horizontal transform
+    vtrn.32 q15, q14
+    vadd.s16 q13, q15, q14
+    vsub.s16 q12, q15, q14
+
+    vtrn.16 q13, q12
+    vadd.s16 q15, q13, q12
+
+    //Do the SAD	
+    vabs.s16 q15, q15	
+    vabd.s16 q14, q13, q12
+
+    vadd.u16 q0, q15, q14
+
+    vrhadd.u16 d0, d1
+	vpaddl.u16 d0, d0
+	vpaddl.u32 d0, d0
+
+	vmov.u32   r0, d0[0]
+
+WELS_ASM_FUNC_END
+
+#endif
+
+
--- a/codec/encoder/core/arm/reconstruct_neon.S
+++ b/codec/encoder/core/arm/reconstruct_neon.S
--- a/codec/encoder/core/inc/deblocking.h
+++ b/codec/encoder/core/inc/deblocking.h
@@ -61,6 +61,16 @@ uint8_t     uiFilterIdc;
 uint8_t     uiReserved;
 } SDeblockingFilter;

+#if defined(__cplusplus)
+extern "C" {
+#endif//__cplusplus
+#if defined(HAVE_NEON)
+void WelsNonZeroCount_neon(int8_t * pNonZeroCount);
+void DeblockingBSCalcEnc_neon(int8_t *pNzc, SMVUnitXY *pMv, int32_t iBoundryFlag, int32_t iMbStride, uint8_t (*pBS)[4][4]);
+#endif
+#if defined(__cplusplus)
+}
+#endif//__cplusplus
 void DeblockingInit (DeblockingFunc*   pFunc,  int32_t iCpu);

 void WelsNonZeroCount_c (int8_t* pNonZeroCount);
--- a/codec/encoder/core/inc/decode_mb_aux.h
+++ b/codec/encoder/core/inc/decode_mb_aux.h
@@ -70,6 +70,16 @@ void WelsIDctRecI16x16Dc_sse2 (uint8_t* pRec, int32_t iStride, uint8_t* pPredict
                               int16_t* pDctDc);
 #endif//X86_ASM

+#ifdef	HAVE_NEON
+void WelsDequantFour4x4_neon(int16_t* pDct, const uint16_t* kpMF);
+void WelsDequant4x4_neon(int16_t* pDct, const uint16_t* kpMF);
+void WelsDequantIHadamard4x4_neon(int16_t* pRes, const uint16_t kuiMF);
+
+void WelsIDctT4Rec_neon(uint8_t* pRec, int32_t iStride, uint8_t* pPrediction, int32_t iPredStride, int16_t* pDct);
+void WelsIDctFourT4Rec_neon(uint8_t* pRec, int32_t iStride, uint8_t* pPrediction, int32_t iPredStride, int16_t* pDct);
+void WelsIDctRecI16x16Dc_neon(uint8_t* pRec, int32_t iStride, uint8_t* pPrediction, int32_t iPredStride, int16_t* pDctDc);
+#endif
+
 #if defined(__cplusplus)
 }
 #endif//__cplusplus
--- a/codec/encoder/core/inc/encode_mb_aux.h
+++ b/codec/encoder/core/inc/encode_mb_aux.h
@@ -122,6 +122,28 @@ void WelsCopy16x16_sse2 (uint8_t* Dst, int32_t  iStrideD, uint8_t* Src, int32_t
 void WelsCopy16x16NotAligned_sse2 (uint8_t* Dst, int32_t  iStrideD, uint8_t* Src, int32_t  iStrideS);
 #endif

+#ifdef	HAVE_NEON
+void WelsCopy8x8_neon( uint8_t* pDst, int32_t iStrideD, uint8_t* pSrc, int32_t iStrideS );
+void WelsCopy16x16_neon( uint8_t* pDst, int32_t iStrideD, uint8_t* pSrc, int32_t iStrideS );
+void WelsCopy16x16NotAligned_neon( uint8_t* pDst, int32_t iStrideD, uint8_t* pSrc, int32_t iStrideS );
+void WelsCopy16x8NotAligned_neon( uint8_t* pDst, int32_t iStrideD, uint8_t* pSrc, int32_t iStrideS );
+void WelsCopy8x16_neon( uint8_t* pDst, int32_t iStrideD, uint8_t* pSrc, int32_t iStrideS );
+
+void WelsHadamardT4Dc_neon(int16_t* pLumaDc, int16_t* pDct);
+int32_t WelsHadamardQuant2x2_neon(int16_t* pRes, const int16_t kiFF, int16_t iMF, int16_t* pDct, int16_t* pBlock);
+int32_t WelsHadamardQuant2x2Skip_neon(int16_t* pRes, int16_t iFF,  int16_t iMF);
+int32_t WelsHadamardQuant2x2SkipKernel_neon(int16_t *pRes, int16_t iThreshold);// avoid divide operator
+
+void WelsDctT4_neon(int16_t* pDct,  uint8_t* pPixel1, int32_t iStride1, uint8_t* pPixel2, int32_t iStride2);
+void WelsDctFourT4_neon(int16_t* pDct,  uint8_t* pPixel1, int32_t iStride1, uint8_t* pPixel2, int32_t iStride2);
+
+int32_t WelsGetNoneZeroCount_neon(int16_t* pLevel);
+
+void WelsQuant4x4_neon(int16_t* pDct, const int16_t* pFF, const int16_t* pMF);
+void WelsQuant4x4Dc_neon(int16_t* pDct, int16_t iFF, int16_t iMF);
+void WelsQuantFour4x4_neon(int16_t* pDct, const int16_t* pFF, const int16_t* pMF);
+void WelsQuantFour4x4Max_neon(int16_t* pDct, const int16_t* pFF, const int16_t* pMF, int16_t* pMax);
+#endif

 #if defined(__cplusplus)
 }
--- a/codec/encoder/core/inc/encoder.h
+++ b/codec/encoder/core/inc/encoder.h
@@ -124,6 +124,8 @@ void WelsSetMemZeroAligned64_sse2 (void* pDst, int32_t iSize);
 void WelsSetMemZeroSize64_mmx (void* pDst, int32_t iSize);
 void WelsSetMemZeroSize8_mmx (void* pDst, int32_t iSize);
 void WelsPrefetchZero_mmx (int8_t const* kpDst);
+#elif defined(HAVE_NEON)
+void WelsSetMemZero_neon(void* pDst, int32_t iSize);
 #endif

 #if defined(__cplusplus)
--- a/codec/encoder/core/src/deblocking.cpp
+++ b/codec/encoder/core/src/deblocking.cpp
@@ -605,6 +605,23 @@ void DeblockingMbAvcbase (SWelsFuncPtrList* pFunc, SMB* pCurMb, SDeblockingFilte
    DeblockingIntraMb (&pFunc->pfDeblocking, pCurMb, pFilter);
    break;
  default:
+#if (defined(HAVE_NEON) && defined(SINGLE_REF_FRAME))
+    DeblockingBSCalcEnc_neon(pCurMb->pNonZeroCount, pCurMb->sMv, pCurMb->uiNeighborAvail, iMbStride, uiBS);
+    if (iLeftFlag){
+      if (IS_INTRA((pCurMb-1)->uiMbType)) {
+        *(uint32_t*)uiBS[0][0] = 0x04040404;
+      }
+    } else {
+      *(uint32_t*)uiBS[0][0] = 0;
+    }
+    if (iTopFlag) {
+      if (IS_INTRA((pCurMb-iMbStride)->uiMbType)) {
+        *(uint32_t*)uiBS[1][0] = 0x04040404;
+      }
+    } else {
+      *(uint32_t*)uiBS[1][0] = 0;
+    }
+#else
    if (iLeftFlag) {
      * (uint32_t*)uiBS[0][0] = IS_INTRA ((pCurMb - 1)->uiMbType) ? 0x04040404 : DeblockingBSMarginalMBAvcbase (pCurMb,
                                pCurMb - 1, 0);
@@ -630,7 +647,7 @@ void DeblockingMbAvcbase (SWelsFuncPtrList* pFunc, SMB* pCurMb, SDeblockingFilte
      * (uint32_t*)uiBS[0][1] = * (uint32_t*)uiBS[0][2] = * (uint32_t*)uiBS[0][3] =
                                  * (uint32_t*)uiBS[1][1] = * (uint32_t*)uiBS[1][2] = * (uint32_t*)uiBS[1][3] = 0;
    }
-
+#endif
    DeblockingInterMb (&pFunc->pfDeblocking, pCurMb, pFilter, uiBS);
    break;
  }
@@ -768,10 +785,13 @@ void WelsNonZeroCount_c (int8_t* pNonZeroCount) {
 }
 void WelsBlockFuncInit (PSetNoneZeroCountZeroFunc* pfSetNZCZero,  int32_t iCpu) {
  *pfSetNZCZero = WelsNonZeroCount_c;
+#ifdef	HAVE_NEON
+  if( iCpu & WELS_CPU_NEON ) {
+    *pfSetNZCZero = WelsNonZeroCount_neon;
+  }
+#endif
 }

-
-
 void  DeblockingInit (DeblockingFunc*   pFunc,  int32_t iCpu) {
  pFunc->pfLumaDeblockingLT4Ver		= DeblockLumaLt4V_c;
  pFunc->pfLumaDeblockingEQ4Ver		= DeblockLumaEq4V_c;
@@ -796,6 +816,20 @@ void  DeblockingInit (DeblockingFunc*   pFunc,  int32_t iCpu) {
    pFunc->pfChromaDeblockingEQ4Hor	= DeblockChromaEq4H_ssse3;
  }
 #endif
+
+#if defined(HAVE_NEON)
+  if (iCpu & WELS_CPU_NEON ) {
+    pFunc->pfLumaDeblockingLT4Ver		= DeblockLumaLt4V_neon;
+    pFunc->pfLumaDeblockingEQ4Ver		= DeblockLumaEq4V_neon;
+    pFunc->pfLumaDeblockingLT4Hor		= DeblockLumaLt4H_neon;
+    pFunc->pfLumaDeblockingEQ4Hor		= DeblockLumaEq4H_neon;
+        
+    pFunc->pfChromaDeblockingLT4Ver     = DeblockChromaLt4V_neon;
+    pFunc->pfChromaDeblockingEQ4Ver     = DeblockChromaEq4V_neon;
+    pFunc->pfChromaDeblockingLT4Hor     = DeblockChromaLt4H_neon;
+    pFunc->pfChromaDeblockingEQ4Hor     = DeblockChromaEq4H_neon;
+  }
+#endif
 }


--- a/codec/encoder/core/src/decode_mb_aux.cpp
+++ b/codec/encoder/core/src/decode_mb_aux.cpp
@@ -270,5 +270,17 @@ void WelsInitReconstructionFuncs (SWelsFuncPtrList* pFuncList, uint32_t  uiCpuFl
     pFuncList->pfIDctI16x16Dc = WelsIDctRecI16x16Dc_sse2;
  }
 #endif//X86_ASM
+    
+#if defined(HAVE_NEON)
+  if (uiCpuFlag & WELS_CPU_NEON) {
+    pFuncList->pfDequantization4x4			= WelsDequant4x4_neon;
+    pFuncList->pfDequantizationFour4x4		= WelsDequantFour4x4_neon;
+    pFuncList->pfDequantizationIHadamard4x4	= WelsDequantIHadamard4x4_neon;
+        
+    pFuncList->pfIDctFourT4		= WelsIDctFourT4Rec_neon;
+    pFuncList->pfIDctT4		= WelsIDctT4Rec_neon;
+    pFuncList->pfIDctI16x16Dc = WelsIDctRecI16x16Dc_neon;
+  }
+#endif
 }
 }
--- a/codec/encoder/core/src/encode_mb_aux.cpp
+++ b/codec/encoder/core/src/encode_mb_aux.cpp
@@ -508,6 +508,13 @@ int32_t WelsGetNoneZeroCount_c (int16_t* pLevel) {
  return (16 - iCnt);
 }

+#ifdef	HAVE_NEON
+int32_t WelsHadamardQuant2x2Skip_neon(int16_t* pRes, int16_t iFF,  int16_t iMF) {
+  int16_t iThreshold = ((1<<16)-1)/iMF - iFF;
+  return WelsHadamardQuant2x2SkipKernel_neon(pRes, iThreshold);
+}
+#endif
+
 void WelsInitEncodingFuncs (SWelsFuncPtrList* pFuncList, uint32_t  uiCpuFlag) {
  pFuncList->pfCopy8x8Aligned			= WelsCopy8x8_c;
  pFuncList->pfCopy16x16Aligned		=
@@ -571,5 +578,28 @@ void WelsInitEncodingFuncs (SWelsFuncPtrList* pFuncList, uint32_t  uiCpuFlag) {
 //#endif//MACOS

 #endif//X86_ASM
+
+#if defined(HAVE_NEON)
+  if (uiCpuFlag & WELS_CPU_NEON) {
+    pFuncList->pfQuantizationHadamard2x2		= WelsHadamardQuant2x2_neon;
+    pFuncList->pfQuantizationHadamard2x2Skip	= WelsHadamardQuant2x2Skip_neon;
+    pFuncList->pfDctT4					= WelsDctT4_neon;
+    pFuncList->pfCopy8x8Aligned			= WelsCopy8x8_neon;
+    pFuncList->pfCopy8x16Aligned		= WelsCopy8x16_neon;
+
+    pFuncList->pfGetNoneZeroCount		= WelsGetNoneZeroCount_neon;
+    pFuncList->pfTransformHadamard4x4Dc	= WelsHadamardT4Dc_neon;
+
+    pFuncList->pfQuantization4x4		= WelsQuant4x4_neon;
+    pFuncList->pfQuantizationDc4x4		= WelsQuant4x4Dc_neon;
+    pFuncList->pfQuantizationFour4x4	= WelsQuantFour4x4_neon;
+    pFuncList->pfQuantizationFour4x4Max	= WelsQuantFour4x4Max_neon;
+
+    pFuncList->pfCopy16x16Aligned		= WelsCopy16x16_neon;
+    pFuncList->pfCopy16x16NotAligned	= WelsCopy16x16NotAligned_neon;
+    pFuncList->pfCopy16x8NotAligned		= WelsCopy16x8NotAligned_neon;
+    pFuncList->pfDctFourT4				= WelsDctFourT4_neon;
+  }
+#endif
 }
 }
--- a/codec/encoder/core/src/encoder.cpp
+++ b/codec/encoder/core/src/encoder.cpp
@@ -171,6 +171,14 @@ int32_t InitFunctionPointers (SWelsFuncPtrList* pFuncList, SWelsSvcCodingParam*
  }
 #endif//X86_ASM

+#if defined(HAVE_NEON)
+  if (uiCpuFlag & WELS_CPU_NEON) {
+    pFuncList->pfSetMemZeroSize8	= WelsSetMemZero_neon;
+    pFuncList->pfSetMemZeroSize64Aligned16	= WelsSetMemZero_neon;
+    pFuncList->pfSetMemZeroSize64	= WelsSetMemZero_neon;
+  }
+#endif
+
  InitExpandPictureFunc (pFuncList, uiCpuFlag);

  /* Intra_Prediction_fn*/
--- a/codec/encoder/core/src/encoder_ext.cpp
+++ b/codec/encoder/core/src/encoder_ext.cpp
@@ -1944,6 +1944,13 @@ int32_t WelsInitEncoderExt (sWelsEncCtx** ppCtx, SWelsSvcCodingParam* pCodingPar
  else if (uiCpuFeatureFlags & WELS_CPU_CACHELINE_16)
    iCacheLineSize	= 16;
  OutputCpuFeaturesLog (uiCpuFeatureFlags, uiCpuCores, iCacheLineSize);
+#elif defined(HAVE_NEON)
+#if defined(ANDROID_NDK)
+  uiCpuFeatureFlags	= WelsCPUFeatureDetectAndroid();
+#endif
+#if defined(APPLE_IOS)
+  uiCpuFeatureFlags	= WelsCPUFeatureDetectIOS();
+#endif
 #else
  iCacheLineSize	= 16;	// 16 bytes aligned in default
 #endif//X86_ASM
--- a/codec/encoder/core/src/expand_pic.cpp
+++ b/codec/encoder/core/src/expand_pic.cpp
@@ -129,6 +129,13 @@ void InitExpandPictureFunc (void* pL, const uint32_t kuiCPUFlag) {
    pFuncList->pfExpandChromaPicture[1] = ExpandPictureChromaAlign_sse2;
  }
 #endif//X86_ASM
+#if defined(X86_ASM)
+  if (kuiCPUFlag & WELS_CPU_NEON) {
+    pFuncList->pfExpandLumaPicture	= ExpandPictureLuma_neon;
+    pFuncList->pfExpandChromaPicture[0] = ExpandPictureChroma_c;
+    pFuncList->pfExpandChromaPicture[1] = ExpandPictureChroma_neon;
+  }
+#endif//X86_ASM
 }


--- a/codec/processing/build/iOS/processing.xcodeproj/project.pbxproj
+++ b/codec/processing/build/iOS/processing.xcodeproj/project.pbxproj
@@ -7,6 +7,10 @@
 	objects = {

 /* Begin PBXBuildFile section */
+		4C34067818C5A4AD00DFA14A /* adaptive_quantization.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34067418C5A4AD00DFA14A /* adaptive_quantization.S */; };
+		4C34067918C5A4AD00DFA14A /* down_sample_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34067518C5A4AD00DFA14A /* down_sample_neon.S */; };
+		4C34067A18C5A4AD00DFA14A /* pixel_sad_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34067618C5A4AD00DFA14A /* pixel_sad_neon.S */; };
+		4C34067B18C5A4AD00DFA14A /* vaa_calc_neon.S in Sources */ = {isa = PBXBuildFile; fileRef = 4C34067718C5A4AD00DFA14A /* vaa_calc_neon.S */; };
 		4CE4443518B724B60017DF25 /* Foundation.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE4443418B724B60017DF25 /* Foundation.framework */; };
 		4CE4444318B724B60017DF25 /* XCTest.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE4444218B724B60017DF25 /* XCTest.framework */; };
 		4CE4444418B724B60017DF25 /* Foundation.framework in Frameworks */ = {isa = PBXBuildFile; fileRef = 4CE4443418B724B60017DF25 /* Foundation.framework */; };
@@ -56,6 +60,10 @@
 /* End PBXCopyFilesBuildPhase section */

 /* Begin PBXFileReference section */
+		4C34067418C5A4AD00DFA14A /* adaptive_quantization.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = adaptive_quantization.S; sourceTree = "<group>"; };
+		4C34067518C5A4AD00DFA14A /* down_sample_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = down_sample_neon.S; sourceTree = "<group>"; };
+		4C34067618C5A4AD00DFA14A /* pixel_sad_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = pixel_sad_neon.S; sourceTree = "<group>"; };
+		4C34067718C5A4AD00DFA14A /* vaa_calc_neon.S */ = {isa = PBXFileReference; fileEncoding = 4; lastKnownFileType = sourcecode.asm; path = vaa_calc_neon.S; sourceTree = "<group>"; };
 		4CE4443118B724B60017DF25 /* libprocessing.a */ = {isa = PBXFileReference; explicitFileType = archive.ar; includeInIndex = 0; path = libprocessing.a; sourceTree = BUILT_PRODUCTS_DIR; };
 		4CE4443418B724B60017DF25 /* Foundation.framework */ = {isa = PBXFileReference; lastKnownFileType = wrapper.framework; name = Foundation.framework; path = System/Library/Frameworks/Foundation.framework; sourceTree = SDKROOT; };
 		4CE4444118B724B60017DF25 /* processingTests.xctest */ = {isa = PBXFileReference; explicitFileType = wrapper.cfbundle; includeInIndex = 0; path = processingTests.xctest; sourceTree = BUILT_PRODUCTS_DIR; };
@@ -122,6 +130,17 @@
 /* End PBXFrameworksBuildPhase section */

 /* Begin PBXGroup section */
+		4C34067318C5A4AD00DFA14A /* arm */ = {
+			isa = PBXGroup;
+			children = (
+				4C34067418C5A4AD00DFA14A /* adaptive_quantization.S */,
+				4C34067518C5A4AD00DFA14A /* down_sample_neon.S */,
+				4C34067618C5A4AD00DFA14A /* pixel_sad_neon.S */,
+				4C34067718C5A4AD00DFA14A /* vaa_calc_neon.S */,
+			);
+			path = arm;
+			sourceTree = "<group>";
+		};
 		4CE4442818B724B60017DF25 = {
 			isa = PBXGroup;
 			children = (
@@ -182,6 +201,7 @@
 		4CE4475B18BC62960017DF25 /* src */ = {
 			isa = PBXGroup;
 			children = (
+				4C34067318C5A4AD00DFA14A /* arm */,
 				4CE4475C18BC62960017DF25 /* adaptivequantization */,
 				4CE4476318BC62960017DF25 /* backgrounddetection */,
 				4CE4476618BC62960017DF25 /* common */,
@@ -372,6 +392,8 @@
 			isa = PBXSourcesBuildPhase;
 			buildActionMask = 2147483647;
 			files = (
+				4C34067918C5A4AD00DFA14A /* down_sample_neon.S in Sources */,
+				4C34067818C5A4AD00DFA14A /* adaptive_quantization.S in Sources */,
 				4CE4479718BC62960017DF25 /* downsample.cpp in Sources */,
 				4CE4478B18BC62960017DF25 /* AdaptiveQuantization.cpp in Sources */,
 				4CE4479918BC62960017DF25 /* imagerotate.cpp in Sources */,
@@ -380,6 +402,7 @@
 				4CE4479A18BC62960017DF25 /* imagerotatefuncs.cpp in Sources */,
 				4CE4479518BC62960017DF25 /* denoise.cpp in Sources */,
 				4CE4479218BC62960017DF25 /* WelsFrameWork.cpp in Sources */,
+				4C34067B18C5A4AD00DFA14A /* vaa_calc_neon.S in Sources */,
 				4CE4479B18BC62960017DF25 /* SceneChangeDetection.cpp in Sources */,
 				4CE4479D18BC62960017DF25 /* vaacalcfuncs.cpp in Sources */,
 				4CE4479818BC62960017DF25 /* downsamplefuncs.cpp in Sources */,
@@ -387,6 +410,7 @@
 				4CE4479418BC62960017DF25 /* ComplexityAnalysis.cpp in Sources */,
 				4CE4479E18BC62960017DF25 /* vaacalculation.cpp in Sources */,
 				4CE4479118BC62960017DF25 /* thread.cpp in Sources */,
+				4C34067A18C5A4AD00DFA14A /* pixel_sad_neon.S in Sources */,
 				4CE4478F18BC62960017DF25 /* BackgroundDetection.cpp in Sources */,
 				4CE4479618BC62960017DF25 /* denoise_filter.cpp in Sources */,
 			);
@@ -502,6 +526,11 @@
 				DSTROOT = /tmp/processing.dst;
 				GCC_C_LANGUAGE_STANDARD = "compiler-default";
 				GCC_OPTIMIZATION_LEVEL = 3;
+				"GCC_PREPROCESSOR_DEFINITIONS[sdk=iphoneos*]" = (
+					APPLE_IOS,
+					HAVE_NEON,
+				);
+				"GCC_PREPROCESSOR_DEFINITIONS[sdk=iphonesimulator*]" = APPLE_IOS;
 				HEADER_SEARCH_PATHS = (
 					/Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/include,
 					"\"$(SRCROOT)/../../../common\"",
@@ -526,6 +555,11 @@
 				CODE_SIGN_IDENTITY = "iPhone Developer";
 				DSTROOT = /tmp/processing.dst;
 				GCC_C_LANGUAGE_STANDARD = "compiler-default";
+				"GCC_PREPROCESSOR_DEFINITIONS[sdk=iphoneos*]" = (
+					APPLE_IOS,
+					HAVE_NEON,
+				);
+				"GCC_PREPROCESSOR_DEFINITIONS[sdk=iphonesimulator*]" = APPLE_IOS;
 				HEADER_SEARCH_PATHS = (
 					/Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/include,
 					"\"$(SRCROOT)/../../../common\"",
--- a/codec/processing/src/arm/.DS_Store
+++ b/codec/processing/src/arm/.DS_Store
--- a/codec/processing/src/arm/adaptive_quantization.S
+++ b/codec/processing/src/arm/adaptive_quantization.S
@@ -0,0 +1,120 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+
+#ifdef HAVE_NEON
+.text
+#include "arm_arch_common_macro.S"
+
+#ifdef APPLE_IOS
+.macro SQR_ADD_16BYTES 
+	vmull.u8 q3, $0, $0
+	vmull.u8 q8, $1, $1
+	vpadal.u16 $2, q3
+	vpadal.u16 $2, q8
+.endm
+#else
+.macro SQR_ADD_16BYTES arg0, arg1, arg2
+	vmull.u8 q3, \arg0, \arg0
+	vmull.u8 q8, \arg1, \arg1
+	vpadal.u16 \arg2, q3
+	vpadal.u16 \arg2, q8
+.endm
+#endif
+
+
+WELS_ASM_FUNC_BEGIN pixel_var_16x16_neon
+    stmdb sp!, {r4}
+
+	vld1.8   {q15}, [r0], r1 //save the ref data (16bytes)
+	vld1.8   {q14}, [r2], r3 //save the src data (16bytes)
+	
+	
+	vabd.u8  q13, q14, q15 
+	vmull.u8 q12, d27, d27
+	vmull.u8 q11, d26, d26
+	vaddl.u16 q12, d24, d25
+	vpadal.u16 q12, q11     //sqr
+
+    vaddl.u8 q13, d26, d27 //sum   
+			 
+	vaddl.u8 q10, d28, d29 //sum_cur
+	
+	vmull.u8 q9,  d29, d29
+	vmull.u8 q8,  d28, d28
+	vaddl.u16 q9, d18, d19       //sqr_cur
+	vpadal.u16 q9, q8
+
+	mov r4, #15
+pixel_var_16x16_loop0:
+
+	vld1.8 {q0}, [r0], r1 //save the ref data (16bytes)
+	vld1.8 {q1}, [r2], r3 //save the src data (16bytes)
+    
+	vabd.u8 q2, q0, q1
+		
+	//q10 save sum_cur
+	vpadal.u8 q10, q1
+
+	//q12 save sqr
+	SQR_ADD_16BYTES d4, d5, q12
+	
+    //q13 save sum
+	vpadal.u8 q13, q2
+
+	subs r4, #1
+	
+	//q9 save sqr_cur	
+	SQR_ADD_16BYTES d2, d3, q9	
+	
+	bne pixel_var_16x16_loop0		
+	
+	vadd.u16 d0, d26, d27 //sum
+	vadd.u16 d1, d20, d21 //sum_cur	 
+	vpaddl.u16 q0, q0
+	vadd.u32 d2, d24, d25 //sqr
+	vadd.u32 d3, d18, d19 //sqr_cur
+	vpadd.u32 d0, d0, d1
+	vpadd.u32 d1, d2, d3
+	
+	ldr       r4, [sp, #4]
+	
+	vshr.u32  q0, q0, #8
+	vmul.u32  d0, d0
+	vsub.u32  d0, d1, d0
+    vmovl.u32 q0, d0
+	vst2.16  {d0[0], d1[0]}, [r4]
+
+	ldmia sp!, {r4}
+
+WELS_ASM_FUNC_END
+
+#endif
--- a/codec/processing/src/arm/down_sample_neon.S
+++ b/codec/processing/src/arm/down_sample_neon.S
@@ -0,0 +1,342 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+
+#ifdef	HAVE_NEON
+.text
+#include "arm_arch_common_macro.S"
+
+
+WELS_ASM_FUNC_BEGIN	comp_ds_bilinear_neon
+	stmdb	sp!, {r4-r8, lr}
+	
+	//Get	the	width	and	height
+	ldr	 r4, [sp,	#24]	//src_width
+	ldr	 r5, [sp,	#28]	//src_height
+	
+	//Initialize the register
+	mov	r6,	r2
+	mov	r8,	r0
+	mov	lr,	#0
+	lsr	r5,	#1	
+	
+	//Save the tailer	for	the	unasigned	size
+	mla	 r7, r1, r5, r0
+	vld1.32	{q15}, [r7]
+	
+	add	r7,	r2,	r3
+	//processing a colume	data
+comp_ds_bilinear_loop0:	
+
+	vld1.8 {q0,q1},	[r2]!
+	vld1.8 {q2,q3},	[r7]!			
+	vpaddl.u8	q0,	q0
+	vpaddl.u8	q1,	q1
+	vpaddl.u8	q2,	q2
+	vpaddl.u8	q3,	q3
+	vrshr.u16	q0,	#1
+	vrshr.u16	q1,	#1
+	vrshr.u16	q2,	#1
+	vrshr.u16	q3,	#1
+	vrhadd.u16 q0, q2
+	vrhadd.u16 q1, q3
+	vmovn.u16	d0,	q0
+	vmovn.u16	d1,	q1
+	vst1.32	{q0},	[r0]!	
+	add	lr,	#32
+	
+	cmp	lr,	r4
+	movcs	lr,	#0
+	addcs	r6,	r3,	lsl	#1
+	movcs	r2,	r6
+	addcs	r7,	r2,	r3
+	addcs	r8,	r1
+	movcs	r0,	r8
+	subscs r5, #1
+	bne	comp_ds_bilinear_loop0
+	
+	//restore	the	tailer for the unasigned size
+	vst1.32	{q15}, [r0]
+	
+	ldmia	sp!, {r4-r8,lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN	comp_ds_bilinear_w_x8_neon
+    stmdb	sp!, {r4-r7, lr}
+
+    //Get	the	width	and	height
+	ldr	 r4, [sp,	#20]	//src_width
+	ldr	 r5, [sp,	#24]	//src_height
+	
+	//Get	the	difference
+	sub	lr,	r3,	r4 
+	sub	r1,	r1,	r4,	lsr	#1
+	
+	lsr	r5,	#1
+	
+	//processing a colume	data
+comp_ds_bilinear_w_x8_loop0:	
+	
+	lsr	r6,	r4,	#3
+	add	r7,	r2,	r3
+	//processing a line	data
+comp_ds_bilinear_w_x8_loop1:
+		
+	vld1.8 {d0}, [r2]!
+	vld1.8 {d1}, [r7]!			
+	vpaddl.u8	q0,	q0
+	vrshr.u16	q0,	#1
+	vrhadd.u16 d0, d1
+	
+	vmovn.u16	d0,	q0
+	vst1.32	{d0[0]}, [r0]!		
+	subs r6, #1
+	bne	comp_ds_bilinear_w_x8_loop1
+
+	add	r2,	r7,	lr
+	add	r0,	r1
+	subs r5, #1
+	bne	comp_ds_bilinear_w_x8_loop0
+	
+    ldmia	sp!, {r4-r7,lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN	comp_ds_bilinear_w_x16_neon
+    stmdb	sp!, {r4-r7, lr}
+
+    //Get	the	width	and	height
+	ldr	 r4, [sp,	#20]	//src_width
+	ldr	 r5, [sp,	#24]	//src_height
+	
+	//Get	the	difference
+	sub	lr,	r3,	r4 
+	sub	r1,	r1,	r4,	lsr	#1
+	
+	lsr	r5,	#1
+	
+	//processing a colume	data
+comp_ds_bilinear_w_x16_loop0:	
+	
+	lsr	r6,	r4,	#4
+	add	r7,	r2,	r3
+	//processing a line	data
+comp_ds_bilinear_w_x16_loop1:
+		
+	vld1.8 {q0}, [r2]!
+	vld1.8 {q1}, [r7]!			
+	vpaddl.u8	q0,	q0
+	vpaddl.u8	q1,	q1
+	vrshr.u16	q0,	#1
+	vrshr.u16	q1,	#1
+	vrhadd.u16 q0, q1
+	
+	vmovn.u16	d0,	q0
+	vst1.32	{d0},	[r0]!		
+	subs r6, #1
+	bne	comp_ds_bilinear_w_x16_loop1
+
+	add	r2,	r7,	lr
+	add	r0,	r1
+	subs r5, #1
+	bne	comp_ds_bilinear_w_x16_loop0
+	
+	ldmia	sp!, {r4-r7,lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN	comp_ds_bilinear_w_x32_neon
+	stmdb	sp!, {r4-r7, lr}
+
+	//Get	the	width	and	height
+	ldr	 r4, [sp,	#20]	//src_width
+	ldr	 r5, [sp,	#24]	//src_height
+	
+	//Get	the	difference
+	sub	lr,	r3,	r4 
+	sub	r1,	r1,	r4,	lsr	#1
+	
+	lsr	r5,	#1
+	
+	//processing a colume	data
+comp_ds_bilinear_w_x32_loop0:	
+	
+	lsr	r6,	r4,	#5
+	add	r7,	r2,	r3
+	//processing a line	data
+comp_ds_bilinear_w_x32_loop1:
+		
+	vld1.8 {q0,q1},	[r2]!
+	vld1.8 {q2,q3},	[r7]!			
+	vpaddl.u8	q0,	q0
+	vpaddl.u8	q1,	q1
+	vpaddl.u8	q2,	q2
+	vpaddl.u8	q3,	q3
+	vrshr.u16	q0,	#1
+	vrshr.u16	q1,	#1
+	vrshr.u16	q2,	#1
+	vrshr.u16	q3,	#1
+	vrhadd.u16 q0, q2
+	vrhadd.u16 q1, q3
+		
+	vmovn.u16	d0,	q0
+	vmovn.u16	d1,	q1
+	vst1.32	{q0},	[r0]!		
+	subs r6, #1
+	bne	comp_ds_bilinear_w_x32_loop1
+
+	add	r2,	r7,	lr
+	add	r0,	r1
+	subs r5, #1
+	bne	comp_ds_bilinear_w_x32_loop0
+	
+	ldmia	sp!, {r4-r7,lr}
+WELS_ASM_FUNC_END
+
+
+WELS_ASM_FUNC_BEGIN general_ds_bilinear_accurate_neon
+    stmdb sp!, {r4-r12, lr}
+    
+	//Get the data from stack
+	ldr r4, [sp, #40] //the addr of src
+	ldr r5, [sp, #44] //the value of src_stride
+    ldr r6, [sp, #48] //the value of scaleX
+    ldr r7, [sp, #52] //the value of scaleY
+
+    mov     r10, #32768
+    sub     r10, #1
+    and		r8, r6, r10			// r8 uinc(scaleX mod 32767)
+    mov     r11, #-1
+	mul		r11, r8			// r11 -uinc
+
+    vdup.s16 d2, r8
+    vdup.s16 d0, r11
+    vzip.s16 d0, d2         // uinc -uinc uinc -uinc
+
+	and		r9, r7, r10			// r9 vinc(scaleY mod 32767)
+    mov     r11, #-1
+	mul		r11, r9			// r11 -vinc
+	
+	vdup.s16 d2, r9
+	vdup.s16 d3, r11
+	vext.8   d5, d3, d2, #4		// vinc vinc -vinc -vinc
+	
+    mov		 r11, #0x40000000
+    mov      r12, #0x4000
+    sub      r12, #1
+    add      r11, r12
+	vdup.s32 d1, r11;			//init u  16384 16383 16384 16383
+
+	mov		 r11, #16384
+    vdup.s16 d8, r11
+    sub      r11, #1
+	vdup.s16 d9, r11
+	vext.8	 d7, d9, d8, #4		//init v  16384 16384 16383 16383
+	
+	veor    q14,     q14	
+	sub		r1,		r2			// stride - width			
+	mov		r8,		#16384		// yInverse
+	sub		r3,		#1
+	
+_HEIGHT:	
+    ldr     r4, [sp, #40]           //the addr of src
+    mov		r11,	r8
+    lsr		r11,	#15
+	mul		r11,	r5
+	add		r11,	r4					// get current row address
+	mov		r12,	r11
+	add		r12,	r5
+	
+	mov		r9,		#16384				// xInverse	
+	sub		r10, r2, #1
+    vmov.s16 d6, d1
+
+_WIDTH:
+	mov		lr,		r9
+    lsr		lr,		#15
+    add     r4,     r11,lr
+	vld2.8	{d28[0],d29[0]},	[r4]		//q14: 0000000b0000000a;
+    add     r4,     r12,lr
+	vld2.8	{d28[4],d29[4]},	[r4]		//q14: 000d000b000c000a;
+	vzip.32		d28, d29					//q14: 000d000c000b000a;
+	
+	vmull.u16	q13, d6, d7			//q13: init u  *  init  v	
+	vmull.u32	q12, d26,d28
+	vmlal.u32	q12, d27,d29
+	vqadd.u64	d24, d24,d25
+	vrshr.u64	d24, #30
+
+	vst1.8	{d24[0]},	[r0]!
+	add		r9,	r6	
+	vadd.u16	d6, d0				// inc u
+	vshl.u16	d6, #1
+	vshr.u16	d6, #1
+	subs	r10, #1
+	bne		_WIDTH
+	
+WIDTH_END:
+    lsr		r9,		#15
+    add     r4,r11,r9
+	vld1.8	{d24[0]},	[r4]
+	vst1.8	{d24[0]},   [r0]
+	add		r0,		#1
+	add		r8,		r7
+	add		r0,		r1
+	vadd.s16	d7,	d5				// inc v
+	vshl.u16	d7, #1
+	vshr.u16	d7, #1
+	subs	r3,		#1
+	bne		_HEIGHT
+
+LAST_ROW:	
+    ldr     r4, [sp, #40]           //the addr of src
+    lsr		r8,	#15
+	mul		r8, r5
+	add		r4,	r8					// get current row address	
+	mov		r9,		#16384
+
+_LAST_ROW_WIDTH:
+	mov		r11,	r9
+    lsr		r11,	#15
+    
+	add     r3,     r4,r11
+	vld1.8	{d0[0]},	[r3]
+	vst1.8	{d0[0]},	[r0]	
+	add		r0,		#1	
+	add		r9,		r6	
+	subs	r2,		#1
+	bne		_LAST_ROW_WIDTH
+	
+	ldmia sp!, {r4-r12, lr}
+WELS_ASM_FUNC_END
+
+#endif
--- a/codec/processing/src/arm/pixel_sad_neon.S
+++ b/codec/processing/src/arm/pixel_sad_neon.S
@@ -0,0 +1,68 @@
+/*!
+ * \copy
+ *     Copyright (c)  2013, Cisco Systems
+ *     All rights reserved.
+ *
+ *     Redistribution and use in source and binary forms, with or without
+ *     modification, are permitted provided that the following conditions
+ *     are met:
+ *
+ *        * Redistributions of source code must retain the above copyright
+ *          notice, this list of conditions and the following disclaimer.
+ *
+ *        * Redistributions in binary form must reproduce the above copyright
+ *          notice, this list of conditions and the following disclaimer in
+ *          the documentation and/or other materials provided with the
+ *          distribution.
+ *
+ *     THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
+ *     "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
+ *     LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS
+ *     FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE
+ *     COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
+ *     INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
+ *     BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+ *     LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
+ *     CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
+ *     LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
+ *     ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
+ *     POSSIBILITY OF SUCH DAMAGE.
+ *
+ */
+
+#ifdef HAVE_NEON
+.text
+#include "arm_arch_common_macro.S"
+
+
+WELS_ASM_FUNC_BEGIN pixel_sad_8x8_neon
+    stmdb sp!, {lr}
+	//Loading a horizontal line data (8 bytes)
+	vld1.8 {d0}, [r0], r1 
+	vld1.8 {d1}, [r2], r3
+    
+	//Do the SAD for 8 bytes
+	vabdl.u8  q1, d0, d1
+	
+	mov lr, #7
+pixel_sad_8x8_loop0:
+
+    //Loading a horizontal line data (8 bytes)
+	vld1.8 {d0}, [r0], r1 
+	vld1.8 {d1}, [r2], r3
+
+	subs lr, #1
+	
+	//Do the SAD for 8 bytes
+	vabal.u8  q1, d0, d1
+	bne pixel_sad_8x8_loop0
+
+	vadd.u16   d2, d3
+	vpaddl.u16 d2, d2
+	vpaddl.u32 d2, d2
+	vmov.u32   r0, d2[0]//TBO...
+
+	ldmia sp!, {lr}
+WELS_ASM_FUNC_END
+
+#endif
--- a/codec/processing/src/arm/vaa_calc_neon.S
+++ b/codec/processing/src/arm/vaa_calc_neon.S