Merge pull request #1425 from pengx17:master_retina_ocl_fix

2013-09-10 18:29:24 +04:00 · 2013-09-10 18:29:24 +04:00 · acc2ca484c
commit acc2ca484c
parent 242e4254f3 8767c47463
1 changed files with 13 additions and 18 deletions
--- a/modules/bioinspired/src/opencl/retina_kernel.cl
+++ b/modules/bioinspired/src/opencl/retina_kernel.cl
@ -43,6 +43,9 @@
 //
 //M*/
 //data (which is float) is aligend in 32 bytes
 #define WIDTH_MULTIPLE (32 >> 2)
 /////////////////////////////////////////////////////////
 //*******************************************************
 // basicretinafilter
@ -116,22 +119,18 @@ kernel void horizontalAnticausalFilter(
    float4 result_v4 = (float4)(0), out_v4;
    float result = 0;
-    // we assume elements_per_row is multple of 4
+    // we assume elements_per_row is multple of WIDTH_MULTIPLE
-    for(int i = 0; i < 4; ++ i, -- optr)
+    for(int i = 0; i < WIDTH_MULTIPLE; ++ i, -- optr)
    {
-        if(i < elements_per_row - cols)
+        if(i >= elements_per_row - cols)
        {
            *optr = result;
        }
        else
        {
            result = *optr + _a * result;
            *optr = result;
        }
        *optr = result;
    }
    result_v4.x = result;
    optr -= 3;
-    for(int i = 1; i < elements_per_row / 4; ++i, optr -= 4)
+    for(int i = WIDTH_MULTIPLE / 4; i < elements_per_row / 4; ++i, optr -= 4)
    {
        // shift left, `offset` is type `size_t` so it cannot be negative
        out_v4 = vload4(0, optr);
@ -223,23 +222,19 @@ kernel void horizontalAnticausalFilter_Irregular(
    float4 buf_v4, out_v4, res_v4 = (float4)(0);
    float result = 0;
-    // we assume elements_per_row is multple of 4
+    // we assume elements_per_row is multple of WIDTH_MULTIPLE
-    for(int i = 0; i < 4; ++ i, -- optr, -- bptr)
+    for(int i = 0; i < WIDTH_MULTIPLE; ++ i, -- optr, -- bptr)
    {
-        if(i < elements_per_row - cols)
+        if(i >= elements_per_row - cols)
        {
            *optr = result;
        }
        else
        {
            result = *optr + *bptr * result;
            *optr = result;
        }
        *optr = result;
    }
    res_v4.x = result;
    optr -= 3;
    bptr -= 3;
-    for(int i = 0; i < elements_per_row / 4 - 1; ++i, optr -= 4, bptr -= 4)
+    for(int i = WIDTH_MULTIPLE / 4; i < elements_per_row / 4; ++i, optr -= 4, bptr -= 4)
    {
        buf_v4 = vload4(0, bptr);
        out_v4 = vload4(0, optr);