4 files changed, 390 insertions, 200 deletions
diff --git a/drivers/gpu/nvgpu/gk20a/cde_gk20a.c b/drivers/gpu/nvgpu/gk20a/cde_gk20a.c
index 472cc81c..8b2ed55e 100644
--- a/drivers/gpu/nvgpu/gk20a/cde_gk20a.c
+++ b/drivers/gpu/nvgpu/gk20a/cde_gk20a.c
@@ -337,8 +337,8 @@ static int gk20a_replace_data(struct gk20a_cde_ctx *cde_ctx, void *target,
 }
 static int gk20a_init_cde_replace(struct gk20a_cde_ctx *cde_ctx,
-                                      const struct firmware *img,
+                                  const struct firmware *img,
-                                      struct gk20a_cde_hdr_replace *replace)
+                                  struct gk20a_cde_hdr_replace *replace)
 {
        struct gk20a_cde_mem_desc *source_mem;
        struct gk20a_cde_mem_desc *target_mem;
@@ -410,26 +410,26 @@ static int gk20a_cde_patch_params(struct gk20a_cde_ctx *cde_ctx)
                                g->gr.cacheline_size;
                        break;
                case TYPE_PARAM_FIRSTPAGEOFFSET:
-                        new_data = cde_ctx->src_param_offset;
+                        new_data = cde_ctx->surf_param_offset;
                        break;
                case TYPE_PARAM_NUMPAGES:
-                        new_data = cde_ctx->src_param_lines;
+                        new_data = cde_ctx->surf_param_lines;
                        break;
                case TYPE_PARAM_BACKINGSTORE:
                        new_data = cde_ctx->backing_store_vaddr;
                        break;
                case TYPE_PARAM_DESTINATION:
-                        new_data = cde_ctx->dest_vaddr;
+                        new_data = cde_ctx->compbit_vaddr;
                        break;
                case TYPE_PARAM_DESTINATION_SIZE:
-                        new_data = cde_ctx->dest_size;
+                        new_data = cde_ctx->compbit_size;
                        break;
                case TYPE_PARAM_BACKINGSTORE_SIZE:
                        new_data = g->gr.compbit_store.size;
                        break;
                case TYPE_PARAM_SOURCE_SMMU_ADDR:
-                        new_data = gk20a_mm_gpuva_to_iova(cde_ctx->vm,
+                        new_data = gk20a_mm_gpuva_to_iova_base(cde_ctx->vm,
-                                                          cde_ctx->src_vaddr);
+                                                        cde_ctx->surf_vaddr);
                        if (new_data == 0)
                                err = -EINVAL;
                        break;
@@ -605,8 +605,9 @@ static int gk20a_init_cde_command(struct gk20a_cde_ctx *cde_ctx,
 static int gk20a_init_cde_img(struct gk20a_cde_ctx *cde_ctx,
                              const struct firmware *img)
 {
+        struct gk20a_cde_app *cde_app = &cde_ctx->g->cde_app;
        u32 *data = (u32 *)img->data;
-        u32 version, num_of_elems;
+        u32 num_of_elems;
        struct gk20a_cde_hdr_elem *elem;
        u32 min_size = 0;
        int err = 0;
@@ -618,7 +619,7 @@ static int gk20a_init_cde_img(struct gk20a_cde_ctx *cde_ctx,
                return -EINVAL;
        }
-        version = data[0];
+        cde_app->firmware_version = data[0];
        num_of_elems = data[1];
        min_size += num_of_elems * sizeof(*elem);
@@ -654,6 +655,11 @@ static int gk20a_init_cde_img(struct gk20a_cde_ctx *cde_ctx,
                                elem->command.num_entries);
                        break;
                }
+                case TYPE_ARRAY:
+                        memcpy(&cde_app->arrays[elem->array.id][0],
+                                elem->array.data,
+                                MAX_CDE_ARRAY_ENTRIES*sizeof(u32));
+                        break;
                default:
                        gk20a_warn(&cde_ctx->pdev->dev, "cde: unknown header element");
                        err = -EINVAL;
@@ -853,27 +859,25 @@ static struct gk20a_cde_ctx *gk20a_cde_allocate_context(struct gk20a *g)
 }
 int gk20a_cde_convert(struct gk20a *g,
-                      struct dma_buf *dst,
+                      struct dma_buf *compbits_buf,
-                      s32 dst_kind, u64 dst_byte_offset,
+                      s32 compbits_kind, u64 compbits_byte_offset,
-                      u32 dst_size, struct nvgpu_fence *fence,
+                      u32 compbits_size, struct nvgpu_fence *fence,
                      u32 __flags, struct gk20a_cde_param *params,
                      int num_params, struct gk20a_fence **fence_out)
 __acquires(&cde_app->mutex)
 __releases(&cde_app->mutex)
 {
-        struct gk20a_cde_app *cde_app = &g->cde_app;
+        struct gk20a_cde_ctx *cde_ctx = NULL;
        struct gk20a_comptags comptags;
-        struct gk20a_cde_ctx *cde_ctx;
+        u64 compbits_offset = 0;
-        u64 dst_vaddr = 0;
+        u64 map_vaddr = 0;
+        u64 map_offset = 0;
+        u32 map_size = 0;
+        u64 big_page_mask = 0;
        u32 flags;
        int err, i;
-        if (!cde_app->initialised) {
+        mutex_lock(&g->cde_app.mutex);
-                gk20a_warn(&g->dev->dev, "cde: conversion requrest but no image has been provided");
-                return -ENOSYS;
-        }
-        mutex_lock(&cde_app->mutex);
        cde_ctx = gk20a_cde_get_context(g);
        if (IS_ERR(cde_ctx)) {
@@ -881,38 +885,53 @@ __releases(&cde_app->mutex)
                goto exit_unlock;
        }
-        /* First, map the buffers to local va */
+        /* First, map the buffer to local va */
-        /* ensure that the dst buffer has drvdata */
+        /* ensure that the compbits buffer has drvdata */
-        err = gk20a_dmabuf_alloc_drvdata(dst, &g->dev->dev);
+        err = gk20a_dmabuf_alloc_drvdata(compbits_buf, &g->dev->dev);
        if (err)
                goto exit_unlock;
+        /* compbits don't start at page aligned offset, so we need to align
+           the region to be mapped */
+        big_page_mask = cde_ctx->vm->big_page_size - 1;
+        map_offset = compbits_byte_offset & ~big_page_mask;
+        /* compute compbit start offset from the beginning of the mapped
+           area */
+        compbits_offset = compbits_byte_offset & big_page_mask;
+        if (!compbits_size) {
+                compbits_size = compbits_buf->size - compbits_byte_offset;
+                map_size = compbits_buf->size - map_offset;
+        }
        /* map the destination buffer */
-        get_dma_buf(dst); /* a ref for gk20a_vm_map */
+        get_dma_buf(compbits_buf); /* a ref for gk20a_vm_map */
-        dst_vaddr = gk20a_vm_map(cde_ctx->vm, dst, 0,
+        map_vaddr = gk20a_vm_map(cde_ctx->vm, compbits_buf, 0,
                                 NVGPU_MAP_BUFFER_FLAGS_CACHEABLE_TRUE,
-                                 dst_kind, NULL, true,
+                                 compbits_kind, NULL, true,
                                 gk20a_mem_flag_none,
-                                 0, 0);
+                                 map_offset, map_size);
-        if (!dst_vaddr) {
+        if (!map_vaddr) {
-                dma_buf_put(dst);
+                dma_buf_put(compbits_buf);
                err = -EINVAL;
                goto exit_unlock;
        }
-        if (!dst_size)
-                dst_size = dst->size - dst_byte_offset;
        /* store source buffer compression tags */
-        gk20a_get_comptags(&g->dev->dev, dst, &comptags);
+        gk20a_get_comptags(&g->dev->dev, compbits_buf, &comptags);
-        cde_ctx->src_vaddr = dst_vaddr;
+        cde_ctx->surf_param_offset = comptags.offset;
-        cde_ctx->src_param_offset = comptags.offset;
+        cde_ctx->surf_param_lines = comptags.lines;
-        cde_ctx->src_param_lines = comptags.lines;
+        /* store surface vaddr. This is actually compbit vaddr, but since
+           compbits live in the same surface, and we can get the alloc base
+           address by using gk20a_mm_gpuva_to_iova_base, this will do */
+        cde_ctx->surf_vaddr = map_vaddr;
        /* store information about destination */
-        cde_ctx->dest_vaddr = dst_vaddr + dst_byte_offset;
+        cde_ctx->compbit_vaddr = map_vaddr + compbits_offset;
-        cde_ctx->dest_size = dst_size;
+        cde_ctx->compbit_size = compbits_size;
        /* remove existing argument data */
        memset(cde_ctx->user_param_values, 0,
@@ -940,8 +959,8 @@ __releases(&cde_app->mutex)
        gk20a_dbg(gpu_dbg_cde, "cde: buffer=cbc, size=%zu, gpuva=%llx\n",
                 g->gr.compbit_store.size, cde_ctx->backing_store_vaddr);
-        gk20a_dbg(gpu_dbg_cde, "cde: buffer=dst, size=%llu, gpuva=%llx\n",
+        gk20a_dbg(gpu_dbg_cde, "cde: buffer=compbits, size=%llu, gpuva=%llx\n",
-                 cde_ctx->dest_size, cde_ctx->dest_vaddr);
+                 cde_ctx->compbit_size, cde_ctx->compbit_vaddr);
        /* execute the init push buffer */
        if (!cde_ctx->init_cmd_executed) {
@@ -964,11 +983,10 @@ __releases(&cde_app->mutex)
 exit_unlock:
        /* unmap the buffers - channel holds references to them now */
-        if (dst_vaddr)
+        if (map_vaddr)
-                gk20a_vm_unmap(cde_ctx->vm, dst_vaddr);
+                gk20a_vm_unmap(cde_ctx->vm, map_vaddr);
-        mutex_unlock(&cde_app->mutex);
+        mutex_unlock(&g->cde_app.mutex);
        return err;
 }
@@ -1159,152 +1177,322 @@ __releases(&cde_app->mutex)
        return err;
 }
-enum cde_launch_patch_offset {
-        /* dst buffer width in roptiles */
-        PATCH_USER_CONST_XTILES,
-        /* dst buffer height in roptiles */
-        PATCH_USER_CONST_YTILES,
-        /* dst buffer log2(block height) */
-        PATCH_USER_CONST_BLOCKHEIGHTLOG2,
-        /* dst buffer pitch in bytes */
-        PATCH_USER_CONST_DSTPITCH,
-        /* dst buffer write offset */
-        PATCH_USER_CONST_DSTOFFSET,
-        /* comp cache index of the first page of the surface,
-         * kernel looks it up from PTE */
-        PATCH_USER_CONST_FIRSTPAGEOFFSET,
-        /* gmmu translated surface address, kernel fills */
-        PATCH_USER_CONST_SURFADDR,
-        /* dst buffer address >> 8, kernel fills */
-        PATCH_VPC_DSTIMAGE_ADDR,
-        /* dst buffer address >> 8, kernel fills */
-        PATCH_VPC_DSTIMAGE_ADDR2,
-        /* dst buffer size - 1, kernel fills */
-        PATCH_VPC_DSTIMAGE_SIZE_MINUS_ONE,
-        /* dst buffer size - 1, kernel fills */
-        PATCH_VPC_DSTIMAGE_SIZE_MINUS_ONE2,
-        /* dst buffer size, kernel fills */
-        PATCH_VPC_DSTIMAGE_SIZE,
-        /* dst buffer width in roptiles / work group width */
-        PATCH_VPC_CURRENT_GRID_SIZE_X,
-        /* dst buffer height in roptiles / work group height */
-        PATCH_VPC_CURRENT_GRID_SIZE_Y,
-        /* 1 */
-        PATCH_VPC_CURRENT_GRID_SIZE_Z,
-        /* work group width, 16 seems to be quite optimal */
-        PATCH_VPC_CURRENT_GROUP_SIZE_X,
-        /* work group height, 8 seems to be quite optimal */
-        PATCH_VPC_CURRENT_GROUP_SIZE_Y,
-        /* 1 */
-        PATCH_VPC_CURRENT_GROUP_SIZE_Z,
-        /* same as PATCH_VPC_CURRENT_GRID_SIZE_X */
-        PATCH_QMD_CTA_RASTER_WIDTH,
-        /* same as PATCH_VPC_CURRENT_GRID_SIZE_Y */
-        PATCH_QMD_CTA_RASTER_HEIGHT,
-        /* same as PATCH_VPC_CURRENT_GRID_SIZE_Z */
-        PATCH_QMD_CTA_RASTER_DEPTH,
-        /* same as PATCH_VPC_CURRENT_GROUP_SIZE_X */
-        PATCH_QMD_CTA_THREAD_DIMENSION0,
-        /* same as PATCH_VPC_CURRENT_GROUP_SIZE_Y */
-        PATCH_QMD_CTA_THREAD_DIMENSION1,
-        /* same as PATCH_VPC_CURRENT_GROUP_SIZE_Z */
-        PATCH_QMD_CTA_THREAD_DIMENSION2,
-        NUM_CDE_LAUNCH_PATCHES
-};
 enum cde_launch_patch_id {
-        PATCH_QMD_CTA_RASTER_WIDTH_ID = 1024,
+        PATCH_H_QMD_CTA_RASTER_WIDTH_ID     = 1024,
-        PATCH_QMD_CTA_RASTER_HEIGHT_ID = 1025,
+        PATCH_H_QMD_CTA_RASTER_HEIGHT_ID    = 1025,
-        PATCH_QMD_CTA_RASTER_DEPTH_ID = 1026,
+        PATCH_QMD_CTA_RASTER_DEPTH_ID       = 1026, /* for firmware v0 only */
-        PATCH_QMD_CTA_THREAD_DIMENSION0_ID = 1027,
+        PATCH_QMD_CTA_THREAD_DIMENSION0_ID  = 1027,
-        PATCH_QMD_CTA_THREAD_DIMENSION1_ID = 1028,
+        PATCH_QMD_CTA_THREAD_DIMENSION1_ID  = 1028,
-        PATCH_QMD_CTA_THREAD_DIMENSION2_ID = 1029,
+        PATCH_QMD_CTA_THREAD_DIMENSION2_ID  = 1029, /* for firmware v0 only */
-        PATCH_USER_CONST_XTILES_ID = 1030,
+        PATCH_USER_CONST_XTILES_ID          = 1030, /* for firmware v0 only */
-        PATCH_USER_CONST_YTILES_ID = 1031,
+        PATCH_USER_CONST_YTILES_ID          = 1031, /* for firmware v0 only */
        PATCH_USER_CONST_BLOCKHEIGHTLOG2_ID = 1032,
-        PATCH_USER_CONST_DSTPITCH_ID = 1033,
+        PATCH_USER_CONST_DSTPITCH_ID        = 1033, /* for firmware v0 only */
-        PATCH_USER_CONST_DSTOFFSET_ID = 1034,
+        PATCH_H_USER_CONST_FLAGS_ID         = 1034, /* for firmware v0 only */
-        PATCH_VPC_CURRENT_GRID_SIZE_X_ID = 1035,
+        PATCH_H_VPC_CURRENT_GRID_SIZE_X_ID  = 1035,
-        PATCH_VPC_CURRENT_GRID_SIZE_Y_ID = 1036,
+        PATCH_H_VPC_CURRENT_GRID_SIZE_Y_ID  = 1036,
-        PATCH_VPC_CURRENT_GRID_SIZE_Z_ID = 1037,
+        PATCH_H_VPC_CURRENT_GRID_SIZE_Z_ID  = 1037,
-        PATCH_VPC_CURRENT_GROUP_SIZE_X_ID = 1038,
+        PATCH_VPC_CURRENT_GROUP_SIZE_X_ID   = 1038,
-        PATCH_VPC_CURRENT_GROUP_SIZE_Y_ID = 1039,
+        PATCH_VPC_CURRENT_GROUP_SIZE_Y_ID   = 1039,
-        PATCH_VPC_CURRENT_GROUP_SIZE_Z_ID = 1040,
+        PATCH_VPC_CURRENT_GROUP_SIZE_Z_ID   = 1040,
+        PATCH_USER_CONST_XBLOCKS_ID         = 1041,
+        PATCH_H_USER_CONST_DSTOFFSET_ID     = 1042,
+        PATCH_V_QMD_CTA_RASTER_WIDTH_ID     = 1043,
+        PATCH_V_QMD_CTA_RASTER_HEIGHT_ID    = 1044,
+        PATCH_V_USER_CONST_DSTOFFSET_ID     = 1045,
+        PATCH_V_VPC_CURRENT_GRID_SIZE_X_ID  = 1046,
+        PATCH_V_VPC_CURRENT_GRID_SIZE_Y_ID  = 1047,
+        PATCH_V_VPC_CURRENT_GRID_SIZE_Z_ID  = 1048,
+        PATCH_H_LAUNCH_WORD1_ID             = 1049,
+        PATCH_H_LAUNCH_WORD2_ID             = 1050,
+        PATCH_V_LAUNCH_WORD1_ID             = 1051,
+        PATCH_V_LAUNCH_WORD2_ID             = 1052,
+        PATCH_H_QMD_PROGRAM_OFFSET_ID       = 1053,
+        PATCH_H_QMD_REGISTER_COUNT_ID       = 1054,
+        PATCH_V_QMD_PROGRAM_OFFSET_ID       = 1055,
+        PATCH_V_QMD_REGISTER_COUNT_ID       = 1056,
 };
-static int gk20a_buffer_convert_gpu_to_cde(
+enum programs {
-                struct gk20a *g, struct dma_buf *dmabuf, u32 consumer,
+        PROG_HPASS              = 0,
-                u64 offset, u64 compbits_offset,
+        PROG_VPASS_LARGE        = 1,
+        PROG_VPASS_SMALL        = 2,
+        PROG_HPASS_DEBUG        = 3,
+        PROG_VPASS_LARGE_DEBUG  = 4,
+        PROG_VPASS_SMALL_DEBUG  = 5,
+        PROG_PASSTHROUGH        = 6,
+        NUM_PROGRAMS            = 7
+};
+/* maximum number of WRITE_PATCHes in the below function */
+#define MAX_CDE_LAUNCH_PATCHES            32
+static int gk20a_buffer_convert_gpu_to_cde_v0(
+                struct gk20a *g,
+                struct dma_buf *dmabuf, u32 consumer,
+                u64 offset, u64 compbits_hoffset, u64 compbits_voffset,
                u32 width, u32 height, u32 block_height_log2,
                u32 submit_flags, struct nvgpu_fence *fence_in,
-                struct gk20a_fence **fence_out)
+                struct gk20a_buffer_state *state)
 {
-        struct gk20a_cde_param params[NUM_CDE_LAUNCH_PATCHES];
+        struct gk20a_cde_param params[MAX_CDE_LAUNCH_PATCHES];
        int param = 0;
        int err = 0;
+        struct gk20a_fence *new_fence = NULL;
+        const int wgx = 8;
+        const int wgy = 8;
+        const int compbits_per_byte = 4; /* one byte stores 4 compbit pairs */
+        const int xalign = compbits_per_byte * wgx;
+        const int yalign = wgy;
-        /* Compute per launch parameters */
+        /* firmware v0 needs to call swizzling twice */
-        const bool transpose = (consumer == NVGPU_GPU_COMPBITS_CDEV);
+        int i;
-        const int transposed_width = transpose ? height : width;
+        for (i = 0; i < 2; i++) {
-        const int transposed_height = transpose ? width : height;
+                /* Compute per launch parameters */
-        const int xtiles = (transposed_width + 7) >> 3;
+                const bool vpass = (i == 1);
-        const int ytiles = (transposed_height + 7) >> 3;
+                const int transposed_width = vpass ? height : width;
+                const int transposed_height = vpass ? width : height;
+                const int xtiles = (transposed_width + 7) >> 3;
+                const int ytiles = (transposed_height + 7) >> 3;
+                const int gridw = roundup(xtiles, xalign) / xalign;
+                const int gridh = roundup(ytiles, yalign) / yalign;
+                const int flags = (vpass ? 4 : 0) |
+                        g->cde_app.shader_parameter;
+                const int dst_stride = 128; /* chip constant */
+                if ((vpass && !(consumer & NVGPU_GPU_COMPBITS_CDEV)) ||
+                    (!vpass && !(consumer & NVGPU_GPU_COMPBITS_CDEH)))
+                        continue;
+                if (xtiles > 4096 / 8 || ytiles > 4096 / 8)
+                        gk20a_warn(&g->dev->dev, "cde: surface is exceptionally large (xtiles=%d, ytiles=%d)",
+                                   xtiles, ytiles);
+                gk20a_dbg(gpu_dbg_cde, "pass=%c", vpass ? 'V' : 'H');
+                gk20a_dbg(gpu_dbg_cde, "w=%d, h=%d, bh_log2=%d, compbits_hoffset=0x%llx, compbits_voffset=0x%llx",
+                          width, height, block_height_log2,
+                          compbits_hoffset, compbits_voffset);
+                gk20a_dbg(gpu_dbg_cde, "resolution (%d, %d) tiles (%d, %d)",
+                          width, height, xtiles, ytiles);
+                gk20a_dbg(gpu_dbg_cde, "group (%d, %d) grid (%d, %d)",
+                          wgx, wgy, gridw, gridh);
+                /* Write parameters */
+#define WRITE_PATCH(NAME, VALUE) \
+        params[param++] = (struct gk20a_cde_param){NAME##_ID, 0, VALUE}
+                param = 0;
+                WRITE_PATCH(PATCH_USER_CONST_XTILES, xtiles);
+                WRITE_PATCH(PATCH_USER_CONST_YTILES, ytiles);
+                WRITE_PATCH(PATCH_USER_CONST_BLOCKHEIGHTLOG2,
+                        block_height_log2);
+                WRITE_PATCH(PATCH_USER_CONST_DSTPITCH, dst_stride);
+                WRITE_PATCH(PATCH_H_USER_CONST_FLAGS, flags);
+                WRITE_PATCH(PATCH_H_VPC_CURRENT_GRID_SIZE_X, gridw);
+                WRITE_PATCH(PATCH_H_VPC_CURRENT_GRID_SIZE_Y, gridh);
+                WRITE_PATCH(PATCH_H_VPC_CURRENT_GRID_SIZE_Z, 1);
+                WRITE_PATCH(PATCH_VPC_CURRENT_GROUP_SIZE_X, wgx);
+                WRITE_PATCH(PATCH_VPC_CURRENT_GROUP_SIZE_Y, wgy);
+                WRITE_PATCH(PATCH_VPC_CURRENT_GROUP_SIZE_Z, 1);
+                WRITE_PATCH(PATCH_H_QMD_CTA_RASTER_WIDTH, gridw);
+                WRITE_PATCH(PATCH_H_QMD_CTA_RASTER_HEIGHT, gridh);
+                WRITE_PATCH(PATCH_QMD_CTA_RASTER_DEPTH, 1);
+                WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION0, wgx);
+                WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION1, wgy);
+                WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION2, 1);
+#undef WRITE_PATCH
+                err = gk20a_cde_convert(g, dmabuf,
+                                        0, /* dst kind */
+                                        vpass ?
+                                        compbits_voffset :
+                                        compbits_hoffset,
+                                        0, /* dst_size, 0 = auto */
+                                        fence_in, submit_flags,
+                                        params, param,
+                                        &new_fence);
+                if (err)
+                        goto out;
+                /* compbits generated, update state & fence */
+                gk20a_fence_put(state->fence);
+                state->fence = new_fence;
+                state->valid_compbits |= vpass ?
+                        NVGPU_GPU_COMPBITS_CDEV :
+                        NVGPU_GPU_COMPBITS_CDEH;
+        }
+out:
+        return err;
+}
+static int gk20a_buffer_convert_gpu_to_cde_v1(
+                struct gk20a *g,
+                struct dma_buf *dmabuf, u32 consumer,
+                u64 offset, u64 compbits_hoffset, u64 compbits_voffset,
+                u32 width, u32 height, u32 block_height_log2,
+                u32 submit_flags, struct nvgpu_fence *fence_in,
+                struct gk20a_buffer_state *state)
+{
+        struct gk20a_cde_param params[MAX_CDE_LAUNCH_PATCHES];
+        int param = 0;
+        int err = 0;
+        struct gk20a_fence *new_fence = NULL;
        const int wgx = 8;
        const int wgy = 8;
        const int compbits_per_byte = 4; /* one byte stores 4 compbit pairs */
-        const int dst_stride = 128; /* TODO chip constant */
        const int xalign = compbits_per_byte * wgx;
        const int yalign = wgy;
-        const int gridw = roundup(xtiles, xalign) / xalign;
-        const int gridh = roundup(ytiles, yalign) / yalign;
-        if (!g->cde_app.initialised)
+        /* Compute per launch parameters */
-                return -ENOSYS;
+        const int xtiles = (width + 7) >> 3;
+        const int ytiles = (height + 7) >> 3;
+        const int gridw_h = roundup(xtiles, xalign) / xalign;
+        const int gridh_h = roundup(ytiles, yalign) / yalign;
+        const int gridw_v = roundup(ytiles, xalign) / xalign;
+        const int gridh_v = roundup(xtiles, yalign) / yalign;
+        const int xblocks = (xtiles + 1) >> 1;
+        const int voffset = compbits_voffset - compbits_hoffset;
+        int hprog = PROG_HPASS;
+        int vprog = (block_height_log2 >= 2) ?
+                PROG_VPASS_LARGE : PROG_VPASS_SMALL;
+        if (g->cde_app.shader_parameter == 1) {
+                hprog = PROG_PASSTHROUGH;
+                vprog = PROG_PASSTHROUGH;
+        } else if (g->cde_app.shader_parameter == 2) {
+                hprog = PROG_HPASS_DEBUG;
+                vprog = (block_height_log2 >= 2) ?
+                        PROG_VPASS_LARGE_DEBUG :
+                        PROG_VPASS_SMALL_DEBUG;
+        }
        if (xtiles > 4096 / 8 || ytiles > 4096 / 8)
                gk20a_warn(&g->dev->dev, "cde: surface is exceptionally large (xtiles=%d, ytiles=%d)",
                           xtiles, ytiles);
-        gk20a_dbg(gpu_dbg_cde, "w=%d, h=%d, bh_log2=%d, compbits_offset=0x%llx",
+        gk20a_dbg(gpu_dbg_cde, "w=%d, h=%d, bh_log2=%d, compbits_hoffset=0x%llx, compbits_voffset=0x%llx",
-                  width, height, block_height_log2, compbits_offset);
+                  width, height, block_height_log2,
-        gk20a_dbg(gpu_dbg_cde, "resolution (%d, %d) tiles (%d, %d) invocations (%d, %d)",
+                  compbits_hoffset, compbits_voffset);
-                  width, height, xtiles, ytiles, gridw*wgx, gridh*wgy);
+        gk20a_dbg(gpu_dbg_cde, "resolution (%d, %d) tiles (%d, %d)",
-        gk20a_dbg(gpu_dbg_cde, "group (%d, %d) grid (%d, %d)",
+                  width, height, xtiles, ytiles);
-                  wgx, wgy, gridw, gridh);
+        gk20a_dbg(gpu_dbg_cde, "group (%d, %d) gridH (%d, %d) gridV (%d, %d)",
+                  wgx, wgy, gridw_h, gridh_h, gridw_v, gridh_v);
+        gk20a_dbg(gpu_dbg_cde, "hprog=%d, offset=0x%x, regs=%d, vprog=%d, offset=0x%x, regs=%d",
+                  hprog,
+                  g->cde_app.arrays[ARRAY_PROGRAM_OFFSET][hprog],
+                  g->cde_app.arrays[ARRAY_REGISTER_COUNT][hprog],
+                  vprog,
+                  g->cde_app.arrays[ARRAY_PROGRAM_OFFSET][vprog],
+                  g->cde_app.arrays[ARRAY_REGISTER_COUNT][vprog]);
        /* Write parameters */
 #define WRITE_PATCH(NAME, VALUE) \
-                params[param++] = (struct gk20a_cde_param){NAME##_ID, 0, VALUE}
+        params[param++] = (struct gk20a_cde_param){NAME##_ID, 0, VALUE}
-        WRITE_PATCH(PATCH_USER_CONST_XTILES, xtiles);
+        WRITE_PATCH(PATCH_USER_CONST_XBLOCKS, xblocks);
-        WRITE_PATCH(PATCH_USER_CONST_YTILES, ytiles);
+        WRITE_PATCH(PATCH_USER_CONST_BLOCKHEIGHTLOG2,
-        WRITE_PATCH(PATCH_USER_CONST_BLOCKHEIGHTLOG2, block_height_log2);
+                block_height_log2);
-        WRITE_PATCH(PATCH_USER_CONST_DSTPITCH, dst_stride);
+        WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION0, wgx);
-        WRITE_PATCH(PATCH_USER_CONST_DSTOFFSET,
+        WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION1, wgy);
-                    (transpose ? 4 : 0) | g->cde_app.shader_parameter);
-        WRITE_PATCH(PATCH_VPC_CURRENT_GRID_SIZE_X, gridw);
-        WRITE_PATCH(PATCH_VPC_CURRENT_GRID_SIZE_Y, gridh);
-        WRITE_PATCH(PATCH_VPC_CURRENT_GRID_SIZE_Z, 1);
        WRITE_PATCH(PATCH_VPC_CURRENT_GROUP_SIZE_X, wgx);
        WRITE_PATCH(PATCH_VPC_CURRENT_GROUP_SIZE_Y, wgy);
        WRITE_PATCH(PATCH_VPC_CURRENT_GROUP_SIZE_Z, 1);
-        WRITE_PATCH(PATCH_QMD_CTA_RASTER_WIDTH, gridw);
-        WRITE_PATCH(PATCH_QMD_CTA_RASTER_HEIGHT, gridh);
+        WRITE_PATCH(PATCH_H_QMD_CTA_RASTER_WIDTH, gridw_h);
-        WRITE_PATCH(PATCH_QMD_CTA_RASTER_DEPTH, 1);
+        WRITE_PATCH(PATCH_H_QMD_CTA_RASTER_HEIGHT, gridh_h);
-        WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION0, wgx);
+        WRITE_PATCH(PATCH_H_USER_CONST_DSTOFFSET, 0);
-        WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION1, wgy);
+        WRITE_PATCH(PATCH_H_VPC_CURRENT_GRID_SIZE_X, gridw_h);
-        WRITE_PATCH(PATCH_QMD_CTA_THREAD_DIMENSION2, 1);
+        WRITE_PATCH(PATCH_H_VPC_CURRENT_GRID_SIZE_Y, gridh_h);
+        WRITE_PATCH(PATCH_H_VPC_CURRENT_GRID_SIZE_Z, 1);
+        WRITE_PATCH(PATCH_V_QMD_CTA_RASTER_WIDTH, gridw_v);
+        WRITE_PATCH(PATCH_V_QMD_CTA_RASTER_HEIGHT, gridh_v);
+        WRITE_PATCH(PATCH_V_USER_CONST_DSTOFFSET, voffset);
+        WRITE_PATCH(PATCH_V_VPC_CURRENT_GRID_SIZE_X, gridw_v);
+        WRITE_PATCH(PATCH_V_VPC_CURRENT_GRID_SIZE_Y, gridh_v);
+        WRITE_PATCH(PATCH_V_VPC_CURRENT_GRID_SIZE_Z, 1);
+        WRITE_PATCH(PATCH_H_QMD_PROGRAM_OFFSET,
+                g->cde_app.arrays[ARRAY_PROGRAM_OFFSET][hprog]);
+        WRITE_PATCH(PATCH_H_QMD_REGISTER_COUNT,
+                g->cde_app.arrays[ARRAY_REGISTER_COUNT][hprog]);
+        WRITE_PATCH(PATCH_V_QMD_PROGRAM_OFFSET,
+                g->cde_app.arrays[ARRAY_PROGRAM_OFFSET][vprog]);
+        WRITE_PATCH(PATCH_V_QMD_REGISTER_COUNT,
+                g->cde_app.arrays[ARRAY_REGISTER_COUNT][vprog]);
+        if (consumer & NVGPU_GPU_COMPBITS_CDEH) {
+                WRITE_PATCH(PATCH_H_LAUNCH_WORD1,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][0]);
+                WRITE_PATCH(PATCH_H_LAUNCH_WORD2,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][1]);
+        } else {
+                WRITE_PATCH(PATCH_H_LAUNCH_WORD1,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][2]);
+                WRITE_PATCH(PATCH_H_LAUNCH_WORD2,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][3]);
+        }
+        if (consumer & NVGPU_GPU_COMPBITS_CDEV) {
+                WRITE_PATCH(PATCH_V_LAUNCH_WORD1,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][0]);
+                WRITE_PATCH(PATCH_V_LAUNCH_WORD2,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][1]);
+        } else {
+                WRITE_PATCH(PATCH_V_LAUNCH_WORD1,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][2]);
+                WRITE_PATCH(PATCH_V_LAUNCH_WORD2,
+                        g->cde_app.arrays[ARRAY_LAUNCH_COMMAND][3]);
+        }
 #undef WRITE_PATCH
-        err = gk20a_busy(g->dev);
-        if (err)
-                return err;
        err = gk20a_cde_convert(g, dmabuf,
                                0, /* dst kind */
-                                compbits_offset,
+                                compbits_hoffset,
                                0, /* dst_size, 0 = auto */
                                fence_in, submit_flags,
-                                params, param, fence_out);
+                                params, param, &new_fence);
+        if (err)
+                goto out;
+        /* compbits generated, update state & fence */
+        gk20a_fence_put(state->fence);
+        state->fence = new_fence;
+        state->valid_compbits |= consumer &
+                (NVGPU_GPU_COMPBITS_CDEH | NVGPU_GPU_COMPBITS_CDEV);
+out:
+        return err;
+}
+static int gk20a_buffer_convert_gpu_to_cde(
+                struct gk20a *g, struct dma_buf *dmabuf, u32 consumer,
+                u64 offset, u64 compbits_hoffset, u64 compbits_voffset,
+                u32 width, u32 height, u32 block_height_log2,
+                u32 submit_flags, struct nvgpu_fence *fence_in,
+                struct gk20a_buffer_state *state)
+{
+        int err = 0;
+        if (!g->cde_app.initialised)
+                return -ENOSYS;
+        err = gk20a_busy(g->dev);
+        if (err)
+                return err;
+        gk20a_dbg(gpu_dbg_cde, "firmware version = %d\n",
+                g->cde_app.firmware_version);
+        if (g->cde_app.firmware_version == 0) {
+                err = gk20a_buffer_convert_gpu_to_cde_v0(
+                    g, dmabuf, consumer, offset, compbits_hoffset,
+                    compbits_voffset, width, height, block_height_log2,
+                    submit_flags, fence_in, state);
+        } else {
+                err = gk20a_buffer_convert_gpu_to_cde_v1(
+                    g, dmabuf, consumer, offset, compbits_hoffset,
+                    compbits_voffset, width, height, block_height_log2,
+                    submit_flags, fence_in, state);
+        }
        gk20a_idle(g->dev);
        return err;
 }
@@ -1326,7 +1514,8 @@ int gk20a_prepare_compressible_read(
        if (IS_ERR(dmabuf))
                return -EINVAL;
-        err = gk20a_dmabuf_get_state(dmabuf, dev_from_gk20a(g), offset, &state);
+        err = gk20a_dmabuf_get_state(dmabuf, dev_from_gk20a(g),
+                                     offset, &state);
        if (err) {
                dma_buf_put(dmabuf);
                return err;
@@ -1345,40 +1534,20 @@ int gk20a_prepare_compressible_read(
                err = -EINVAL;
                goto out;
        } else if (missing_bits) {
-                struct gk20a_fence *new_fence = NULL;
+                u32 missing_cde_bits = missing_bits &
+                         (NVGPU_GPU_COMPBITS_CDEH | NVGPU_GPU_COMPBITS_CDEV);
                if ((state->valid_compbits & NVGPU_GPU_COMPBITS_GPU) &&
-                        (missing_bits & NVGPU_GPU_COMPBITS_CDEH)) {
+                    missing_cde_bits) {
                        err = gk20a_buffer_convert_gpu_to_cde(
                                        g, dmabuf,
-                                        NVGPU_GPU_COMPBITS_CDEH,
+                                        missing_cde_bits,
                                        offset, compbits_hoffset,
+                                        compbits_voffset,
                                        width, height, block_height_log2,
                                        submit_flags, fence,
-                                        &new_fence);
+                                        state);
                        if (err)
                                goto out;
-                        /* CDEH bits generated, update state & fence */
-                        gk20a_fence_put(state->fence);
-                        state->fence = new_fence;
-                        state->valid_compbits |= NVGPU_GPU_COMPBITS_CDEH;
-                }
-                if ((state->valid_compbits & NVGPU_GPU_COMPBITS_GPU) &&
-                        (missing_bits & NVGPU_GPU_COMPBITS_CDEV)) {
-                        err = gk20a_buffer_convert_gpu_to_cde(
-                                        g, dmabuf,
-                                        NVGPU_GPU_COMPBITS_CDEV,
-                                        offset, compbits_voffset,
-                                        width, height, block_height_log2,
-                                        submit_flags, fence,
-                                        &new_fence);
-                        if (err)
-                                goto out;
-                        /* CDEH bits generated, update state & fence */
-                        gk20a_fence_put(state->fence);
-                        state->fence = new_fence;
-                        state->valid_compbits |= NVGPU_GPU_COMPBITS_CDEV;
                }
        }
diff --git a/drivers/gpu/nvgpu/gk20a/cde_gk20a.h b/drivers/gpu/nvgpu/gk20a/cde_gk20a.h
index 3347490c..b160162c 100644
--- a/drivers/gpu/nvgpu/gk20a/cde_gk20a.h
+++ b/drivers/gpu/nvgpu/gk20a/cde_gk20a.h
@@ -23,8 +23,9 @@
 #define MAX_CDE_BUFS            10
 #define MAX_CDE_PARAMS          64
-#define MAX_CDE_USER_PARAMS     32
+#define MAX_CDE_USER_PARAMS     40
 #define MAX_CDE_OBJ_IDS         4
+#define MAX_CDE_ARRAY_ENTRIES   9
 /*
 * The size of the context ring buffer that is dedicated for handling cde
@@ -162,6 +163,22 @@ struct gk20a_cde_cmd_elem {
 };
 /*
+ * This element is used for storing a small array of data.
+ */
+enum {
+        ARRAY_PROGRAM_OFFSET = 0,
+        ARRAY_REGISTER_COUNT,
+        ARRAY_LAUNCH_COMMAND,
+        NUM_CDE_ARRAYS
+};
+struct gk20a_cde_hdr_array {
+        u32 id;
+        u32 data[MAX_CDE_ARRAY_ENTRIES];
+};
+/*
 * Following defines a single header element. Each element has a type and
 * some of the data structures.
 */
@@ -175,6 +192,7 @@ struct gk20a_cde_hdr_elem {
                struct gk20a_cde_hdr_param param;
                u32 required_class;
                struct gk20a_cde_hdr_command command;
+                struct gk20a_cde_hdr_array array;
        };
 };
@@ -183,7 +201,8 @@ enum {
        TYPE_REPLACE,
        TYPE_PARAM,
        TYPE_REQUIRED_CLASS,
-        TYPE_COMMAND
+        TYPE_COMMAND,
+        TYPE_ARRAY
 };
 struct gk20a_cde_mem_desc {
@@ -219,14 +238,12 @@ struct gk20a_cde_ctx {
        /* storage for user space parameter values */
        u32 user_param_values[MAX_CDE_USER_PARAMS];
-        u64 src_smmu_addr;
+        u32 surf_param_offset;
-        u32 src_param_offset;
+        u32 surf_param_lines;
-        u32 src_param_lines;
+        u64 surf_vaddr;
-        u64 src_vaddr;
+        u64 compbit_vaddr;
+        u64 compbit_size;
-        u64 dest_vaddr;
-        u64 dest_size;
        u32 obj_ids[MAX_CDE_OBJ_IDS];
        int num_obj_ids;
@@ -259,6 +276,10 @@ struct gk20a_cde_app {
        int ctx_usecount;
        int ctx_count_top;
+        u32 firmware_version;
+        u32 arrays[NUM_CDE_ARRAYS][MAX_CDE_ARRAY_ENTRIES];
        u32 shader_parameter;
 };
@@ -266,9 +287,9 @@ void gk20a_cde_destroy(struct gk20a *g);
 void gk20a_cde_suspend(struct gk20a *g);
 int gk20a_init_cde_support(struct gk20a *g);
 int gk20a_cde_reload(struct gk20a *g);
-int gk20a_cde_convert(struct gk20a *g, struct dma_buf *dst,
+int gk20a_cde_convert(struct gk20a *g, struct dma_buf *compbits_buf,
-                      s32 dst_kind, u64 dst_word_offset,
+                      s32 compbits_kind, u64 compbits_word_offset,
-                      u32 dst_size, struct nvgpu_fence *fence,
+                      u32 compbits_size, struct nvgpu_fence *fence,
                      u32 __flags, struct gk20a_cde_param *params,
                      int num_params, struct gk20a_fence **fence_out);
 void gk20a_cde_debugfs_init(struct platform_device *dev);
diff --git a/drivers/gpu/nvgpu/gk20a/mm_gk20a.c b/drivers/gpu/nvgpu/gk20a/mm_gk20a.c
index a390e36b..08dd41c5 100644
--- a/drivers/gpu/nvgpu/gk20a/mm_gk20a.c
+++ b/drivers/gpu/nvgpu/gk20a/mm_gk20a.c
@@ -1546,7 +1546,7 @@ u64 gk20a_gmmu_map(struct vm_gk20a *vm,
        return vaddr;
 }
-dma_addr_t gk20a_mm_gpuva_to_iova(struct vm_gk20a *vm, u64 gpu_vaddr)
+dma_addr_t gk20a_mm_gpuva_to_iova_base(struct vm_gk20a *vm, u64 gpu_vaddr)
 {
        struct mapped_buffer_node *buffer;
        dma_addr_t addr = 0;
diff --git a/drivers/gpu/nvgpu/gk20a/mm_gk20a.h b/drivers/gpu/nvgpu/gk20a/mm_gk20a.h
index 3f7042ee..efed79f8 100644
--- a/drivers/gpu/nvgpu/gk20a/mm_gk20a.h
+++ b/drivers/gpu/nvgpu/gk20a/mm_gk20a.h
@@ -530,7 +530,7 @@ int gk20a_vm_map_buffer(struct gk20a_as_share *as_share,
 int gk20a_vm_unmap_buffer(struct gk20a_as_share *, u64 offset);
 void gk20a_get_comptags(struct device *dev, struct dma_buf *dmabuf,
                        struct gk20a_comptags *comptags);
-dma_addr_t gk20a_mm_gpuva_to_iova(struct vm_gk20a *vm, u64 gpu_vaddr);
+dma_addr_t gk20a_mm_gpuva_to_iova_base(struct vm_gk20a *vm, u64 gpu_vaddr);
 int gk20a_dmabuf_alloc_drvdata(struct dma_buf *dmabuf, struct device *dev);