Merge tag 'drm-amdkfd-next-2018-05-14' of git://people.freedesktop.org/~gabbayo/linux into drm-next

This is amdkfd pull for 4.18. The major new features are: - Add support for GFXv9 dGPUs (VEGA) - Add support for userptr memory mapping In addition, there are a couple of small fixes and improvements, such as: - Fix lock handling - Fix rollback packet in kernel kfd_queue - Optimize kfd signal handling - Fix CP hang in APU Signed-off-by: Dave Airlie <airlied@redhat.com> Link: https://patchwork.freedesktop.org/patch/msgid/20180514070126.GA1827@odedg-x270
author: Dave Airlie <airlied@redhat.com> 2018-05-15 01:59:10 -0400
committer: Dave Airlie <airlied@redhat.com> 2018-05-15 02:06:08 -0400
commit: c76f0b2cc2f1be1a8a20f0fe2c0f30919bc559fb (patch)
tree: 1aeeb74795b2951952aa443f7104d6c090c58141 /drivers/gpu/drm/amd/amdgpu
parent: 444ac87becd8a2ff76f9e4194dd98da4f5d5586d (diff)
parent: af47b390273f1068bdb1d01263a81948c4e2f97a (diff)
13 files changed, 1766 insertions, 79 deletions
diff --git a/drivers/gpu/drm/amd/amdgpu/Makefile b/drivers/gpu/drm/amd/amdgpu/Makefile
index 2ca2b5154d52..f3002020df6c 100644
--- a/drivers/gpu/drm/amd/amdgpu/Makefile
+++ b/drivers/gpu/drm/amd/amdgpu/Makefile
@@ -130,7 +130,8 @@ amdgpu-y += \
         amdgpu_amdkfd.o \
         amdgpu_amdkfd_fence.o \
         amdgpu_amdkfd_gpuvm.o \
-         amdgpu_amdkfd_gfx_v8.o
+         amdgpu_amdkfd_gfx_v8.o \
+         amdgpu_amdkfd_gfx_v9.o
 # add cgs
 amdgpu-y += amdgpu_cgs.o
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.c
index 4d36203ffb11..cd0e8f192e6a 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.c
@@ -92,6 +92,10 @@ void amdgpu_amdkfd_device_probe(struct amdgpu_device *adev)
        case CHIP_POLARIS11:
                kfd2kgd = amdgpu_amdkfd_gfx_8_0_get_functions();
                break;
+        case CHIP_VEGA10:
+        case CHIP_RAVEN:
+                kfd2kgd = amdgpu_amdkfd_gfx_9_0_get_functions();
+                break;
        default:
                dev_dbg(adev->dev, "kfd not supported on this ASIC\n");
                return;
@@ -175,6 +179,28 @@ void amdgpu_amdkfd_device_init(struct amdgpu_device *adev)
                                &gpu_resources.doorbell_physical_address,
                                &gpu_resources.doorbell_aperture_size,
                                &gpu_resources.doorbell_start_offset);
+                if (adev->asic_type >= CHIP_VEGA10) {
+                        /* On SOC15 the BIF is involved in routing
+                         * doorbells using the low 12 bits of the
+                         * address. Communicate the assignments to
+                         * KFD. KFD uses two doorbell pages per
+                         * process in case of 64-bit doorbells so we
+                         * can use each doorbell assignment twice.
+                         */
+                        gpu_resources.sdma_doorbell[0][0] =
+                                AMDGPU_DOORBELL64_sDMA_ENGINE0;
+                        gpu_resources.sdma_doorbell[0][1] =
+                                AMDGPU_DOORBELL64_sDMA_ENGINE0 + 0x200;
+                        gpu_resources.sdma_doorbell[1][0] =
+                                AMDGPU_DOORBELL64_sDMA_ENGINE1;
+                        gpu_resources.sdma_doorbell[1][1] =
+                                AMDGPU_DOORBELL64_sDMA_ENGINE1 + 0x200;
+                        /* Doorbells 0x0f0-0ff and 0x2f0-2ff are reserved for
+                         * SDMA, IH and VCN. So don't use them for the CP.
+                         */
+                        gpu_resources.reserved_doorbell_mask = 0x1f0;
+                        gpu_resources.reserved_doorbell_val  = 0x0f0;
+                }
                kgd2kfd->device_init(adev->kfd, &gpu_resources);
        }
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.h b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.h
index c2c2bea731e0..12367a9951e8 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.h
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd.h
@@ -28,6 +28,7 @@
 #include <linux/types.h>
 #include <linux/mm.h>
 #include <linux/mmu_context.h>
+#include <linux/workqueue.h>
 #include <kgd_kfd_interface.h>
 #include <drm/ttm/ttm_execbuf_util.h>
 #include "amdgpu_sync.h"
@@ -59,7 +60,9 @@ struct kgd_mem {
        uint32_t mapping_flags;
+        atomic_t invalid;
        struct amdkfd_process_info *process_info;
+        struct page **user_pages;
        struct amdgpu_sync sync;
@@ -84,6 +87,9 @@ struct amdkfd_process_info {
        struct list_head vm_list_head;
        /* List head for all KFD BOs that belong to a KFD process. */
        struct list_head kfd_bo_list;
+        /* List of userptr BOs that are valid or invalid */
+        struct list_head userptr_valid_list;
+        struct list_head userptr_inval_list;
        /* Lock to protect kfd_bo_list */
        struct mutex lock;
@@ -91,6 +97,11 @@ struct amdkfd_process_info {
        unsigned int n_vms;
        /* Eviction Fence */
        struct amdgpu_amdkfd_fence *eviction_fence;
+        /* MMU-notifier related fields */
+        atomic_t evicted_bos;
+        struct delayed_work restore_userptr_work;
+        struct pid *pid;
 };
 int amdgpu_amdkfd_init(void);
@@ -104,12 +115,14 @@ void amdgpu_amdkfd_device_probe(struct amdgpu_device *adev);
 void amdgpu_amdkfd_device_init(struct amdgpu_device *adev);
 void amdgpu_amdkfd_device_fini(struct amdgpu_device *adev);
+int amdgpu_amdkfd_evict_userptr(struct kgd_mem *mem, struct mm_struct *mm);
 int amdgpu_amdkfd_submit_ib(struct kgd_dev *kgd, enum kgd_engine_type engine,
                                uint32_t vmid, uint64_t gpu_addr,
                                uint32_t *ib_cmd, uint32_t ib_len);
 struct kfd2kgd_calls *amdgpu_amdkfd_gfx_7_get_functions(void);
 struct kfd2kgd_calls *amdgpu_amdkfd_gfx_8_0_get_functions(void);
+struct kfd2kgd_calls *amdgpu_amdkfd_gfx_9_0_get_functions(void);
 bool amdgpu_amdkfd_is_kfd_vmid(struct amdgpu_device *adev, u32 vmid);
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v7.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v7.c
index ea54e53172b9..0ff36d45a597 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v7.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v7.c
@@ -98,8 +98,6 @@ static void kgd_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
 static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
                                        unsigned int vmid);
-static int kgd_init_pipeline(struct kgd_dev *kgd, uint32_t pipe_id,
-                                uint32_t hpd_size, uint64_t hpd_gpu_addr);
 static int kgd_init_interrupts(struct kgd_dev *kgd, uint32_t pipe_id);
 static int kgd_hqd_load(struct kgd_dev *kgd, void *mqd, uint32_t pipe_id,
                        uint32_t queue_id, uint32_t __user *wptr,
@@ -183,7 +181,6 @@ static const struct kfd2kgd_calls kfd2kgd = {
        .free_pasid = amdgpu_pasid_free,
        .program_sh_mem_settings = kgd_program_sh_mem_settings,
        .set_pasid_vmid_mapping = kgd_set_pasid_vmid_mapping,
-        .init_pipeline = kgd_init_pipeline,
        .init_interrupts = kgd_init_interrupts,
        .hqd_load = kgd_hqd_load,
        .hqd_sdma_load = kgd_hqd_sdma_load,
@@ -309,13 +306,6 @@ static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
        return 0;
 }
-static int kgd_init_pipeline(struct kgd_dev *kgd, uint32_t pipe_id,
-                                uint32_t hpd_size, uint64_t hpd_gpu_addr)
-{
-        /* amdgpu owns the per-pipe state */
-        return 0;
-}
 static int kgd_init_interrupts(struct kgd_dev *kgd, uint32_t pipe_id)
 {
        struct amdgpu_device *adev = get_amdgpu_device(kgd);
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v8.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v8.c
index 89264c9a5e9f..6ef9762b4b00 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v8.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v8.c
@@ -57,8 +57,6 @@ static void kgd_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
                uint32_t sh_mem_bases);
 static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
                unsigned int vmid);
-static int kgd_init_pipeline(struct kgd_dev *kgd, uint32_t pipe_id,
-                uint32_t hpd_size, uint64_t hpd_gpu_addr);
 static int kgd_init_interrupts(struct kgd_dev *kgd, uint32_t pipe_id);
 static int kgd_hqd_load(struct kgd_dev *kgd, void *mqd, uint32_t pipe_id,
                        uint32_t queue_id, uint32_t __user *wptr,
@@ -141,7 +139,6 @@ static const struct kfd2kgd_calls kfd2kgd = {
        .free_pasid = amdgpu_pasid_free,
        .program_sh_mem_settings = kgd_program_sh_mem_settings,
        .set_pasid_vmid_mapping = kgd_set_pasid_vmid_mapping,
-        .init_pipeline = kgd_init_pipeline,
        .init_interrupts = kgd_init_interrupts,
        .hqd_load = kgd_hqd_load,
        .hqd_sdma_load = kgd_hqd_sdma_load,
@@ -270,13 +267,6 @@ static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
        return 0;
 }
-static int kgd_init_pipeline(struct kgd_dev *kgd, uint32_t pipe_id,
-                                uint32_t hpd_size, uint64_t hpd_gpu_addr)
-{
-        /* amdgpu owns the per-pipe state */
-        return 0;
-}
 static int kgd_init_interrupts(struct kgd_dev *kgd, uint32_t pipe_id)
 {
        struct amdgpu_device *adev = get_amdgpu_device(kgd);
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v9.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v9.c
new file mode 100644
index 000000000000..8f37991df61b
--- /dev/null
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gfx_v9.c
@@ -0,0 +1,1043 @@
+/*
+ * Copyright 2014-2018 Advanced Micro Devices, Inc.
+ *
+ * Permission is hereby granted, free of charge, to any person obtaining a
+ * copy of this software and associated documentation files (the "Software"),
+ * to deal in the Software without restriction, including without limitation
+ * the rights to use, copy, modify, merge, publish, distribute, sublicense,
+ * and/or sell copies of the Software, and to permit persons to whom the
+ * Software is furnished to do so, subject to the following conditions:
+ *
+ * The above copyright notice and this permission notice shall be included in
+ * all copies or substantial portions of the Software.
+ *
+ * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+ * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+ * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
+ * THE COPYRIGHT HOLDER(S) OR AUTHOR(S) BE LIABLE FOR ANY CLAIM, DAMAGES OR
+ * OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE,
+ * ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR
+ * OTHER DEALINGS IN THE SOFTWARE.
+ */
+#define pr_fmt(fmt) "kfd2kgd: " fmt
+#include <linux/module.h>
+#include <linux/fdtable.h>
+#include <linux/uaccess.h>
+#include <linux/firmware.h>
+#include <drm/drmP.h>
+#include "amdgpu.h"
+#include "amdgpu_amdkfd.h"
+#include "amdgpu_ucode.h"
+#include "soc15_hw_ip.h"
+#include "gc/gc_9_0_offset.h"
+#include "gc/gc_9_0_sh_mask.h"
+#include "vega10_enum.h"
+#include "sdma0/sdma0_4_0_offset.h"
+#include "sdma0/sdma0_4_0_sh_mask.h"
+#include "sdma1/sdma1_4_0_offset.h"
+#include "sdma1/sdma1_4_0_sh_mask.h"
+#include "athub/athub_1_0_offset.h"
+#include "athub/athub_1_0_sh_mask.h"
+#include "oss/osssys_4_0_offset.h"
+#include "oss/osssys_4_0_sh_mask.h"
+#include "soc15_common.h"
+#include "v9_structs.h"
+#include "soc15.h"
+#include "soc15d.h"
+/* HACK: MMHUB and GC both have VM-related register with the same
+ * names but different offsets. Define the MMHUB register we need here
+ * with a prefix. A proper solution would be to move the functions
+ * programming these registers into gfx_v9_0.c and mmhub_v1_0.c
+ * respectively.
+ */
+#define mmMMHUB_VM_INVALIDATE_ENG16_REQ                         0x06f3
+#define mmMMHUB_VM_INVALIDATE_ENG16_REQ_BASE_IDX                0
+#define mmMMHUB_VM_INVALIDATE_ENG16_ACK                         0x0705
+#define mmMMHUB_VM_INVALIDATE_ENG16_ACK_BASE_IDX                0
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_BASE_ADDR_LO32           0x072b
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_BASE_ADDR_LO32_BASE_IDX  0
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_BASE_ADDR_HI32           0x072c
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_BASE_ADDR_HI32_BASE_IDX  0
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_START_ADDR_LO32          0x074b
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_START_ADDR_LO32_BASE_IDX 0
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_START_ADDR_HI32          0x074c
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_START_ADDR_HI32_BASE_IDX 0
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_END_ADDR_LO32            0x076b
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_END_ADDR_LO32_BASE_IDX   0
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_END_ADDR_HI32            0x076c
+#define mmMMHUB_VM_CONTEXT0_PAGE_TABLE_END_ADDR_HI32_BASE_IDX   0
+#define mmMMHUB_VM_INVALIDATE_ENG16_ADDR_RANGE_LO32             0x0727
+#define mmMMHUB_VM_INVALIDATE_ENG16_ADDR_RANGE_LO32_BASE_IDX    0
+#define mmMMHUB_VM_INVALIDATE_ENG16_ADDR_RANGE_HI32             0x0728
+#define mmMMHUB_VM_INVALIDATE_ENG16_ADDR_RANGE_HI32_BASE_IDX    0
+#define V9_PIPE_PER_MEC         (4)
+#define V9_QUEUES_PER_PIPE_MEC  (8)
+enum hqd_dequeue_request_type {
+        NO_ACTION = 0,
+        DRAIN_PIPE,
+        RESET_WAVES
+};
+/*
+ * Register access functions
+ */
+static void kgd_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
+                uint32_t sh_mem_config,
+                uint32_t sh_mem_ape1_base, uint32_t sh_mem_ape1_limit,
+                uint32_t sh_mem_bases);
+static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
+                unsigned int vmid);
+static int kgd_init_interrupts(struct kgd_dev *kgd, uint32_t pipe_id);
+static int kgd_hqd_load(struct kgd_dev *kgd, void *mqd, uint32_t pipe_id,
+                        uint32_t queue_id, uint32_t __user *wptr,
+                        uint32_t wptr_shift, uint32_t wptr_mask,
+                        struct mm_struct *mm);
+static int kgd_hqd_dump(struct kgd_dev *kgd,
+                        uint32_t pipe_id, uint32_t queue_id,
+                        uint32_t (**dump)[2], uint32_t *n_regs);
+static int kgd_hqd_sdma_load(struct kgd_dev *kgd, void *mqd,
+                             uint32_t __user *wptr, struct mm_struct *mm);
+static int kgd_hqd_sdma_dump(struct kgd_dev *kgd,
+                             uint32_t engine_id, uint32_t queue_id,
+                             uint32_t (**dump)[2], uint32_t *n_regs);
+static bool kgd_hqd_is_occupied(struct kgd_dev *kgd, uint64_t queue_address,
+                uint32_t pipe_id, uint32_t queue_id);
+static bool kgd_hqd_sdma_is_occupied(struct kgd_dev *kgd, void *mqd);
+static int kgd_hqd_destroy(struct kgd_dev *kgd, void *mqd,
+                                enum kfd_preempt_type reset_type,
+                                unsigned int utimeout, uint32_t pipe_id,
+                                uint32_t queue_id);
+static int kgd_hqd_sdma_destroy(struct kgd_dev *kgd, void *mqd,
+                                unsigned int utimeout);
+static int kgd_address_watch_disable(struct kgd_dev *kgd);
+static int kgd_address_watch_execute(struct kgd_dev *kgd,
+                                        unsigned int watch_point_id,
+                                        uint32_t cntl_val,
+                                        uint32_t addr_hi,
+                                        uint32_t addr_lo);
+static int kgd_wave_control_execute(struct kgd_dev *kgd,
+                                        uint32_t gfx_index_val,
+                                        uint32_t sq_cmd);
+static uint32_t kgd_address_watch_get_offset(struct kgd_dev *kgd,
+                                        unsigned int watch_point_id,
+                                        unsigned int reg_offset);
+static bool get_atc_vmid_pasid_mapping_valid(struct kgd_dev *kgd,
+                uint8_t vmid);
+static uint16_t get_atc_vmid_pasid_mapping_pasid(struct kgd_dev *kgd,
+                uint8_t vmid);
+static void set_vm_context_page_table_base(struct kgd_dev *kgd, uint32_t vmid,
+                uint32_t page_table_base);
+static uint16_t get_fw_version(struct kgd_dev *kgd, enum kgd_engine_type type);
+static void set_scratch_backing_va(struct kgd_dev *kgd,
+                                        uint64_t va, uint32_t vmid);
+static int invalidate_tlbs(struct kgd_dev *kgd, uint16_t pasid);
+static int invalidate_tlbs_vmid(struct kgd_dev *kgd, uint16_t vmid);
+/* Because of REG_GET_FIELD() being used, we put this function in the
+ * asic specific file.
+ */
+static int amdgpu_amdkfd_get_tile_config(struct kgd_dev *kgd,
+                struct tile_config *config)
+{
+        struct amdgpu_device *adev = (struct amdgpu_device *)kgd;
+        config->gb_addr_config = adev->gfx.config.gb_addr_config;
+        config->tile_config_ptr = adev->gfx.config.tile_mode_array;
+        config->num_tile_configs =
+                        ARRAY_SIZE(adev->gfx.config.tile_mode_array);
+        config->macro_tile_config_ptr =
+                        adev->gfx.config.macrotile_mode_array;
+        config->num_macro_tile_configs =
+                        ARRAY_SIZE(adev->gfx.config.macrotile_mode_array);
+        return 0;
+}
+static const struct kfd2kgd_calls kfd2kgd = {
+        .init_gtt_mem_allocation = alloc_gtt_mem,
+        .free_gtt_mem = free_gtt_mem,
+        .get_local_mem_info = get_local_mem_info,
+        .get_gpu_clock_counter = get_gpu_clock_counter,
+        .get_max_engine_clock_in_mhz = get_max_engine_clock_in_mhz,
+        .alloc_pasid = amdgpu_pasid_alloc,
+        .free_pasid = amdgpu_pasid_free,
+        .program_sh_mem_settings = kgd_program_sh_mem_settings,
+        .set_pasid_vmid_mapping = kgd_set_pasid_vmid_mapping,
+        .init_interrupts = kgd_init_interrupts,
+        .hqd_load = kgd_hqd_load,
+        .hqd_sdma_load = kgd_hqd_sdma_load,
+        .hqd_dump = kgd_hqd_dump,
+        .hqd_sdma_dump = kgd_hqd_sdma_dump,
+        .hqd_is_occupied = kgd_hqd_is_occupied,
+        .hqd_sdma_is_occupied = kgd_hqd_sdma_is_occupied,
+        .hqd_destroy = kgd_hqd_destroy,
+        .hqd_sdma_destroy = kgd_hqd_sdma_destroy,
+        .address_watch_disable = kgd_address_watch_disable,
+        .address_watch_execute = kgd_address_watch_execute,
+        .wave_control_execute = kgd_wave_control_execute,
+        .address_watch_get_offset = kgd_address_watch_get_offset,
+        .get_atc_vmid_pasid_mapping_pasid =
+                        get_atc_vmid_pasid_mapping_pasid,
+        .get_atc_vmid_pasid_mapping_valid =
+                        get_atc_vmid_pasid_mapping_valid,
+        .get_fw_version = get_fw_version,
+        .set_scratch_backing_va = set_scratch_backing_va,
+        .get_tile_config = amdgpu_amdkfd_get_tile_config,
+        .get_cu_info = get_cu_info,
+        .get_vram_usage = amdgpu_amdkfd_get_vram_usage,
+        .create_process_vm = amdgpu_amdkfd_gpuvm_create_process_vm,
+        .acquire_process_vm = amdgpu_amdkfd_gpuvm_acquire_process_vm,
+        .destroy_process_vm = amdgpu_amdkfd_gpuvm_destroy_process_vm,
+        .get_process_page_dir = amdgpu_amdkfd_gpuvm_get_process_page_dir,
+        .set_vm_context_page_table_base = set_vm_context_page_table_base,
+        .alloc_memory_of_gpu = amdgpu_amdkfd_gpuvm_alloc_memory_of_gpu,
+        .free_memory_of_gpu = amdgpu_amdkfd_gpuvm_free_memory_of_gpu,
+        .map_memory_to_gpu = amdgpu_amdkfd_gpuvm_map_memory_to_gpu,
+        .unmap_memory_to_gpu = amdgpu_amdkfd_gpuvm_unmap_memory_from_gpu,
+        .sync_memory = amdgpu_amdkfd_gpuvm_sync_memory,
+        .map_gtt_bo_to_kernel = amdgpu_amdkfd_gpuvm_map_gtt_bo_to_kernel,
+        .restore_process_bos = amdgpu_amdkfd_gpuvm_restore_process_bos,
+        .invalidate_tlbs = invalidate_tlbs,
+        .invalidate_tlbs_vmid = invalidate_tlbs_vmid,
+        .submit_ib = amdgpu_amdkfd_submit_ib,
+};
+struct kfd2kgd_calls *amdgpu_amdkfd_gfx_9_0_get_functions(void)
+{
+        return (struct kfd2kgd_calls *)&kfd2kgd;
+}
+static inline struct amdgpu_device *get_amdgpu_device(struct kgd_dev *kgd)
+{
+        return (struct amdgpu_device *)kgd;
+}
+static void lock_srbm(struct kgd_dev *kgd, uint32_t mec, uint32_t pipe,
+                        uint32_t queue, uint32_t vmid)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        mutex_lock(&adev->srbm_mutex);
+        soc15_grbm_select(adev, mec, pipe, queue, vmid);
+}
+static void unlock_srbm(struct kgd_dev *kgd)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        soc15_grbm_select(adev, 0, 0, 0, 0);
+        mutex_unlock(&adev->srbm_mutex);
+}
+static void acquire_queue(struct kgd_dev *kgd, uint32_t pipe_id,
+                                uint32_t queue_id)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        uint32_t mec = (pipe_id / adev->gfx.mec.num_pipe_per_mec) + 1;
+        uint32_t pipe = (pipe_id % adev->gfx.mec.num_pipe_per_mec);
+        lock_srbm(kgd, mec, pipe, queue_id, 0);
+}
+static uint32_t get_queue_mask(struct amdgpu_device *adev,
+                               uint32_t pipe_id, uint32_t queue_id)
+{
+        unsigned int bit = (pipe_id * adev->gfx.mec.num_queue_per_pipe +
+                            queue_id) & 31;
+        return ((uint32_t)1) << bit;
+}
+static void release_queue(struct kgd_dev *kgd)
+{
+        unlock_srbm(kgd);
+}
+static void kgd_program_sh_mem_settings(struct kgd_dev *kgd, uint32_t vmid,
+                                        uint32_t sh_mem_config,
+                                        uint32_t sh_mem_ape1_base,
+                                        uint32_t sh_mem_ape1_limit,
+                                        uint32_t sh_mem_bases)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        lock_srbm(kgd, 0, 0, 0, vmid);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmSH_MEM_CONFIG), sh_mem_config);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmSH_MEM_BASES), sh_mem_bases);
+        /* APE1 no longer exists on GFX9 */
+        unlock_srbm(kgd);
+}
+static int kgd_set_pasid_vmid_mapping(struct kgd_dev *kgd, unsigned int pasid,
+                                        unsigned int vmid)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        /*
+         * We have to assume that there is no outstanding mapping.
+         * The ATC_VMID_PASID_MAPPING_UPDATE_STATUS bit could be 0 because
+         * a mapping is in progress or because a mapping finished
+         * and the SW cleared it.
+         * So the protocol is to always wait & clear.
+         */
+        uint32_t pasid_mapping = (pasid == 0) ? 0 : (uint32_t)pasid |
+                        ATC_VMID0_PASID_MAPPING__VALID_MASK;
+        /*
+         * need to do this twice, once for gfx and once for mmhub
+         * for ATC add 16 to VMID for mmhub, for IH different registers.
+         * ATC_VMID0..15 registers are separate from ATC_VMID16..31.
+         */
+        WREG32(SOC15_REG_OFFSET(ATHUB, 0, mmATC_VMID0_PASID_MAPPING) + vmid,
+               pasid_mapping);
+        while (!(RREG32(SOC15_REG_OFFSET(
+                                ATHUB, 0,
+                                mmATC_VMID_PASID_MAPPING_UPDATE_STATUS)) &
+                 (1U << vmid)))
+                cpu_relax();
+        WREG32(SOC15_REG_OFFSET(ATHUB, 0,
+                                mmATC_VMID_PASID_MAPPING_UPDATE_STATUS),
+               1U << vmid);
+        /* Mapping vmid to pasid also for IH block */
+        WREG32(SOC15_REG_OFFSET(OSSSYS, 0, mmIH_VMID_0_LUT) + vmid,
+               pasid_mapping);
+        WREG32(SOC15_REG_OFFSET(ATHUB, 0, mmATC_VMID16_PASID_MAPPING) + vmid,
+               pasid_mapping);
+        while (!(RREG32(SOC15_REG_OFFSET(
+                                ATHUB, 0,
+                                mmATC_VMID_PASID_MAPPING_UPDATE_STATUS)) &
+                 (1U << (vmid + 16))))
+                cpu_relax();
+        WREG32(SOC15_REG_OFFSET(ATHUB, 0,
+                                mmATC_VMID_PASID_MAPPING_UPDATE_STATUS),
+               1U << (vmid + 16));
+        /* Mapping vmid to pasid also for IH block */
+        WREG32(SOC15_REG_OFFSET(OSSSYS, 0, mmIH_VMID_0_LUT_MM) + vmid,
+               pasid_mapping);
+        return 0;
+}
+/* TODO - RING0 form of field is obsolete, seems to date back to SI
+ * but still works
+ */
+static int kgd_init_interrupts(struct kgd_dev *kgd, uint32_t pipe_id)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        uint32_t mec;
+        uint32_t pipe;
+        mec = (pipe_id / adev->gfx.mec.num_pipe_per_mec) + 1;
+        pipe = (pipe_id % adev->gfx.mec.num_pipe_per_mec);
+        lock_srbm(kgd, mec, pipe, 0, 0);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmCPC_INT_CNTL),
+                CP_INT_CNTL_RING0__TIME_STAMP_INT_ENABLE_MASK |
+                CP_INT_CNTL_RING0__OPCODE_ERROR_INT_ENABLE_MASK);
+        unlock_srbm(kgd);
+        return 0;
+}
+static uint32_t get_sdma_base_addr(struct amdgpu_device *adev,
+                                unsigned int engine_id,
+                                unsigned int queue_id)
+{
+        uint32_t base[2] = {
+                SOC15_REG_OFFSET(SDMA0, 0,
+                                 mmSDMA0_RLC0_RB_CNTL) - mmSDMA0_RLC0_RB_CNTL,
+                SOC15_REG_OFFSET(SDMA1, 0,
+                                 mmSDMA1_RLC0_RB_CNTL) - mmSDMA1_RLC0_RB_CNTL
+        };
+        uint32_t retval;
+        retval = base[engine_id] + queue_id * (mmSDMA0_RLC1_RB_CNTL -
+                                               mmSDMA0_RLC0_RB_CNTL);
+        pr_debug("sdma base address: 0x%x\n", retval);
+        return retval;
+}
+static inline struct v9_mqd *get_mqd(void *mqd)
+{
+        return (struct v9_mqd *)mqd;
+}
+static inline struct v9_sdma_mqd *get_sdma_mqd(void *mqd)
+{
+        return (struct v9_sdma_mqd *)mqd;
+}
+static int kgd_hqd_load(struct kgd_dev *kgd, void *mqd, uint32_t pipe_id,
+                        uint32_t queue_id, uint32_t __user *wptr,
+                        uint32_t wptr_shift, uint32_t wptr_mask,
+                        struct mm_struct *mm)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        struct v9_mqd *m;
+        uint32_t *mqd_hqd;
+        uint32_t reg, hqd_base, data;
+        m = get_mqd(mqd);
+        acquire_queue(kgd, pipe_id, queue_id);
+        /* HIQ is set during driver init period with vmid set to 0*/
+        if (m->cp_hqd_vmid == 0) {
+                uint32_t value, mec, pipe;
+                mec = (pipe_id / adev->gfx.mec.num_pipe_per_mec) + 1;
+                pipe = (pipe_id % adev->gfx.mec.num_pipe_per_mec);
+                pr_debug("kfd: set HIQ, mec:%d, pipe:%d, queue:%d.\n",
+                        mec, pipe, queue_id);
+                value = RREG32(SOC15_REG_OFFSET(GC, 0, mmRLC_CP_SCHEDULERS));
+                value = REG_SET_FIELD(value, RLC_CP_SCHEDULERS, scheduler1,
+                        ((mec << 5) | (pipe << 3) | queue_id | 0x80));
+                WREG32(SOC15_REG_OFFSET(GC, 0, mmRLC_CP_SCHEDULERS), value);
+        }
+        /* HQD registers extend from CP_MQD_BASE_ADDR to CP_HQD_EOP_WPTR_MEM. */
+        mqd_hqd = &m->cp_mqd_base_addr_lo;
+        hqd_base = SOC15_REG_OFFSET(GC, 0, mmCP_MQD_BASE_ADDR);
+        for (reg = hqd_base;
+             reg <= SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_WPTR_HI); reg++)
+                WREG32(reg, mqd_hqd[reg - hqd_base]);
+        /* Activate doorbell logic before triggering WPTR poll. */
+        data = REG_SET_FIELD(m->cp_hqd_pq_doorbell_control,
+                             CP_HQD_PQ_DOORBELL_CONTROL, DOORBELL_EN, 1);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_DOORBELL_CONTROL), data);
+        if (wptr) {
+                /* Don't read wptr with get_user because the user
+                 * context may not be accessible (if this function
+                 * runs in a work queue). Instead trigger a one-shot
+                 * polling read from memory in the CP. This assumes
+                 * that wptr is GPU-accessible in the queue's VMID via
+                 * ATC or SVM. WPTR==RPTR before starting the poll so
+                 * the CP starts fetching new commands from the right
+                 * place.
+                 *
+                 * Guessing a 64-bit WPTR from a 32-bit RPTR is a bit
+                 * tricky. Assume that the queue didn't overflow. The
+                 * number of valid bits in the 32-bit RPTR depends on
+                 * the queue size. The remaining bits are taken from
+                 * the saved 64-bit WPTR. If the WPTR wrapped, add the
+                 * queue size.
+                 */
+                uint32_t queue_size =
+                        2 << REG_GET_FIELD(m->cp_hqd_pq_control,
+                                           CP_HQD_PQ_CONTROL, QUEUE_SIZE);
+                uint64_t guessed_wptr = m->cp_hqd_pq_rptr & (queue_size - 1);
+                if ((m->cp_hqd_pq_wptr_lo & (queue_size - 1)) < guessed_wptr)
+                        guessed_wptr += queue_size;
+                guessed_wptr += m->cp_hqd_pq_wptr_lo & ~(queue_size - 1);
+                guessed_wptr += (uint64_t)m->cp_hqd_pq_wptr_hi << 32;
+                WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_WPTR_LO),
+                       lower_32_bits(guessed_wptr));
+                WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_WPTR_HI),
+                       upper_32_bits(guessed_wptr));
+                WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_WPTR_POLL_ADDR),
+                       lower_32_bits((uint64_t)wptr));
+                WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_WPTR_POLL_ADDR_HI),
+                       upper_32_bits((uint64_t)wptr));
+                WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_PQ_WPTR_POLL_CNTL1),
+                       get_queue_mask(adev, pipe_id, queue_id));
+        }
+        /* Start the EOP fetcher */
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_EOP_RPTR),
+               REG_SET_FIELD(m->cp_hqd_eop_rptr,
+                             CP_HQD_EOP_RPTR, INIT_FETCHER, 1));
+        data = REG_SET_FIELD(m->cp_hqd_active, CP_HQD_ACTIVE, ACTIVE, 1);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_ACTIVE), data);
+        release_queue(kgd);
+        return 0;
+}
+static int kgd_hqd_dump(struct kgd_dev *kgd,
+                        uint32_t pipe_id, uint32_t queue_id,
+                        uint32_t (**dump)[2], uint32_t *n_regs)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        uint32_t i = 0, reg;
+#define HQD_N_REGS 56
+#define DUMP_REG(addr) do {                             \
+                if (WARN_ON_ONCE(i >= HQD_N_REGS))      \
+                        break;                          \
+                (*dump)[i][0] = (addr) << 2;            \
+                (*dump)[i++][1] = RREG32(addr);         \
+        } while (0)
+        *dump = kmalloc(HQD_N_REGS*2*sizeof(uint32_t), GFP_KERNEL);
+        if (*dump == NULL)
+                return -ENOMEM;
+        acquire_queue(kgd, pipe_id, queue_id);
+        for (reg = SOC15_REG_OFFSET(GC, 0, mmCP_MQD_BASE_ADDR);
+             reg <= SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_WPTR_HI); reg++)
+                DUMP_REG(reg);
+        release_queue(kgd);
+        WARN_ON_ONCE(i != HQD_N_REGS);
+        *n_regs = i;
+        return 0;
+}
+static int kgd_hqd_sdma_load(struct kgd_dev *kgd, void *mqd,
+                             uint32_t __user *wptr, struct mm_struct *mm)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        struct v9_sdma_mqd *m;
+        uint32_t sdma_base_addr, sdmax_gfx_context_cntl;
+        unsigned long end_jiffies;
+        uint32_t data;
+        uint64_t data64;
+        uint64_t __user *wptr64 = (uint64_t __user *)wptr;
+        m = get_sdma_mqd(mqd);
+        sdma_base_addr = get_sdma_base_addr(adev, m->sdma_engine_id,
+                                            m->sdma_queue_id);
+        sdmax_gfx_context_cntl = m->sdma_engine_id ?
+                SOC15_REG_OFFSET(SDMA1, 0, mmSDMA1_GFX_CONTEXT_CNTL) :
+                SOC15_REG_OFFSET(SDMA0, 0, mmSDMA0_GFX_CONTEXT_CNTL);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_CNTL,
+                m->sdmax_rlcx_rb_cntl & (~SDMA0_RLC0_RB_CNTL__RB_ENABLE_MASK));
+        end_jiffies = msecs_to_jiffies(2000) + jiffies;
+        while (true) {
+                data = RREG32(sdma_base_addr + mmSDMA0_RLC0_CONTEXT_STATUS);
+                if (data & SDMA0_RLC0_CONTEXT_STATUS__IDLE_MASK)
+                        break;
+                if (time_after(jiffies, end_jiffies))
+                        return -ETIME;
+                usleep_range(500, 1000);
+        }
+        data = RREG32(sdmax_gfx_context_cntl);
+        data = REG_SET_FIELD(data, SDMA0_GFX_CONTEXT_CNTL,
+                             RESUME_CTX, 0);
+        WREG32(sdmax_gfx_context_cntl, data);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_DOORBELL_OFFSET,
+               m->sdmax_rlcx_doorbell_offset);
+        data = REG_SET_FIELD(m->sdmax_rlcx_doorbell, SDMA0_RLC0_DOORBELL,
+                             ENABLE, 1);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_DOORBELL, data);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_RPTR, m->sdmax_rlcx_rb_rptr);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_RPTR_HI,
+                                m->sdmax_rlcx_rb_rptr_hi);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_MINOR_PTR_UPDATE, 1);
+        if (read_user_wptr(mm, wptr64, data64)) {
+                WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_WPTR,
+                       lower_32_bits(data64));
+                WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_WPTR_HI,
+                       upper_32_bits(data64));
+        } else {
+                WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_WPTR,
+                       m->sdmax_rlcx_rb_rptr);
+                WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_WPTR_HI,
+                       m->sdmax_rlcx_rb_rptr_hi);
+        }
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_MINOR_PTR_UPDATE, 0);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_BASE, m->sdmax_rlcx_rb_base);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_BASE_HI,
+                        m->sdmax_rlcx_rb_base_hi);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_RPTR_ADDR_LO,
+                        m->sdmax_rlcx_rb_rptr_addr_lo);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_RPTR_ADDR_HI,
+                        m->sdmax_rlcx_rb_rptr_addr_hi);
+        data = REG_SET_FIELD(m->sdmax_rlcx_rb_cntl, SDMA0_RLC0_RB_CNTL,
+                             RB_ENABLE, 1);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_CNTL, data);
+        return 0;
+}
+static int kgd_hqd_sdma_dump(struct kgd_dev *kgd,
+                             uint32_t engine_id, uint32_t queue_id,
+                             uint32_t (**dump)[2], uint32_t *n_regs)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        uint32_t sdma_base_addr = get_sdma_base_addr(adev, engine_id, queue_id);
+        uint32_t i = 0, reg;
+#undef HQD_N_REGS
+#define HQD_N_REGS (19+6+7+10)
+        *dump = kmalloc(HQD_N_REGS*2*sizeof(uint32_t), GFP_KERNEL);
+        if (*dump == NULL)
+                return -ENOMEM;
+        for (reg = mmSDMA0_RLC0_RB_CNTL; reg <= mmSDMA0_RLC0_DOORBELL; reg++)
+                DUMP_REG(sdma_base_addr + reg);
+        for (reg = mmSDMA0_RLC0_STATUS; reg <= mmSDMA0_RLC0_CSA_ADDR_HI; reg++)
+                DUMP_REG(sdma_base_addr + reg);
+        for (reg = mmSDMA0_RLC0_IB_SUB_REMAIN;
+             reg <= mmSDMA0_RLC0_MINOR_PTR_UPDATE; reg++)
+                DUMP_REG(sdma_base_addr + reg);
+        for (reg = mmSDMA0_RLC0_MIDCMD_DATA0;
+             reg <= mmSDMA0_RLC0_MIDCMD_CNTL; reg++)
+                DUMP_REG(sdma_base_addr + reg);
+        WARN_ON_ONCE(i != HQD_N_REGS);
+        *n_regs = i;
+        return 0;
+}
+static bool kgd_hqd_is_occupied(struct kgd_dev *kgd, uint64_t queue_address,
+                                uint32_t pipe_id, uint32_t queue_id)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        uint32_t act;
+        bool retval = false;
+        uint32_t low, high;
+        acquire_queue(kgd, pipe_id, queue_id);
+        act = RREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_ACTIVE));
+        if (act) {
+                low = lower_32_bits(queue_address >> 8);
+                high = upper_32_bits(queue_address >> 8);
+                if (low == RREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_BASE)) &&
+                   high == RREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_PQ_BASE_HI)))
+                        retval = true;
+        }
+        release_queue(kgd);
+        return retval;
+}
+static bool kgd_hqd_sdma_is_occupied(struct kgd_dev *kgd, void *mqd)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        struct v9_sdma_mqd *m;
+        uint32_t sdma_base_addr;
+        uint32_t sdma_rlc_rb_cntl;
+        m = get_sdma_mqd(mqd);
+        sdma_base_addr = get_sdma_base_addr(adev, m->sdma_engine_id,
+                                            m->sdma_queue_id);
+        sdma_rlc_rb_cntl = RREG32(sdma_base_addr + mmSDMA0_RLC0_RB_CNTL);
+        if (sdma_rlc_rb_cntl & SDMA0_RLC0_RB_CNTL__RB_ENABLE_MASK)
+                return true;
+        return false;
+}
+static int kgd_hqd_destroy(struct kgd_dev *kgd, void *mqd,
+                                enum kfd_preempt_type reset_type,
+                                unsigned int utimeout, uint32_t pipe_id,
+                                uint32_t queue_id)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        enum hqd_dequeue_request_type type;
+        unsigned long end_jiffies;
+        uint32_t temp;
+        struct v9_mqd *m = get_mqd(mqd);
+        acquire_queue(kgd, pipe_id, queue_id);
+        if (m->cp_hqd_vmid == 0)
+                WREG32_FIELD15(GC, 0, RLC_CP_SCHEDULERS, scheduler1, 0);
+        switch (reset_type) {
+        case KFD_PREEMPT_TYPE_WAVEFRONT_DRAIN:
+                type = DRAIN_PIPE;
+                break;
+        case KFD_PREEMPT_TYPE_WAVEFRONT_RESET:
+                type = RESET_WAVES;
+                break;
+        default:
+                type = DRAIN_PIPE;
+                break;
+        }
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_DEQUEUE_REQUEST), type);
+        end_jiffies = (utimeout * HZ / 1000) + jiffies;
+        while (true) {
+                temp = RREG32(SOC15_REG_OFFSET(GC, 0, mmCP_HQD_ACTIVE));
+                if (!(temp & CP_HQD_ACTIVE__ACTIVE_MASK))
+                        break;
+                if (time_after(jiffies, end_jiffies)) {
+                        pr_err("cp queue preemption time out.\n");
+                        release_queue(kgd);
+                        return -ETIME;
+                }
+                usleep_range(500, 1000);
+        }
+        release_queue(kgd);
+        return 0;
+}
+static int kgd_hqd_sdma_destroy(struct kgd_dev *kgd, void *mqd,
+                                unsigned int utimeout)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        struct v9_sdma_mqd *m;
+        uint32_t sdma_base_addr;
+        uint32_t temp;
+        unsigned long end_jiffies = (utimeout * HZ / 1000) + jiffies;
+        m = get_sdma_mqd(mqd);
+        sdma_base_addr = get_sdma_base_addr(adev, m->sdma_engine_id,
+                                            m->sdma_queue_id);
+        temp = RREG32(sdma_base_addr + mmSDMA0_RLC0_RB_CNTL);
+        temp = temp & ~SDMA0_RLC0_RB_CNTL__RB_ENABLE_MASK;
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_CNTL, temp);
+        while (true) {
+                temp = RREG32(sdma_base_addr + mmSDMA0_RLC0_CONTEXT_STATUS);
+                if (temp & SDMA0_RLC0_CONTEXT_STATUS__IDLE_MASK)
+                        break;
+                if (time_after(jiffies, end_jiffies))
+                        return -ETIME;
+                usleep_range(500, 1000);
+        }
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_DOORBELL, 0);
+        WREG32(sdma_base_addr + mmSDMA0_RLC0_RB_CNTL,
+                RREG32(sdma_base_addr + mmSDMA0_RLC0_RB_CNTL) |
+                SDMA0_RLC0_RB_CNTL__RB_ENABLE_MASK);
+        m->sdmax_rlcx_rb_rptr = RREG32(sdma_base_addr + mmSDMA0_RLC0_RB_RPTR);
+        m->sdmax_rlcx_rb_rptr_hi =
+                RREG32(sdma_base_addr + mmSDMA0_RLC0_RB_RPTR_HI);
+        return 0;
+}
+static bool get_atc_vmid_pasid_mapping_valid(struct kgd_dev *kgd,
+                                                        uint8_t vmid)
+{
+        uint32_t reg;
+        struct amdgpu_device *adev = (struct amdgpu_device *) kgd;
+        reg = RREG32(SOC15_REG_OFFSET(ATHUB, 0, mmATC_VMID0_PASID_MAPPING)
+                     + vmid);
+        return reg & ATC_VMID0_PASID_MAPPING__VALID_MASK;
+}
+static uint16_t get_atc_vmid_pasid_mapping_pasid(struct kgd_dev *kgd,
+                                                                uint8_t vmid)
+{
+        uint32_t reg;
+        struct amdgpu_device *adev = (struct amdgpu_device *) kgd;
+        reg = RREG32(SOC15_REG_OFFSET(ATHUB, 0, mmATC_VMID0_PASID_MAPPING)
+                     + vmid);
+        return reg & ATC_VMID0_PASID_MAPPING__PASID_MASK;
+}
+static void write_vmid_invalidate_request(struct kgd_dev *kgd, uint8_t vmid)
+{
+        struct amdgpu_device *adev = (struct amdgpu_device *) kgd;
+        uint32_t req = (1 << vmid) |
+                (0 << VM_INVALIDATE_ENG16_REQ__FLUSH_TYPE__SHIFT) | /* legacy */
+                VM_INVALIDATE_ENG16_REQ__INVALIDATE_L2_PTES_MASK |
+                VM_INVALIDATE_ENG16_REQ__INVALIDATE_L2_PDE0_MASK |
+                VM_INVALIDATE_ENG16_REQ__INVALIDATE_L2_PDE1_MASK |
+                VM_INVALIDATE_ENG16_REQ__INVALIDATE_L2_PDE2_MASK |
+                VM_INVALIDATE_ENG16_REQ__INVALIDATE_L1_PTES_MASK;
+        mutex_lock(&adev->srbm_mutex);
+        /* Use legacy mode tlb invalidation.
+         *
+         * Currently on Raven the code below is broken for anything but
+         * legacy mode due to a MMHUB power gating problem. A workaround
+         * is for MMHUB to wait until the condition PER_VMID_INVALIDATE_REQ
+         * == PER_VMID_INVALIDATE_ACK instead of simply waiting for the ack
+         * bit.
+         *
+         * TODO 1: agree on the right set of invalidation registers for
+         * KFD use. Use the last one for now. Invalidate both GC and
+         * MMHUB.
+         *
+         * TODO 2: support range-based invalidation, requires kfg2kgd
+         * interface change
+         */
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_INVALIDATE_ENG16_ADDR_RANGE_LO32),
+                                0xffffffff);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_INVALIDATE_ENG16_ADDR_RANGE_HI32),
+                                0x0000001f);
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0,
+                                mmMMHUB_VM_INVALIDATE_ENG16_ADDR_RANGE_LO32),
+                                0xffffffff);
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0,
+                                mmMMHUB_VM_INVALIDATE_ENG16_ADDR_RANGE_HI32),
+                                0x0000001f);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_INVALIDATE_ENG16_REQ), req);
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0, mmMMHUB_VM_INVALIDATE_ENG16_REQ),
+                                req);
+        while (!(RREG32(SOC15_REG_OFFSET(GC, 0, mmVM_INVALIDATE_ENG16_ACK)) &
+                                        (1 << vmid)))
+                cpu_relax();
+        while (!(RREG32(SOC15_REG_OFFSET(MMHUB, 0,
+                                        mmMMHUB_VM_INVALIDATE_ENG16_ACK)) &
+                                        (1 << vmid)))
+                cpu_relax();
+        mutex_unlock(&adev->srbm_mutex);
+}
+static int invalidate_tlbs_with_kiq(struct amdgpu_device *adev, uint16_t pasid)
+{
+        signed long r;
+        uint32_t seq;
+        struct amdgpu_ring *ring = &adev->gfx.kiq.ring;
+        spin_lock(&adev->gfx.kiq.ring_lock);
+        amdgpu_ring_alloc(ring, 12); /* fence + invalidate_tlbs package*/
+        amdgpu_ring_write(ring, PACKET3(PACKET3_INVALIDATE_TLBS, 0));
+        amdgpu_ring_write(ring,
+                        PACKET3_INVALIDATE_TLBS_DST_SEL(1) |
+                        PACKET3_INVALIDATE_TLBS_ALL_HUB(1) |
+                        PACKET3_INVALIDATE_TLBS_PASID(pasid) |
+                        PACKET3_INVALIDATE_TLBS_FLUSH_TYPE(0)); /* legacy */
+        amdgpu_fence_emit_polling(ring, &seq);
+        amdgpu_ring_commit(ring);
+        spin_unlock(&adev->gfx.kiq.ring_lock);
+        r = amdgpu_fence_wait_polling(ring, seq, adev->usec_timeout);
+        if (r < 1) {
+                DRM_ERROR("wait for kiq fence error: %ld.\n", r);
+                return -ETIME;
+        }
+        return 0;
+}
+static int invalidate_tlbs(struct kgd_dev *kgd, uint16_t pasid)
+{
+        struct amdgpu_device *adev = (struct amdgpu_device *) kgd;
+        int vmid;
+        struct amdgpu_ring *ring = &adev->gfx.kiq.ring;
+        if (ring->ready)
+                return invalidate_tlbs_with_kiq(adev, pasid);
+        for (vmid = 0; vmid < 16; vmid++) {
+                if (!amdgpu_amdkfd_is_kfd_vmid(adev, vmid))
+                        continue;
+                if (get_atc_vmid_pasid_mapping_valid(kgd, vmid)) {
+                        if (get_atc_vmid_pasid_mapping_pasid(kgd, vmid)
+                                == pasid) {
+                                write_vmid_invalidate_request(kgd, vmid);
+                                break;
+                        }
+                }
+        }
+        return 0;
+}
+static int invalidate_tlbs_vmid(struct kgd_dev *kgd, uint16_t vmid)
+{
+        struct amdgpu_device *adev = (struct amdgpu_device *) kgd;
+        if (!amdgpu_amdkfd_is_kfd_vmid(adev, vmid)) {
+                pr_err("non kfd vmid %d\n", vmid);
+                return 0;
+        }
+        write_vmid_invalidate_request(kgd, vmid);
+        return 0;
+}
+static int kgd_address_watch_disable(struct kgd_dev *kgd)
+{
+        return 0;
+}
+static int kgd_address_watch_execute(struct kgd_dev *kgd,
+                                        unsigned int watch_point_id,
+                                        uint32_t cntl_val,
+                                        uint32_t addr_hi,
+                                        uint32_t addr_lo)
+{
+        return 0;
+}
+static int kgd_wave_control_execute(struct kgd_dev *kgd,
+                                        uint32_t gfx_index_val,
+                                        uint32_t sq_cmd)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        uint32_t data = 0;
+        mutex_lock(&adev->grbm_idx_mutex);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmGRBM_GFX_INDEX), gfx_index_val);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmSQ_CMD), sq_cmd);
+        data = REG_SET_FIELD(data, GRBM_GFX_INDEX,
+                INSTANCE_BROADCAST_WRITES, 1);
+        data = REG_SET_FIELD(data, GRBM_GFX_INDEX,
+                SH_BROADCAST_WRITES, 1);
+        data = REG_SET_FIELD(data, GRBM_GFX_INDEX,
+                SE_BROADCAST_WRITES, 1);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmGRBM_GFX_INDEX), data);
+        mutex_unlock(&adev->grbm_idx_mutex);
+        return 0;
+}
+static uint32_t kgd_address_watch_get_offset(struct kgd_dev *kgd,
+                                        unsigned int watch_point_id,
+                                        unsigned int reg_offset)
+{
+        return 0;
+}
+static void set_scratch_backing_va(struct kgd_dev *kgd,
+                                        uint64_t va, uint32_t vmid)
+{
+        /* No longer needed on GFXv9. The scratch base address is
+         * passed to the shader by the CP. It's the user mode driver's
+         * responsibility.
+         */
+}
+/* FIXME: Does this need to be ASIC-specific code? */
+static uint16_t get_fw_version(struct kgd_dev *kgd, enum kgd_engine_type type)
+{
+        struct amdgpu_device *adev = (struct amdgpu_device *) kgd;
+        const union amdgpu_firmware_header *hdr;
+        switch (type) {
+        case KGD_ENGINE_PFP:
+                hdr = (const union amdgpu_firmware_header *)adev->gfx.pfp_fw->data;
+                break;
+        case KGD_ENGINE_ME:
+                hdr = (const union amdgpu_firmware_header *)adev->gfx.me_fw->data;
+                break;
+        case KGD_ENGINE_CE:
+                hdr = (const union amdgpu_firmware_header *)adev->gfx.ce_fw->data;
+                break;
+        case KGD_ENGINE_MEC1:
+                hdr = (const union amdgpu_firmware_header *)adev->gfx.mec_fw->data;
+                break;
+        case KGD_ENGINE_MEC2:
+                hdr = (const union amdgpu_firmware_header *)adev->gfx.mec2_fw->data;
+                break;
+        case KGD_ENGINE_RLC:
+                hdr = (const union amdgpu_firmware_header *)adev->gfx.rlc_fw->data;
+                break;
+        case KGD_ENGINE_SDMA1:
+                hdr = (const union amdgpu_firmware_header *)adev->sdma.instance[0].fw->data;
+                break;
+        case KGD_ENGINE_SDMA2:
+                hdr = (const union amdgpu_firmware_header *)adev->sdma.instance[1].fw->data;
+                break;
+        default:
+                return 0;
+        }
+        if (hdr == NULL)
+                return 0;
+        /* Only 12 bit in use*/
+        return hdr->common.ucode_version;
+}
+static void set_vm_context_page_table_base(struct kgd_dev *kgd, uint32_t vmid,
+                uint32_t page_table_base)
+{
+        struct amdgpu_device *adev = get_amdgpu_device(kgd);
+        uint64_t base = (uint64_t)page_table_base << PAGE_SHIFT |
+                AMDGPU_PTE_VALID;
+        if (!amdgpu_amdkfd_is_kfd_vmid(adev, vmid)) {
+                pr_err("trying to set page table base for wrong VMID %u\n",
+                       vmid);
+                return;
+        }
+        /* TODO: take advantage of per-process address space size. For
+         * now, all processes share the same address space size, like
+         * on GFX8 and older.
+         */
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0, mmMMHUB_VM_CONTEXT0_PAGE_TABLE_START_ADDR_LO32) + (vmid*2), 0);
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0, mmMMHUB_VM_CONTEXT0_PAGE_TABLE_START_ADDR_HI32) + (vmid*2), 0);
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0, mmMMHUB_VM_CONTEXT0_PAGE_TABLE_END_ADDR_LO32) + (vmid*2),
+                        lower_32_bits(adev->vm_manager.max_pfn - 1));
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0, mmMMHUB_VM_CONTEXT0_PAGE_TABLE_END_ADDR_HI32) + (vmid*2),
+                        upper_32_bits(adev->vm_manager.max_pfn - 1));
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0, mmMMHUB_VM_CONTEXT0_PAGE_TABLE_BASE_ADDR_LO32) + (vmid*2), lower_32_bits(base));
+        WREG32(SOC15_REG_OFFSET(MMHUB, 0, mmMMHUB_VM_CONTEXT0_PAGE_TABLE_BASE_ADDR_HI32) + (vmid*2), upper_32_bits(base));
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_CONTEXT0_PAGE_TABLE_START_ADDR_LO32) + (vmid*2), 0);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_CONTEXT0_PAGE_TABLE_START_ADDR_HI32) + (vmid*2), 0);
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_CONTEXT0_PAGE_TABLE_END_ADDR_LO32) + (vmid*2),
+                        lower_32_bits(adev->vm_manager.max_pfn - 1));
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_CONTEXT0_PAGE_TABLE_END_ADDR_HI32) + (vmid*2),
+                        upper_32_bits(adev->vm_manager.max_pfn - 1));
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_CONTEXT0_PAGE_TABLE_BASE_ADDR_LO32) + (vmid*2), lower_32_bits(base));
+        WREG32(SOC15_REG_OFFSET(GC, 0, mmVM_CONTEXT0_PAGE_TABLE_BASE_ADDR_HI32) + (vmid*2), upper_32_bits(base));
+}
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gpuvm.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gpuvm.c
index 1d6e1479da38..5296e24fd662 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gpuvm.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_amdkfd_gpuvm.c
@@ -23,6 +23,7 @@
 #define pr_fmt(fmt) "kfd2kgd: " fmt
 #include <linux/list.h>
+#include <linux/sched/mm.h>
 #include <drm/drmP.h>
 #include "amdgpu_object.h"
 #include "amdgpu_vm.h"
@@ -33,10 +34,20 @@
 */
 #define VI_BO_SIZE_ALIGN (0x8000)
+/* BO flag to indicate a KFD userptr BO */
+#define AMDGPU_AMDKFD_USERPTR_BO (1ULL << 63)
+/* Userptr restore delay, just long enough to allow consecutive VM
+ * changes to accumulate
+ */
+#define AMDGPU_USERPTR_RESTORE_DELAY_MS 1
 /* Impose limit on how much memory KFD can use */
 static struct {
        uint64_t max_system_mem_limit;
+        uint64_t max_userptr_mem_limit;
        int64_t system_mem_used;
+        int64_t userptr_mem_used;
        spinlock_t mem_limit_lock;
 } kfd_mem_limit;
@@ -57,6 +68,7 @@ static const char * const domain_bit_to_string[] = {
 #define domain_string(domain) domain_bit_to_string[ffs(domain)-1]
+static void amdgpu_amdkfd_restore_userptr_worker(struct work_struct *work);
 static inline struct amdgpu_device *get_amdgpu_device(struct kgd_dev *kgd)
@@ -78,6 +90,7 @@ static bool check_if_add_bo_to_vm(struct amdgpu_vm *avm,
 /* Set memory usage limits. Current, limits are
 *  System (kernel) memory - 3/8th System RAM
+ *  Userptr memory - 3/4th System RAM
 */
 void amdgpu_amdkfd_gpuvm_init_mem_limits(void)
 {
@@ -90,8 +103,10 @@ void amdgpu_amdkfd_gpuvm_init_mem_limits(void)
        spin_lock_init(&kfd_mem_limit.mem_limit_lock);
        kfd_mem_limit.max_system_mem_limit = (mem >> 1) - (mem >> 3);
-        pr_debug("Kernel memory limit %lluM\n",
+        kfd_mem_limit.max_userptr_mem_limit = mem - (mem >> 2);
-                (kfd_mem_limit.max_system_mem_limit >> 20));
+        pr_debug("Kernel memory limit %lluM, userptr limit %lluM\n",
+                (kfd_mem_limit.max_system_mem_limit >> 20),
+                (kfd_mem_limit.max_userptr_mem_limit >> 20));
 }
 static int amdgpu_amdkfd_reserve_system_mem_limit(struct amdgpu_device *adev,
@@ -111,6 +126,16 @@ static int amdgpu_amdkfd_reserve_system_mem_limit(struct amdgpu_device *adev,
                        goto err_no_mem;
                }
                kfd_mem_limit.system_mem_used += (acc_size + size);
+        } else if (domain == AMDGPU_GEM_DOMAIN_CPU) {
+                if ((kfd_mem_limit.system_mem_used + acc_size >
+                        kfd_mem_limit.max_system_mem_limit) ||
+                        (kfd_mem_limit.userptr_mem_used + (size + acc_size) >
+                        kfd_mem_limit.max_userptr_mem_limit)) {
+                        ret = -ENOMEM;
+                        goto err_no_mem;
+                }
+                kfd_mem_limit.system_mem_used += acc_size;
+                kfd_mem_limit.userptr_mem_used += size;
        }
 err_no_mem:
        spin_unlock(&kfd_mem_limit.mem_limit_lock);
@@ -126,10 +151,16 @@ static void unreserve_system_mem_limit(struct amdgpu_device *adev,
                                       sizeof(struct amdgpu_bo));
        spin_lock(&kfd_mem_limit.mem_limit_lock);
-        if (domain == AMDGPU_GEM_DOMAIN_GTT)
+        if (domain == AMDGPU_GEM_DOMAIN_GTT) {
                kfd_mem_limit.system_mem_used -= (acc_size + size);
+        } else if (domain == AMDGPU_GEM_DOMAIN_CPU) {
+                kfd_mem_limit.system_mem_used -= acc_size;
+                kfd_mem_limit.userptr_mem_used -= size;
+        }
        WARN_ONCE(kfd_mem_limit.system_mem_used < 0,
                  "kfd system memory accounting unbalanced");
+        WARN_ONCE(kfd_mem_limit.userptr_mem_used < 0,
+                  "kfd userptr memory accounting unbalanced");
        spin_unlock(&kfd_mem_limit.mem_limit_lock);
 }
@@ -138,12 +169,17 @@ void amdgpu_amdkfd_unreserve_system_memory_limit(struct amdgpu_bo *bo)
 {
        spin_lock(&kfd_mem_limit.mem_limit_lock);
-        if (bo->preferred_domains == AMDGPU_GEM_DOMAIN_GTT) {
+        if (bo->flags & AMDGPU_AMDKFD_USERPTR_BO) {
+                kfd_mem_limit.system_mem_used -= bo->tbo.acc_size;
+                kfd_mem_limit.userptr_mem_used -= amdgpu_bo_size(bo);
+        } else if (bo->preferred_domains == AMDGPU_GEM_DOMAIN_GTT) {
                kfd_mem_limit.system_mem_used -=
                        (bo->tbo.acc_size + amdgpu_bo_size(bo));
        }
        WARN_ONCE(kfd_mem_limit.system_mem_used < 0,
                  "kfd system memory accounting unbalanced");
+        WARN_ONCE(kfd_mem_limit.userptr_mem_used < 0,
+                  "kfd userptr memory accounting unbalanced");
        spin_unlock(&kfd_mem_limit.mem_limit_lock);
 }
@@ -506,7 +542,8 @@ static void remove_bo_from_vm(struct amdgpu_device *adev,
 }
 static void add_kgd_mem_to_kfd_bo_list(struct kgd_mem *mem,
-                                struct amdkfd_process_info *process_info)
+                                struct amdkfd_process_info *process_info,
+                                bool userptr)
 {
        struct ttm_validate_buffer *entry = &mem->validate_list;
        struct amdgpu_bo *bo = mem->bo;
@@ -515,10 +552,95 @@ static void add_kgd_mem_to_kfd_bo_list(struct kgd_mem *mem,
        entry->shared = true;
        entry->bo = &bo->tbo;
        mutex_lock(&process_info->lock);
-        list_add_tail(&entry->head, &process_info->kfd_bo_list);
+        if (userptr)
+                list_add_tail(&entry->head, &process_info->userptr_valid_list);
+        else
+                list_add_tail(&entry->head, &process_info->kfd_bo_list);
        mutex_unlock(&process_info->lock);
 }
+/* Initializes user pages. It registers the MMU notifier and validates
+ * the userptr BO in the GTT domain.
+ *
+ * The BO must already be on the userptr_valid_list. Otherwise an
+ * eviction and restore may happen that leaves the new BO unmapped
+ * with the user mode queues running.
+ *
+ * Takes the process_info->lock to protect against concurrent restore
+ * workers.
+ *
+ * Returns 0 for success, negative errno for errors.
+ */
+static int init_user_pages(struct kgd_mem *mem, struct mm_struct *mm,
+                           uint64_t user_addr)
+{
+        struct amdkfd_process_info *process_info = mem->process_info;
+        struct amdgpu_bo *bo = mem->bo;
+        struct ttm_operation_ctx ctx = { true, false };
+        int ret = 0;
+        mutex_lock(&process_info->lock);
+        ret = amdgpu_ttm_tt_set_userptr(bo->tbo.ttm, user_addr, 0);
+        if (ret) {
+                pr_err("%s: Failed to set userptr: %d\n", __func__, ret);
+                goto out;
+        }
+        ret = amdgpu_mn_register(bo, user_addr);
+        if (ret) {
+                pr_err("%s: Failed to register MMU notifier: %d\n",
+                       __func__, ret);
+                goto out;
+        }
+        /* If no restore worker is running concurrently, user_pages
+         * should not be allocated
+         */
+        WARN(mem->user_pages, "Leaking user_pages array");
+        mem->user_pages = kvmalloc_array(bo->tbo.ttm->num_pages,
+                                           sizeof(struct page *),
+                                           GFP_KERNEL | __GFP_ZERO);
+        if (!mem->user_pages) {
+                pr_err("%s: Failed to allocate pages array\n", __func__);
+                ret = -ENOMEM;
+                goto unregister_out;
+        }
+        ret = amdgpu_ttm_tt_get_user_pages(bo->tbo.ttm, mem->user_pages);
+        if (ret) {
+                pr_err("%s: Failed to get user pages: %d\n", __func__, ret);
+                goto free_out;
+        }
+        amdgpu_ttm_tt_set_user_pages(bo->tbo.ttm, mem->user_pages);
+        ret = amdgpu_bo_reserve(bo, true);
+        if (ret) {
+                pr_err("%s: Failed to reserve BO\n", __func__);
+                goto release_out;
+        }
+        amdgpu_ttm_placement_from_domain(bo, mem->domain);
+        ret = ttm_bo_validate(&bo->tbo, &bo->placement, &ctx);
+        if (ret)
+                pr_err("%s: failed to validate BO\n", __func__);
+        amdgpu_bo_unreserve(bo);
+release_out:
+        if (ret)
+                release_pages(mem->user_pages, bo->tbo.ttm->num_pages);
+free_out:
+        kvfree(mem->user_pages);
+        mem->user_pages = NULL;
+unregister_out:
+        if (ret)
+                amdgpu_mn_unregister(bo);
+out:
+        mutex_unlock(&process_info->lock);
+        return ret;
+}
 /* Reserving a BO and its page table BOs must happen atomically to
 * avoid deadlocks. Some operations update multiple VMs at once. Track
 * all the reservation info in a context structure. Optionally a sync
@@ -748,7 +870,8 @@ static int update_gpuvm_pte(struct amdgpu_device *adev,
 }
 static int map_bo_to_gpuvm(struct amdgpu_device *adev,
-                struct kfd_bo_va_list *entry, struct amdgpu_sync *sync)
+                struct kfd_bo_va_list *entry, struct amdgpu_sync *sync,
+                bool no_update_pte)
 {
        int ret;
@@ -762,6 +885,9 @@ static int map_bo_to_gpuvm(struct amdgpu_device *adev,
                return ret;
        }
+        if (no_update_pte)
+                return 0;
        ret = update_gpuvm_pte(adev, entry, sync);
        if (ret) {
                pr_err("update_gpuvm_pte() failed\n");
@@ -820,6 +946,8 @@ static int init_kfd_vm(struct amdgpu_vm *vm, void **process_info,
                mutex_init(&info->lock);
                INIT_LIST_HEAD(&info->vm_list_head);
                INIT_LIST_HEAD(&info->kfd_bo_list);
+                INIT_LIST_HEAD(&info->userptr_valid_list);
+                INIT_LIST_HEAD(&info->userptr_inval_list);
                info->eviction_fence =
                        amdgpu_amdkfd_fence_create(dma_fence_context_alloc(1),
@@ -830,6 +958,11 @@ static int init_kfd_vm(struct amdgpu_vm *vm, void **process_info,
                        goto create_evict_fence_fail;
                }
+                info->pid = get_task_pid(current->group_leader, PIDTYPE_PID);
+                atomic_set(&info->evicted_bos, 0);
+                INIT_DELAYED_WORK(&info->restore_userptr_work,
+                                  amdgpu_amdkfd_restore_userptr_worker);
                *process_info = info;
                *ef = dma_fence_get(&info->eviction_fence->base);
        }
@@ -872,6 +1005,7 @@ reserve_pd_fail:
                dma_fence_put(*ef);
                *ef = NULL;
                *process_info = NULL;
+                put_pid(info->pid);
 create_evict_fence_fail:
                mutex_destroy(&info->lock);
                kfree(info);
@@ -967,8 +1101,12 @@ void amdgpu_amdkfd_gpuvm_destroy_cb(struct amdgpu_device *adev,
        /* Release per-process resources when last compute VM is destroyed */
        if (!process_info->n_vms) {
                WARN_ON(!list_empty(&process_info->kfd_bo_list));
+                WARN_ON(!list_empty(&process_info->userptr_valid_list));
+                WARN_ON(!list_empty(&process_info->userptr_inval_list));
                dma_fence_put(&process_info->eviction_fence->base);
+                cancel_delayed_work_sync(&process_info->restore_userptr_work);
+                put_pid(process_info->pid);
                mutex_destroy(&process_info->lock);
                kfree(process_info);
        }
@@ -1003,9 +1141,10 @@ int amdgpu_amdkfd_gpuvm_alloc_memory_of_gpu(
 {
        struct amdgpu_device *adev = get_amdgpu_device(kgd);
        struct amdgpu_vm *avm = (struct amdgpu_vm *)vm;
+        uint64_t user_addr = 0;
        struct amdgpu_bo *bo;
        int byte_align;
-        u32 alloc_domain;
+        u32 domain, alloc_domain;
        u64 alloc_flags;
        uint32_t mapping_flags;
        int ret;
@@ -1014,14 +1153,21 @@ int amdgpu_amdkfd_gpuvm_alloc_memory_of_gpu(
         * Check on which domain to allocate BO
         */
        if (flags & ALLOC_MEM_FLAGS_VRAM) {
-                alloc_domain = AMDGPU_GEM_DOMAIN_VRAM;
+                domain = alloc_domain = AMDGPU_GEM_DOMAIN_VRAM;
                alloc_flags = AMDGPU_GEM_CREATE_VRAM_CLEARED;
                alloc_flags |= (flags & ALLOC_MEM_FLAGS_PUBLIC) ?
                        AMDGPU_GEM_CREATE_CPU_ACCESS_REQUIRED :
                        AMDGPU_GEM_CREATE_NO_CPU_ACCESS;
        } else if (flags & ALLOC_MEM_FLAGS_GTT) {
-                alloc_domain = AMDGPU_GEM_DOMAIN_GTT;
+                domain = alloc_domain = AMDGPU_GEM_DOMAIN_GTT;
+                alloc_flags = 0;
+        } else if (flags & ALLOC_MEM_FLAGS_USERPTR) {
+                domain = AMDGPU_GEM_DOMAIN_GTT;
+                alloc_domain = AMDGPU_GEM_DOMAIN_CPU;
                alloc_flags = 0;
+                if (!offset || !*offset)
+                        return -EINVAL;
+                user_addr = *offset;
        } else {
                return -EINVAL;
        }
@@ -1078,18 +1224,34 @@ int amdgpu_amdkfd_gpuvm_alloc_memory_of_gpu(
        }
        bo->kfd_bo = *mem;
        (*mem)->bo = bo;
+        if (user_addr)
+                bo->flags |= AMDGPU_AMDKFD_USERPTR_BO;
        (*mem)->va = va;
-        (*mem)->domain = alloc_domain;
+        (*mem)->domain = domain;
        (*mem)->mapped_to_gpu_memory = 0;
        (*mem)->process_info = avm->process_info;
-        add_kgd_mem_to_kfd_bo_list(*mem, avm->process_info);
+        add_kgd_mem_to_kfd_bo_list(*mem, avm->process_info, user_addr);
+        if (user_addr) {
+                ret = init_user_pages(*mem, current->mm, user_addr);
+                if (ret) {
+                        mutex_lock(&avm->process_info->lock);
+                        list_del(&(*mem)->validate_list.head);
+                        mutex_unlock(&avm->process_info->lock);
+                        goto allocate_init_user_pages_failed;
+                }
+        }
        if (offset)
                *offset = amdgpu_bo_mmap_offset(bo);
        return 0;
+allocate_init_user_pages_failed:
+        amdgpu_bo_unref(&bo);
+        /* Don't unreserve system mem limit twice */
+        goto err_reserve_system_mem;
 err_bo_create:
        unreserve_system_mem_limit(adev, size, alloc_domain);
 err_reserve_system_mem:
@@ -1122,12 +1284,24 @@ int amdgpu_amdkfd_gpuvm_free_memory_of_gpu(
         * be freed anyway
         */
+        /* No more MMU notifiers */
+        amdgpu_mn_unregister(mem->bo);
        /* Make sure restore workers don't access the BO any more */
        bo_list_entry = &mem->validate_list;
        mutex_lock(&process_info->lock);
        list_del(&bo_list_entry->head);
        mutex_unlock(&process_info->lock);
+        /* Free user pages if necessary */
+        if (mem->user_pages) {
+                pr_debug("%s: Freeing user_pages array\n", __func__);
+                if (mem->user_pages[0])
+                        release_pages(mem->user_pages,
+                                        mem->bo->tbo.ttm->num_pages);
+                kvfree(mem->user_pages);
+        }
        ret = reserve_bo_and_cond_vms(mem, NULL, BO_VM_ALL, &ctx);
        if (unlikely(ret))
                return ret;
@@ -1173,21 +1347,32 @@ int amdgpu_amdkfd_gpuvm_map_memory_to_gpu(
        struct kfd_bo_va_list *bo_va_entry = NULL;
        struct kfd_bo_va_list *bo_va_entry_aql = NULL;
        unsigned long bo_size;
+        bool is_invalid_userptr = false;
-        /* Make sure restore is not running concurrently.
-         */
-        mutex_lock(&mem->process_info->lock);
-        mutex_lock(&mem->lock);
        bo = mem->bo;
        if (!bo) {
                pr_err("Invalid BO when mapping memory to GPU\n");
-                ret = -EINVAL;
+                return -EINVAL;
-                goto out;
        }
+        /* Make sure restore is not running concurrently. Since we
+         * don't map invalid userptr BOs, we rely on the next restore
+         * worker to do the mapping
+         */
+        mutex_lock(&mem->process_info->lock);
+        /* Lock mmap-sem. If we find an invalid userptr BO, we can be
+         * sure that the MMU notifier is no longer running
+         * concurrently and the queues are actually stopped
+         */
+        if (amdgpu_ttm_tt_get_usermm(bo->tbo.ttm)) {
+                down_write(&current->mm->mmap_sem);
+                is_invalid_userptr = atomic_read(&mem->invalid);
+                up_write(&current->mm->mmap_sem);
+        }
+        mutex_lock(&mem->lock);
        domain = mem->domain;
        bo_size = bo->tbo.mem.size;
@@ -1200,6 +1385,14 @@ int amdgpu_amdkfd_gpuvm_map_memory_to_gpu(
        if (unlikely(ret))
                goto out;
+        /* Userptr can be marked as "not invalid", but not actually be
+         * validated yet (still in the system domain). In that case
+         * the queues are still stopped and we can leave mapping for
+         * the next restore worker
+         */
+        if (bo->tbo.mem.mem_type == TTM_PL_SYSTEM)
+                is_invalid_userptr = true;
        if (check_if_add_bo_to_vm(avm, mem)) {
                ret = add_bo_to_vm(adev, mem, avm, false,
                                &bo_va_entry);
@@ -1217,7 +1410,8 @@ int amdgpu_amdkfd_gpuvm_map_memory_to_gpu(
                        goto add_bo_to_vm_failed;
        }
-        if (mem->mapped_to_gpu_memory == 0) {
+        if (mem->mapped_to_gpu_memory == 0 &&
+            !amdgpu_ttm_tt_get_usermm(bo->tbo.ttm)) {
                /* Validate BO only once. The eviction fence gets added to BO
                 * the first time it is mapped. Validate will wait for all
                 * background evictions to complete.
@@ -1235,7 +1429,8 @@ int amdgpu_amdkfd_gpuvm_map_memory_to_gpu(
                                        entry->va, entry->va + bo_size,
                                        entry);
-                        ret = map_bo_to_gpuvm(adev, entry, ctx.sync);
+                        ret = map_bo_to_gpuvm(adev, entry, ctx.sync,
+                                              is_invalid_userptr);
                        if (ret) {
                                pr_err("Failed to map radeon bo to gpuvm\n");
                                goto map_bo_to_gpuvm_failed;
@@ -1418,6 +1613,337 @@ bo_reserve_failed:
        return ret;
 }
+/* Evict a userptr BO by stopping the queues if necessary
+ *
+ * Runs in MMU notifier, may be in RECLAIM_FS context. This means it
+ * cannot do any memory allocations, and cannot take any locks that
+ * are held elsewhere while allocating memory. Therefore this is as
+ * simple as possible, using atomic counters.
+ *
+ * It doesn't do anything to the BO itself. The real work happens in
+ * restore, where we get updated page addresses. This function only
+ * ensures that GPU access to the BO is stopped.
+ */
+int amdgpu_amdkfd_evict_userptr(struct kgd_mem *mem,
+                                struct mm_struct *mm)
+{
+        struct amdkfd_process_info *process_info = mem->process_info;
+        int invalid, evicted_bos;
+        int r = 0;
+        invalid = atomic_inc_return(&mem->invalid);
+        evicted_bos = atomic_inc_return(&process_info->evicted_bos);
+        if (evicted_bos == 1) {
+                /* First eviction, stop the queues */
+                r = kgd2kfd->quiesce_mm(mm);
+                if (r)
+                        pr_err("Failed to quiesce KFD\n");
+                schedule_delayed_work(&process_info->restore_userptr_work,
+                        msecs_to_jiffies(AMDGPU_USERPTR_RESTORE_DELAY_MS));
+        }
+        return r;
+}
+/* Update invalid userptr BOs
+ *
+ * Moves invalidated (evicted) userptr BOs from userptr_valid_list to
+ * userptr_inval_list and updates user pages for all BOs that have
+ * been invalidated since their last update.
+ */
+static int update_invalid_user_pages(struct amdkfd_process_info *process_info,
+                                     struct mm_struct *mm)
+{
+        struct kgd_mem *mem, *tmp_mem;
+        struct amdgpu_bo *bo;
+        struct ttm_operation_ctx ctx = { false, false };
+        int invalid, ret;
+        /* Move all invalidated BOs to the userptr_inval_list and
+         * release their user pages by migration to the CPU domain
+         */
+        list_for_each_entry_safe(mem, tmp_mem,
+                                 &process_info->userptr_valid_list,
+                                 validate_list.head) {
+                if (!atomic_read(&mem->invalid))
+                        continue; /* BO is still valid */
+                bo = mem->bo;
+                if (amdgpu_bo_reserve(bo, true))
+                        return -EAGAIN;
+                amdgpu_ttm_placement_from_domain(bo, AMDGPU_GEM_DOMAIN_CPU);
+                ret = ttm_bo_validate(&bo->tbo, &bo->placement, &ctx);
+                amdgpu_bo_unreserve(bo);
+                if (ret) {
+                        pr_err("%s: Failed to invalidate userptr BO\n",
+                               __func__);
+                        return -EAGAIN;
+                }
+                list_move_tail(&mem->validate_list.head,
+                               &process_info->userptr_inval_list);
+        }
+        if (list_empty(&process_info->userptr_inval_list))
+                return 0; /* All evicted userptr BOs were freed */
+        /* Go through userptr_inval_list and update any invalid user_pages */
+        list_for_each_entry(mem, &process_info->userptr_inval_list,
+                            validate_list.head) {
+                invalid = atomic_read(&mem->invalid);
+                if (!invalid)
+                        /* BO hasn't been invalidated since the last
+                         * revalidation attempt. Keep its BO list.
+                         */
+                        continue;
+                bo = mem->bo;
+                if (!mem->user_pages) {
+                        mem->user_pages =
+                                kvmalloc_array(bo->tbo.ttm->num_pages,
+                                                 sizeof(struct page *),
+                                                 GFP_KERNEL | __GFP_ZERO);
+                        if (!mem->user_pages) {
+                                pr_err("%s: Failed to allocate pages array\n",
+                                       __func__);
+                                return -ENOMEM;
+                        }
+                } else if (mem->user_pages[0]) {
+                        release_pages(mem->user_pages, bo->tbo.ttm->num_pages);
+                }
+                /* Get updated user pages */
+                ret = amdgpu_ttm_tt_get_user_pages(bo->tbo.ttm,
+                                                   mem->user_pages);
+                if (ret) {
+                        mem->user_pages[0] = NULL;
+                        pr_info("%s: Failed to get user pages: %d\n",
+                                __func__, ret);
+                        /* Pretend it succeeded. It will fail later
+                         * with a VM fault if the GPU tries to access
+                         * it. Better than hanging indefinitely with
+                         * stalled user mode queues.
+                         */
+                }
+                /* Mark the BO as valid unless it was invalidated
+                 * again concurrently
+                 */
+                if (atomic_cmpxchg(&mem->invalid, invalid, 0) != invalid)
+                        return -EAGAIN;
+        }
+        return 0;
+}
+/* Validate invalid userptr BOs
+ *
+ * Validates BOs on the userptr_inval_list, and moves them back to the
+ * userptr_valid_list. Also updates GPUVM page tables with new page
+ * addresses and waits for the page table updates to complete.
+ */
+static int validate_invalid_user_pages(struct amdkfd_process_info *process_info)
+{
+        struct amdgpu_bo_list_entry *pd_bo_list_entries;
+        struct list_head resv_list, duplicates;
+        struct ww_acquire_ctx ticket;
+        struct amdgpu_sync sync;
+        struct amdgpu_vm *peer_vm;
+        struct kgd_mem *mem, *tmp_mem;
+        struct amdgpu_bo *bo;
+        struct ttm_operation_ctx ctx = { false, false };
+        int i, ret;
+        pd_bo_list_entries = kcalloc(process_info->n_vms,
+                                     sizeof(struct amdgpu_bo_list_entry),
+                                     GFP_KERNEL);
+        if (!pd_bo_list_entries) {
+                pr_err("%s: Failed to allocate PD BO list entries\n", __func__);
+                return -ENOMEM;
+        }
+        INIT_LIST_HEAD(&resv_list);
+        INIT_LIST_HEAD(&duplicates);
+        /* Get all the page directory BOs that need to be reserved */
+        i = 0;
+        list_for_each_entry(peer_vm, &process_info->vm_list_head,
+                            vm_list_node)
+                amdgpu_vm_get_pd_bo(peer_vm, &resv_list,
+                                    &pd_bo_list_entries[i++]);
+        /* Add the userptr_inval_list entries to resv_list */
+        list_for_each_entry(mem, &process_info->userptr_inval_list,
+                            validate_list.head) {
+                list_add_tail(&mem->resv_list.head, &resv_list);
+                mem->resv_list.bo = mem->validate_list.bo;
+                mem->resv_list.shared = mem->validate_list.shared;
+        }
+        /* Reserve all BOs and page tables for validation */
+        ret = ttm_eu_reserve_buffers(&ticket, &resv_list, false, &duplicates);
+        WARN(!list_empty(&duplicates), "Duplicates should be empty");
+        if (ret)
+                goto out;
+        amdgpu_sync_create(&sync);
+        /* Avoid triggering eviction fences when unmapping invalid
+         * userptr BOs (waits for all fences, doesn't use
+         * FENCE_OWNER_VM)
+         */
+        list_for_each_entry(peer_vm, &process_info->vm_list_head,
+                            vm_list_node)
+                amdgpu_amdkfd_remove_eviction_fence(peer_vm->root.base.bo,
+                                                process_info->eviction_fence,
+                                                NULL, NULL);
+        ret = process_validate_vms(process_info);
+        if (ret)
+                goto unreserve_out;
+        /* Validate BOs and update GPUVM page tables */
+        list_for_each_entry_safe(mem, tmp_mem,
+                                 &process_info->userptr_inval_list,
+                                 validate_list.head) {
+                struct kfd_bo_va_list *bo_va_entry;
+                bo = mem->bo;
+                /* Copy pages array and validate the BO if we got user pages */
+                if (mem->user_pages[0]) {
+                        amdgpu_ttm_tt_set_user_pages(bo->tbo.ttm,
+                                                     mem->user_pages);
+                        amdgpu_ttm_placement_from_domain(bo, mem->domain);
+                        ret = ttm_bo_validate(&bo->tbo, &bo->placement, &ctx);
+                        if (ret) {
+                                pr_err("%s: failed to validate BO\n", __func__);
+                                goto unreserve_out;
+                        }
+                }
+                /* Validate succeeded, now the BO owns the pages, free
+                 * our copy of the pointer array. Put this BO back on
+                 * the userptr_valid_list. If we need to revalidate
+                 * it, we need to start from scratch.
+                 */
+                kvfree(mem->user_pages);
+                mem->user_pages = NULL;
+                list_move_tail(&mem->validate_list.head,
+                               &process_info->userptr_valid_list);
+                /* Update mapping. If the BO was not validated
+                 * (because we couldn't get user pages), this will
+                 * clear the page table entries, which will result in
+                 * VM faults if the GPU tries to access the invalid
+                 * memory.
+                 */
+                list_for_each_entry(bo_va_entry, &mem->bo_va_list, bo_list) {
+                        if (!bo_va_entry->is_mapped)
+                                continue;
+                        ret = update_gpuvm_pte((struct amdgpu_device *)
+                                               bo_va_entry->kgd_dev,
+                                               bo_va_entry, &sync);
+                        if (ret) {
+                                pr_err("%s: update PTE failed\n", __func__);
+                                /* make sure this gets validated again */
+                                atomic_inc(&mem->invalid);
+                                goto unreserve_out;
+                        }
+                }
+        }
+        /* Update page directories */
+        ret = process_update_pds(process_info, &sync);
+unreserve_out:
+        list_for_each_entry(peer_vm, &process_info->vm_list_head,
+                            vm_list_node)
+                amdgpu_bo_fence(peer_vm->root.base.bo,
+                                &process_info->eviction_fence->base, true);
+        ttm_eu_backoff_reservation(&ticket, &resv_list);
+        amdgpu_sync_wait(&sync, false);
+        amdgpu_sync_free(&sync);
+out:
+        kfree(pd_bo_list_entries);
+        return ret;
+}
+/* Worker callback to restore evicted userptr BOs
+ *
+ * Tries to update and validate all userptr BOs. If successful and no
+ * concurrent evictions happened, the queues are restarted. Otherwise,
+ * reschedule for another attempt later.
+ */
+static void amdgpu_amdkfd_restore_userptr_worker(struct work_struct *work)
+{
+        struct delayed_work *dwork = to_delayed_work(work);
+        struct amdkfd_process_info *process_info =
+                container_of(dwork, struct amdkfd_process_info,
+                             restore_userptr_work);
+        struct task_struct *usertask;
+        struct mm_struct *mm;
+        int evicted_bos;
+        evicted_bos = atomic_read(&process_info->evicted_bos);
+        if (!evicted_bos)
+                return;
+        /* Reference task and mm in case of concurrent process termination */
+        usertask = get_pid_task(process_info->pid, PIDTYPE_PID);
+        if (!usertask)
+                return;
+        mm = get_task_mm(usertask);
+        if (!mm) {
+                put_task_struct(usertask);
+                return;
+        }
+        mutex_lock(&process_info->lock);
+        if (update_invalid_user_pages(process_info, mm))
+                goto unlock_out;
+        /* userptr_inval_list can be empty if all evicted userptr BOs
+         * have been freed. In that case there is nothing to validate
+         * and we can just restart the queues.
+         */
+        if (!list_empty(&process_info->userptr_inval_list)) {
+                if (atomic_read(&process_info->evicted_bos) != evicted_bos)
+                        goto unlock_out; /* Concurrent eviction, try again */
+                if (validate_invalid_user_pages(process_info))
+                        goto unlock_out;
+        }
+        /* Final check for concurrent evicton and atomic update. If
+         * another eviction happens after successful update, it will
+         * be a first eviction that calls quiesce_mm. The eviction
+         * reference counting inside KFD will handle this case.
+         */
+        if (atomic_cmpxchg(&process_info->evicted_bos, evicted_bos, 0) !=
+            evicted_bos)
+                goto unlock_out;
+        evicted_bos = 0;
+        if (kgd2kfd->resume_mm(mm)) {
+                pr_err("%s: Failed to resume KFD\n", __func__);
+                /* No recovery from this failure. Probably the CP is
+                 * hanging. No point trying again.
+                 */
+        }
+unlock_out:
+        mutex_unlock(&process_info->lock);
+        mmput(mm);
+        put_task_struct(usertask);
+        /* If validation failed, reschedule another attempt */
+        if (evicted_bos)
+                schedule_delayed_work(&process_info->restore_userptr_work,
+                        msecs_to_jiffies(AMDGPU_USERPTR_RESTORE_DELAY_MS));
+}
 /** amdgpu_amdkfd_gpuvm_restore_process_bos - Restore all BOs for the given
 *   KFD process identified by process_info
 *
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_cs.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_cs.c
index dc34b50e6b29..8e66f3702b7c 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_cs.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_cs.c
@@ -536,7 +536,7 @@ static int amdgpu_cs_parser_bos(struct amdgpu_cs_parser *p,
        if (p->bo_list) {
                amdgpu_bo_list_get_list(p->bo_list, &p->validated);
                if (p->bo_list->first_userptr != p->bo_list->num_entries)
-                        p->mn = amdgpu_mn_get(p->adev);
+                        p->mn = amdgpu_mn_get(p->adev, AMDGPU_MN_TYPE_GFX);
        }
        INIT_LIST_HEAD(&duplicates);
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.c
index bd67f4cb8e6c..83e344fbb50a 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.c
@@ -36,12 +36,14 @@
 #include <drm/drm.h>
 #include "amdgpu.h"
+#include "amdgpu_amdkfd.h"
 struct amdgpu_mn {
        /* constant after initialisation */
        struct amdgpu_device    *adev;
        struct mm_struct        *mm;
        struct mmu_notifier     mn;
+        enum amdgpu_mn_type     type;
        /* only used on destruction */
        struct work_struct      work;
@@ -185,7 +187,7 @@ static void amdgpu_mn_invalidate_node(struct amdgpu_mn_node *node,
 }
 /**
- * amdgpu_mn_invalidate_range_start - callback to notify about mm change
+ * amdgpu_mn_invalidate_range_start_gfx - callback to notify about mm change
 *
 * @mn: our notifier
 * @mn: the mm this callback is about
@@ -195,10 +197,10 @@ static void amdgpu_mn_invalidate_node(struct amdgpu_mn_node *node,
 * We block for all BOs between start and end to be idle and
 * unmap them by move them into system domain again.
 */
-static void amdgpu_mn_invalidate_range_start(struct mmu_notifier *mn,
+static void amdgpu_mn_invalidate_range_start_gfx(struct mmu_notifier *mn,
-                                             struct mm_struct *mm,
+                                                 struct mm_struct *mm,
-                                             unsigned long start,
+                                                 unsigned long start,
-                                             unsigned long end)
+                                                 unsigned long end)
 {
        struct amdgpu_mn *rmn = container_of(mn, struct amdgpu_mn, mn);
        struct interval_tree_node *it;
@@ -220,6 +222,49 @@ static void amdgpu_mn_invalidate_range_start(struct mmu_notifier *mn,
 }
 /**
+ * amdgpu_mn_invalidate_range_start_hsa - callback to notify about mm change
+ *
+ * @mn: our notifier
+ * @mn: the mm this callback is about
+ * @start: start of updated range
+ * @end: end of updated range
+ *
+ * We temporarily evict all BOs between start and end. This
+ * necessitates evicting all user-mode queues of the process. The BOs
+ * are restorted in amdgpu_mn_invalidate_range_end_hsa.
+ */
+static void amdgpu_mn_invalidate_range_start_hsa(struct mmu_notifier *mn,
+                                                 struct mm_struct *mm,
+                                                 unsigned long start,
+                                                 unsigned long end)
+{
+        struct amdgpu_mn *rmn = container_of(mn, struct amdgpu_mn, mn);
+        struct interval_tree_node *it;
+        /* notification is exclusive, but interval is inclusive */
+        end -= 1;
+        amdgpu_mn_read_lock(rmn);
+        it = interval_tree_iter_first(&rmn->objects, start, end);
+        while (it) {
+                struct amdgpu_mn_node *node;
+                struct amdgpu_bo *bo;
+                node = container_of(it, struct amdgpu_mn_node, it);
+                it = interval_tree_iter_next(it, start, end);
+                list_for_each_entry(bo, &node->bos, mn_list) {
+                        struct kgd_mem *mem = bo->kfd_bo;
+                        if (amdgpu_ttm_tt_affect_userptr(bo->tbo.ttm,
+                                                         start, end))
+                                amdgpu_amdkfd_evict_userptr(mem, mm);
+                }
+        }
+}
+/**
 * amdgpu_mn_invalidate_range_end - callback to notify about mm change
 *
 * @mn: our notifier
@@ -239,23 +284,39 @@ static void amdgpu_mn_invalidate_range_end(struct mmu_notifier *mn,
        amdgpu_mn_read_unlock(rmn);
 }
-static const struct mmu_notifier_ops amdgpu_mn_ops = {
+static const struct mmu_notifier_ops amdgpu_mn_ops[] = {
-        .release = amdgpu_mn_release,
+        [AMDGPU_MN_TYPE_GFX] = {
-        .invalidate_range_start = amdgpu_mn_invalidate_range_start,
+                .release = amdgpu_mn_release,
-        .invalidate_range_end = amdgpu_mn_invalidate_range_end,
+                .invalidate_range_start = amdgpu_mn_invalidate_range_start_gfx,
+                .invalidate_range_end = amdgpu_mn_invalidate_range_end,
+        },
+        [AMDGPU_MN_TYPE_HSA] = {
+                .release = amdgpu_mn_release,
+                .invalidate_range_start = amdgpu_mn_invalidate_range_start_hsa,
+                .invalidate_range_end = amdgpu_mn_invalidate_range_end,
+        },
 };
+/* Low bits of any reasonable mm pointer will be unused due to struct
+ * alignment. Use these bits to make a unique key from the mm pointer
+ * and notifier type.
+ */
+#define AMDGPU_MN_KEY(mm, type) ((unsigned long)(mm) + (type))
 /**
 * amdgpu_mn_get - create notifier context
 *
 * @adev: amdgpu device pointer
+ * @type: type of MMU notifier context
 *
 * Creates a notifier context for current->mm.
 */
-struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev)
+struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev,
+                                enum amdgpu_mn_type type)
 {
        struct mm_struct *mm = current->mm;
        struct amdgpu_mn *rmn;
+        unsigned long key = AMDGPU_MN_KEY(mm, type);
        int r;
        mutex_lock(&adev->mn_lock);
@@ -264,8 +325,8 @@ struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev)
                return ERR_PTR(-EINTR);
        }
-        hash_for_each_possible(adev->mn_hash, rmn, node, (unsigned long)mm)
+        hash_for_each_possible(adev->mn_hash, rmn, node, key)
-                if (rmn->mm == mm)
+                if (AMDGPU_MN_KEY(rmn->mm, rmn->type) == key)
                        goto release_locks;
        rmn = kzalloc(sizeof(*rmn), GFP_KERNEL);
@@ -276,8 +337,9 @@ struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev)
        rmn->adev = adev;
        rmn->mm = mm;
-        rmn->mn.ops = &amdgpu_mn_ops;
        init_rwsem(&rmn->lock);
+        rmn->type = type;
+        rmn->mn.ops = &amdgpu_mn_ops[type];
        rmn->objects = RB_ROOT_CACHED;
        mutex_init(&rmn->read_lock);
        atomic_set(&rmn->recursion, 0);
@@ -286,7 +348,7 @@ struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev)
        if (r)
                goto free_rmn;
-        hash_add(adev->mn_hash, &rmn->node, (unsigned long)mm);
+        hash_add(adev->mn_hash, &rmn->node, AMDGPU_MN_KEY(mm, type));
 release_locks:
        up_write(&mm->mmap_sem);
@@ -315,15 +377,21 @@ int amdgpu_mn_register(struct amdgpu_bo *bo, unsigned long addr)
 {
        unsigned long end = addr + amdgpu_bo_size(bo) - 1;
        struct amdgpu_device *adev = amdgpu_ttm_adev(bo->tbo.bdev);
+        enum amdgpu_mn_type type =
+                bo->kfd_bo ? AMDGPU_MN_TYPE_HSA : AMDGPU_MN_TYPE_GFX;
        struct amdgpu_mn *rmn;
-        struct amdgpu_mn_node *node = NULL;
+        struct amdgpu_mn_node *node = NULL, *new_node;
        struct list_head bos;
        struct interval_tree_node *it;
-        rmn = amdgpu_mn_get(adev);
+        rmn = amdgpu_mn_get(adev, type);
        if (IS_ERR(rmn))
                return PTR_ERR(rmn);
+        new_node = kmalloc(sizeof(*new_node), GFP_KERNEL);
+        if (!new_node)
+                return -ENOMEM;
        INIT_LIST_HEAD(&bos);
        down_write(&rmn->lock);
@@ -337,13 +405,10 @@ int amdgpu_mn_register(struct amdgpu_bo *bo, unsigned long addr)
                list_splice(&node->bos, &bos);
        }
-        if (!node) {
+        if (!node)
-                node = kmalloc(sizeof(struct amdgpu_mn_node), GFP_KERNEL);
+                node = new_node;
-                if (!node) {
+        else
-                        up_write(&rmn->lock);
+                kfree(new_node);
-                        return -ENOMEM;
-                }
-        }
        bo->mn = rmn;
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.h b/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.h
index d0095a3793b8..eb0f432f78fe 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.h
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_mn.h
@@ -29,16 +29,23 @@
 */
 struct amdgpu_mn;
+enum amdgpu_mn_type {
+        AMDGPU_MN_TYPE_GFX,
+        AMDGPU_MN_TYPE_HSA,
+};
 #if defined(CONFIG_MMU_NOTIFIER)
 void amdgpu_mn_lock(struct amdgpu_mn *mn);
 void amdgpu_mn_unlock(struct amdgpu_mn *mn);
-struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev);
+struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev,
+                                enum amdgpu_mn_type type);
 int amdgpu_mn_register(struct amdgpu_bo *bo, unsigned long addr);
 void amdgpu_mn_unregister(struct amdgpu_bo *bo);
 #else
 static inline void amdgpu_mn_lock(struct amdgpu_mn *mn) {}
 static inline void amdgpu_mn_unlock(struct amdgpu_mn *mn) {}
-static inline struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev)
+static inline struct amdgpu_mn *amdgpu_mn_get(struct amdgpu_device *adev,
+                                              enum amdgpu_mn_type type)
 {
        return NULL;
 }
diff --git a/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c b/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c
index 205da3ff9cd0..c713d30cba86 100644
--- a/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c
+++ b/drivers/gpu/drm/amd/amdgpu/amdgpu_ttm.c
@@ -695,7 +695,7 @@ struct amdgpu_ttm_tt {
        struct ttm_dma_tt       ttm;
        u64                     offset;
        uint64_t                userptr;
-        struct mm_struct        *usermm;
+        struct task_struct      *usertask;
        uint32_t                userflags;
        spinlock_t              guptasklock;
        struct list_head        guptasks;
@@ -706,14 +706,18 @@ struct amdgpu_ttm_tt {
 int amdgpu_ttm_tt_get_user_pages(struct ttm_tt *ttm, struct page **pages)
 {
        struct amdgpu_ttm_tt *gtt = (void *)ttm;
+        struct mm_struct *mm = gtt->usertask->mm;
        unsigned int flags = 0;
        unsigned pinned = 0;
        int r;
+        if (!mm) /* Happens during process shutdown */
+                return -ESRCH;
        if (!(gtt->userflags & AMDGPU_GEM_USERPTR_READONLY))
                flags |= FOLL_WRITE;
-        down_read(&current->mm->mmap_sem);
+        down_read(&mm->mmap_sem);
        if (gtt->userflags & AMDGPU_GEM_USERPTR_ANONONLY) {
                /* check that we only use anonymous memory
@@ -721,9 +725,9 @@ int amdgpu_ttm_tt_get_user_pages(struct ttm_tt *ttm, struct page **pages)
                unsigned long end = gtt->userptr + ttm->num_pages * PAGE_SIZE;
                struct vm_area_struct *vma;
-                vma = find_vma(gtt->usermm, gtt->userptr);
+                vma = find_vma(mm, gtt->userptr);
                if (!vma || vma->vm_file || vma->vm_end < end) {
-                        up_read(&current->mm->mmap_sem);
+                        up_read(&mm->mmap_sem);
                        return -EPERM;
                }
        }
@@ -739,7 +743,12 @@ int amdgpu_ttm_tt_get_user_pages(struct ttm_tt *ttm, struct page **pages)
                list_add(&guptask.list, &gtt->guptasks);
                spin_unlock(&gtt->guptasklock);
-                r = get_user_pages(userptr, num_pages, flags, p, NULL);
+                if (mm == current->mm)
+                        r = get_user_pages(userptr, num_pages, flags, p, NULL);
+                else
+                        r = get_user_pages_remote(gtt->usertask,
+                                        mm, userptr, num_pages,
+                                        flags, p, NULL, NULL);
                spin_lock(&gtt->guptasklock);
                list_del(&guptask.list);
@@ -752,12 +761,12 @@ int amdgpu_ttm_tt_get_user_pages(struct ttm_tt *ttm, struct page **pages)
        } while (pinned < ttm->num_pages);
-        up_read(&current->mm->mmap_sem);
+        up_read(&mm->mmap_sem);
        return 0;
 release_pages:
        release_pages(pages, pinned);
-        up_read(&current->mm->mmap_sem);
+        up_read(&mm->mmap_sem);
        return r;
 }
@@ -978,6 +987,9 @@ static void amdgpu_ttm_backend_destroy(struct ttm_tt *ttm)
 {
        struct amdgpu_ttm_tt *gtt = (void *)ttm;
+        if (gtt->usertask)
+                put_task_struct(gtt->usertask);
        ttm_dma_tt_fini(&gtt->ttm);
        kfree(gtt);
 }
@@ -1079,8 +1091,13 @@ int amdgpu_ttm_tt_set_userptr(struct ttm_tt *ttm, uint64_t addr,
                return -EINVAL;
        gtt->userptr = addr;
-        gtt->usermm = current->mm;
        gtt->userflags = flags;
+        if (gtt->usertask)
+                put_task_struct(gtt->usertask);
+        gtt->usertask = current->group_leader;
+        get_task_struct(gtt->usertask);
        spin_lock_init(&gtt->guptasklock);
        INIT_LIST_HEAD(&gtt->guptasks);
        atomic_set(&gtt->mmu_invalidations, 0);
@@ -1096,7 +1113,10 @@ struct mm_struct *amdgpu_ttm_tt_get_usermm(struct ttm_tt *ttm)
        if (gtt == NULL)
                return NULL;
-        return gtt->usermm;
+        if (gtt->usertask == NULL)
+                return NULL;
+        return gtt->usertask->mm;
 }
 bool amdgpu_ttm_tt_affect_userptr(struct ttm_tt *ttm, unsigned long start,
diff --git a/drivers/gpu/drm/amd/amdgpu/gfx_v9_0.c b/drivers/gpu/drm/amd/amdgpu/gfx_v9_0.c
index 9d39fd5b1822..e5962e61beb5 100644
--- a/drivers/gpu/drm/amd/amdgpu/gfx_v9_0.c
+++ b/drivers/gpu/drm/amd/amdgpu/gfx_v9_0.c
@@ -4686,6 +4686,7 @@ static int gfx_v9_0_get_cu_info(struct amdgpu_device *adev,
        cu_info->number = active_cu_number;
        cu_info->ao_cu_mask = ao_cu_mask;
+        cu_info->simd_per_cu = NUM_SIMD_PER_CU;
        return 0;
 }
diff --git a/drivers/gpu/drm/amd/amdgpu/soc15d.h b/drivers/gpu/drm/amd/amdgpu/soc15d.h
index 7f408f85fdb6..f22f7a88ce0f 100644
--- a/drivers/gpu/drm/amd/amdgpu/soc15d.h
+++ b/drivers/gpu/drm/amd/amdgpu/soc15d.h
@@ -268,6 +268,11 @@
                         * x=1: tmz_end
                         */
+#define PACKET3_INVALIDATE_TLBS                         0x98
+#              define PACKET3_INVALIDATE_TLBS_DST_SEL(x)     ((x) << 0)
+#              define PACKET3_INVALIDATE_TLBS_ALL_HUB(x)     ((x) << 4)
+#              define PACKET3_INVALIDATE_TLBS_PASID(x)       ((x) << 5)
+#              define PACKET3_INVALIDATE_TLBS_FLUSH_TYPE(x)  ((x) << 29)
 #define PACKET3_SET_RESOURCES                           0xA0
 /* 1. header
 * 2. CONTROL
author	Dave Airlie <airlied@redhat.com>	2018-05-15 01:59:10 -0400
committer	Dave Airlie <airlied@redhat.com>	2018-05-15 02:06:08 -0400
commit	c76f0b2cc2f1be1a8a20f0fe2c0f30919bc559fb (patch)
tree	1aeeb74795b2951952aa443f7104d6c090c58141 /drivers/gpu/drm/amd/amdgpu
parent	444ac87becd8a2ff76f9e4194dd98da4f5d5586d (diff)
parent	af47b390273f1068bdb1d01263a81948c4e2f97a (diff)