struct mutex mutex;
        struct maple_tree busy_areas;
        struct maple_tree free_areas;
+       unsigned int pending_free_cnt;  /* protected by mutex */
 };
 
+/* delay to schedule asynchronous free if fast path free fails */
+#define FREE_DELAY     (msecs_to_jiffies(10))
+
+/* mark entries in busy_areas that should be freed asynchronously */
+#define PENDING_FREE_MASK      (1 << (PAGE_SHIFT - 1))
+
 static struct execmem_cache execmem_cache = {
        .mutex = __MUTEX_INITIALIZER(execmem_cache.mutex),
        .busy_areas = MTREE_INIT_EXT(busy_areas, MT_FLAGS_LOCK_EXTERN,
 
 static DECLARE_WORK(execmem_cache_clean_work, execmem_cache_clean);
 
-static int execmem_cache_add(void *ptr, size_t size)
+static int execmem_cache_add_locked(void *ptr, size_t size, gfp_t gfp_mask)
 {
        struct maple_tree *free_areas = &execmem_cache.free_areas;
-       struct mutex *mutex = &execmem_cache.mutex;
        unsigned long addr = (unsigned long)ptr;
        MA_STATE(mas, free_areas, addr - 1, addr + 1);
        unsigned long lower, upper;
        void *area = NULL;
-       int err;
 
        lower = addr;
        upper = addr + size - 1;
 
-       mutex_lock(mutex);
        area = mas_walk(&mas);
        if (area && mas.last == addr - 1)
                lower = mas.index;
                upper = mas.last;
 
        mas_set_range(&mas, lower, upper);
-       err = mas_store_gfp(&mas, (void *)lower, GFP_KERNEL);
-       mutex_unlock(mutex);
-       if (err)
-               return err;
+       return mas_store_gfp(&mas, (void *)lower, gfp_mask);
+}
 
-       return 0;
+static int execmem_cache_add(void *ptr, size_t size, gfp_t gfp_mask)
+{
+       guard(mutex)(&execmem_cache.mutex);
+
+       return execmem_cache_add_locked(ptr, size, gfp_mask);
 }
 
 static bool within_range(struct execmem_range *range, struct ma_state *mas,
        if (err)
                goto err_free_mem;
 
-       err = execmem_cache_add(p, alloc_size);
+       err = execmem_cache_add(p, alloc_size, GFP_KERNEL);
        if (err)
                goto err_reset_direct_map;
 
        return __execmem_cache_alloc(range, size);
 }
 
+static inline bool is_pending_free(void *ptr)
+{
+       return ((unsigned long)ptr & PENDING_FREE_MASK);
+}
+
+static inline void *pending_free_set(void *ptr)
+{
+       return (void *)((unsigned long)ptr | PENDING_FREE_MASK);
+}
+
+static inline void *pending_free_clear(void *ptr)
+{
+       return (void *)((unsigned long)ptr & ~PENDING_FREE_MASK);
+}
+
+static int execmem_force_rw(void *ptr, size_t size);
+
+static int __execmem_cache_free(struct ma_state *mas, void *ptr, gfp_t gfp_mask)
+{
+       size_t size = mas_range_len(mas);
+       int err;
+
+       err = execmem_force_rw(ptr, size);
+       if (err)
+               return err;
+
+       execmem_fill_trapping_insns(ptr, size, /* writable = */ true);
+       execmem_restore_rox(ptr, size);
+
+       err = execmem_cache_add_locked(ptr, size, gfp_mask);
+       if (err)
+               return err;
+
+       mas_store_gfp(mas, NULL, gfp_mask);
+       return 0;
+}
+
+static void execmem_cache_free_slow(struct work_struct *work);
+static DECLARE_DELAYED_WORK(execmem_cache_free_work, execmem_cache_free_slow);
+
+static void execmem_cache_free_slow(struct work_struct *work)
+{
+       struct maple_tree *busy_areas = &execmem_cache.busy_areas;
+       MA_STATE(mas, busy_areas, 0, ULONG_MAX);
+       void *area;
+
+       guard(mutex)(&execmem_cache.mutex);
+
+       if (!execmem_cache.pending_free_cnt)
+               return;
+
+       mas_for_each(&mas, area, ULONG_MAX) {
+               if (!is_pending_free(area))
+                       continue;
+
+               area = pending_free_clear(area);
+               if (__execmem_cache_free(&mas, area, GFP_KERNEL))
+                       continue;
+
+               execmem_cache.pending_free_cnt--;
+       }
+
+       if (execmem_cache.pending_free_cnt)
+               schedule_delayed_work(&execmem_cache_free_work, FREE_DELAY);
+       else
+               schedule_work(&execmem_cache_clean_work);
+}
+
 static bool execmem_cache_free(void *ptr)
 {
        struct maple_tree *busy_areas = &execmem_cache.busy_areas;
-       struct mutex *mutex = &execmem_cache.mutex;
        unsigned long addr = (unsigned long)ptr;
        MA_STATE(mas, busy_areas, addr, addr);
-       size_t size;
        void *area;
+       int err;
+
+       guard(mutex)(&execmem_cache.mutex);
 
-       mutex_lock(mutex);
        area = mas_walk(&mas);
-       if (!area) {
-               mutex_unlock(mutex);
+       if (!area)
                return false;
-       }
-       size = mas_range_len(&mas);
 
-       mas_store_gfp(&mas, NULL, GFP_KERNEL);
-       mutex_unlock(mutex);
-
-       execmem_fill_trapping_insns(ptr, size, /* writable = */ false);
-
-       execmem_cache_add(ptr, size);
+       err = __execmem_cache_free(&mas, area, GFP_KERNEL | __GFP_NORETRY);
+       if (err) {
+               /*
+                * mas points to exact slot we've got the area from, nothing
+                * else can modify the tree because of the mutex, so there
+                * won't be any allocations in mas_store_gfp() and it will just
+                * change the pointer.
+                */
+               area = pending_free_set(area);
+               mas_store_gfp(&mas, area, GFP_KERNEL);
+               execmem_cache.pending_free_cnt++;
+               schedule_delayed_work(&execmem_cache_free_work, FREE_DELAY);
+               return true;
+       }
 
        schedule_work(&execmem_cache_clean_work);