static inline bool __ref_is_percpu(struct percpu_ref *ref,
                                          unsigned long __percpu **percpu_countp)
 {
-       /* paired with smp_store_release() in percpu_ref_reinit() */
-       unsigned long percpu_ptr = lockless_dereference(ref->percpu_count_ptr);
+       unsigned long percpu_ptr;
+
+       /*
+        * The value of @ref->percpu_count_ptr is tested for
+        * !__PERCPU_REF_ATOMIC, which may be set asynchronously, and then
+        * used as a pointer.  If the compiler generates a separate fetch
+        * when using it as a pointer, __PERCPU_REF_ATOMIC may be set in
+        * between contaminating the pointer value, meaning that
+        * ACCESS_ONCE() is required when fetching it.
+        *
+        * Also, we need a data dependency barrier to be paired with
+        * smp_store_release() in __percpu_ref_switch_to_percpu().
+        *
+        * Use lockless deref which contains both.
+        */
+       percpu_ptr = lockless_dereference(ref->percpu_count_ptr);
 
        /*
         * Theoretically, the following could test just ATOMIC; however,
        if (__ref_is_percpu(ref, &percpu_count)) {
                this_cpu_inc(*percpu_count);
                ret = true;
-       } else if (!(ACCESS_ONCE(ref->percpu_count_ptr) & __PERCPU_REF_DEAD)) {
+       } else if (!(ref->percpu_count_ptr & __PERCPU_REF_DEAD)) {
                ret = atomic_long_inc_not_zero(&ref->count);
        }