* with mcs_unlock and mcs_lock pair, smp_mb__after_unlock_lock() should be
  * used after mcs_lock.
  */
+
+/*
+ * In order to acquire the lock, the caller should declare a local node and
+ * pass a reference of the node to this function in addition to the lock.
+ * If the lock has already been acquired, then this will proceed to spin
+ * on this node->locked until the previous lock holder sets the node->locked
+ * in mcs_spin_unlock().
+ *
+ * We don't inline mcs_spin_lock() so that perf can correctly account for the
+ * time spent in this lock function.
+ */
 static inline
 void mcs_spin_lock(struct mcs_spinlock **lock, struct mcs_spinlock *node)
 {
 
        prev = xchg(lock, node);
        if (likely(prev == NULL)) {
-               /* Lock acquired */
-               node->locked = 1;
+               /*
+                * Lock acquired, don't need to set node->locked to 1. Threads
+                * only spin on its own node->locked value for lock acquisition.
+                * However, since this thread can immediately acquire the lock
+                * and does not proceed to spin on its own node->locked, this
+                * value won't be used. If a debug mode is needed to
+                * audit lock status, then set node->locked value here.
+                */
                return;
        }
        ACCESS_ONCE(prev->next) = node;
                arch_mutex_cpu_relax();
 }
 
+/*
+ * Releases the lock. The caller should pass in the corresponding node that
+ * was used to acquire the lock.
+ */
 static inline
 void mcs_spin_unlock(struct mcs_spinlock **lock, struct mcs_spinlock *node)
 {
                /*
                 * Release the lock by setting it to NULL
                 */
-               if (cmpxchg(lock, node, NULL) == node)
+               if (likely(cmpxchg(lock, node, NULL) == node))
                        return;
                /* Wait until the next pointer is set */
                while (!(next = ACCESS_ONCE(node->next)))