struct qdisc_skb_head {
        struct sk_buff  *head;
        struct sk_buff  *tail;
-       union {
-               u32             qlen;
-               atomic_t        atomic_qlen;
-       };
+       __u32           qlen;
        spinlock_t      lock;
 };
 
        BUILD_BUG_ON(sizeof(qcb->data) < sz);
 }
 
+static inline int qdisc_qlen_cpu(const struct Qdisc *q)
+{
+       return this_cpu_ptr(q->cpu_qstats)->qlen;
+}
+
 static inline int qdisc_qlen(const struct Qdisc *q)
 {
        return q->q.qlen;
 }
 
-static inline u32 qdisc_qlen_sum(const struct Qdisc *q)
+static inline int qdisc_qlen_sum(const struct Qdisc *q)
 {
-       u32 qlen = q->qstats.qlen;
+       __u32 qlen = q->qstats.qlen;
+       int i;
 
-       if (qdisc_is_percpu_stats(q))
-               qlen += atomic_read(&q->q.atomic_qlen);
-       else
+       if (qdisc_is_percpu_stats(q)) {
+               for_each_possible_cpu(i)
+                       qlen += per_cpu_ptr(q->cpu_qstats, i)->qlen;
+       } else {
                qlen += q->q.qlen;
+       }
 
        return qlen;
 }
        this_cpu_add(sch->cpu_qstats->backlog, qdisc_pkt_len(skb));
 }
 
-static inline void qdisc_qstats_atomic_qlen_inc(struct Qdisc *sch)
+static inline void qdisc_qstats_cpu_qlen_inc(struct Qdisc *sch)
 {
-       atomic_inc(&sch->q.atomic_qlen);
+       this_cpu_inc(sch->cpu_qstats->qlen);
 }
 
-static inline void qdisc_qstats_atomic_qlen_dec(struct Qdisc *sch)
+static inline void qdisc_qstats_cpu_qlen_dec(struct Qdisc *sch)
 {
-       atomic_dec(&sch->q.atomic_qlen);
+       this_cpu_dec(sch->cpu_qstats->qlen);
 }
 
 static inline void qdisc_qstats_cpu_requeues_inc(struct Qdisc *sch)
        if (qdisc_is_percpu_stats(sch)) {
                qdisc_qstats_cpu_backlog_dec(sch, skb);
                qdisc_bstats_cpu_update(sch, skb);
-               qdisc_qstats_atomic_qlen_dec(sch);
+               qdisc_qstats_cpu_qlen_dec(sch);
        } else {
                qdisc_qstats_backlog_dec(sch, skb);
                qdisc_bstats_update(sch, skb);
                                                 unsigned int pkt_len)
 {
        if (qdisc_is_percpu_stats(sch)) {
-               qdisc_qstats_atomic_qlen_inc(sch);
+               qdisc_qstats_cpu_qlen_inc(sch);
                this_cpu_add(sch->cpu_qstats->backlog, pkt_len);
        } else {
                sch->qstats.backlog += pkt_len;
                skb = __skb_dequeue(&sch->gso_skb);
                if (qdisc_is_percpu_stats(sch)) {
                        qdisc_qstats_cpu_backlog_dec(sch, skb);
-                       qdisc_qstats_atomic_qlen_dec(sch);
+                       qdisc_qstats_cpu_qlen_dec(sch);
                } else {
                        qdisc_qstats_backlog_dec(sch, skb);
                        sch->q.qlen--;
 
        for_each_possible_cpu(i) {
                const struct gnet_stats_queue *qcpu = per_cpu_ptr(q, i);
 
+               qstats->qlen = 0;
                qstats->backlog += qcpu->backlog;
                qstats->drops += qcpu->drops;
                qstats->requeues += qcpu->requeues;
        if (cpu) {
                __gnet_stats_copy_queue_cpu(qstats, cpu);
        } else {
+               qstats->qlen = q->qlen;
                qstats->backlog = q->backlog;
                qstats->drops = q->drops;
                qstats->requeues = q->requeues;
 
                        skb = __skb_dequeue(&q->skb_bad_txq);
                        if (qdisc_is_percpu_stats(q)) {
                                qdisc_qstats_cpu_backlog_dec(q, skb);
-                               qdisc_qstats_atomic_qlen_dec(q);
+                               qdisc_qstats_cpu_qlen_dec(q);
                        } else {
                                qdisc_qstats_backlog_dec(q, skb);
                                q->q.qlen--;
 
        if (qdisc_is_percpu_stats(q)) {
                qdisc_qstats_cpu_backlog_inc(q, skb);
-               qdisc_qstats_atomic_qlen_inc(q);
+               qdisc_qstats_cpu_qlen_inc(q);
        } else {
                qdisc_qstats_backlog_inc(q, skb);
                q->q.qlen++;
                if (qdisc_is_percpu_stats(q)) {
                        qdisc_qstats_cpu_requeues_inc(q);
                        qdisc_qstats_cpu_backlog_inc(q, skb);
-                       qdisc_qstats_atomic_qlen_inc(q);
+                       qdisc_qstats_cpu_qlen_inc(q);
                } else {
                        q->qstats.requeues++;
                        qdisc_qstats_backlog_inc(q, skb);
                        skb = __skb_dequeue(&q->gso_skb);
                        if (qdisc_is_percpu_stats(q)) {
                                qdisc_qstats_cpu_backlog_dec(q, skb);
-                               qdisc_qstats_atomic_qlen_dec(q);
+                               qdisc_qstats_cpu_qlen_dec(q);
                        } else {
                                qdisc_qstats_backlog_dec(q, skb);
                                q->q.qlen--;
                struct gnet_stats_queue *q = per_cpu_ptr(qdisc->cpu_qstats, i);
 
                q->backlog = 0;
+               q->qlen = 0;
        }
 }