np->last_tx.ex = &np->tx_ring.ex[np->tx_ring_size-1];
        np->get_tx_ctx = np->put_tx_ctx = np->first_tx_ctx = np->tx_skb;
        np->last_tx_ctx = &np->tx_skb[np->tx_ring_size-1];
+       netdev_reset_queue(np->dev);
        np->tx_pkts_in_progress = 0;
        np->tx_change_owner = NULL;
        np->tx_end_flip = NULL;
 
        /* set tx flags */
        start_tx->flaglen |= cpu_to_le32(tx_flags | tx_flags_extra);
+
+       netdev_sent_queue(np->dev, skb->len);
+
        np->put_tx.orig = put_tx;
 
        spin_unlock_irqrestore(&np->lock, flags);
 
        /* set tx flags */
        start_tx->flaglen |= cpu_to_le32(tx_flags | tx_flags_extra);
+
+       netdev_sent_queue(np->dev, skb->len);
+
        np->put_tx.ex = put_tx;
 
        spin_unlock_irqrestore(&np->lock, flags);
        u32 flags;
        int tx_work = 0;
        struct ring_desc *orig_get_tx = np->get_tx.orig;
+       unsigned int bytes_compl = 0;
 
        while ((np->get_tx.orig != np->put_tx.orig) &&
               !((flags = le32_to_cpu(np->get_tx.orig->flaglen)) & NV_TX_VALID) &&
                                        np->stat_tx_bytes += np->get_tx_ctx->skb->len;
                                        u64_stats_update_end(&np->swstats_tx_syncp);
                                }
+                               bytes_compl += np->get_tx_ctx->skb->len;
                                dev_kfree_skb_any(np->get_tx_ctx->skb);
                                np->get_tx_ctx->skb = NULL;
                                tx_work++;
                                        np->stat_tx_bytes += np->get_tx_ctx->skb->len;
                                        u64_stats_update_end(&np->swstats_tx_syncp);
                                }
+                               bytes_compl += np->get_tx_ctx->skb->len;
                                dev_kfree_skb_any(np->get_tx_ctx->skb);
                                np->get_tx_ctx->skb = NULL;
                                tx_work++;
                if (unlikely(np->get_tx_ctx++ == np->last_tx_ctx))
                        np->get_tx_ctx = np->first_tx_ctx;
        }
+
+       netdev_completed_queue(np->dev, tx_work, bytes_compl);
+
        if (unlikely((np->tx_stop == 1) && (np->get_tx.orig != orig_get_tx))) {
                np->tx_stop = 0;
                netif_wake_queue(dev);
        u32 flags;
        int tx_work = 0;
        struct ring_desc_ex *orig_get_tx = np->get_tx.ex;
+       unsigned long bytes_cleaned = 0;
 
        while ((np->get_tx.ex != np->put_tx.ex) &&
               !((flags = le32_to_cpu(np->get_tx.ex->flaglen)) & NV_TX2_VALID) &&
                                u64_stats_update_end(&np->swstats_tx_syncp);
                        }
 
+                       bytes_cleaned += np->get_tx_ctx->skb->len;
                        dev_kfree_skb_any(np->get_tx_ctx->skb);
                        np->get_tx_ctx->skb = NULL;
                        tx_work++;
                        if (np->tx_limit)
                                nv_tx_flip_ownership(dev);
                }
+
+               netdev_completed_queue(np->dev, tx_work, bytes_cleaned);
+
                if (unlikely(np->get_tx.ex++ == np->last_tx.ex))
                        np->get_tx.ex = np->first_tx.ex;
                if (unlikely(np->get_tx_ctx++ == np->last_tx_ctx))