efx_ef10_read_licensed_features(efx);
 
        /* We can have one VI for each vi_stride-byte region.
-        * However, until we use TX option descriptors we need two TX queues
-        * per channel.
+        * However, until we use TX option descriptors we need up to four
+        * TX queues per channel for different checksumming combinations.
         */
-       efx->tx_queues_per_channel = 2;
+       if (nic_data->datapath_caps &
+           (1 << MC_CMD_GET_CAPABILITIES_OUT_VXLAN_NVGRE_LBN))
+               efx->tx_queues_per_channel = 4;
+       else
+               efx->tx_queues_per_channel = 2;
        efx->max_vis = efx_ef10_mem_map_size(efx) / efx->vi_stride;
        if (!efx->max_vis) {
                netif_err(efx, drv, efx->net_dev, "error determining max VIs\n");
 
 static int efx_ef10_tx_probe(struct efx_tx_queue *tx_queue)
 {
-       tx_queue->type = tx_queue->label & EFX_TXQ_TYPE_OUTER_CSUM;
+       /* low two bits of label are what we want for type */
+       BUILD_BUG_ON((EFX_TXQ_TYPE_OUTER_CSUM | EFX_TXQ_TYPE_INNER_CSUM) != 3);
+       tx_queue->type = tx_queue->label & 3;
        return efx_nic_alloc_buffer(tx_queue->efx, &tx_queue->txd.buf,
                                    (tx_queue->ptr_mask + 1) *
                                    sizeof(efx_qword_t),
 static void efx_ef10_tx_init(struct efx_tx_queue *tx_queue)
 {
        bool csum_offload = tx_queue->type & EFX_TXQ_TYPE_OUTER_CSUM;
+       bool inner_csum = tx_queue->type & EFX_TXQ_TYPE_INNER_CSUM;
        struct efx_channel *channel = tx_queue->channel;
        struct efx_nic *efx = tx_queue->efx;
        struct efx_ef10_nic_data *nic_data;
         * TSOv2 cannot be used with Hardware timestamping, and is never needed
         * for XDP tx.
         */
-       if (csum_offload && (nic_data->datapath_caps2 &
+       if ((csum_offload || inner_csum) && (nic_data->datapath_caps2 &
                        (1 << MC_CMD_GET_CAPABILITIES_V2_OUT_TX_TSO_V2_LBN)) &&
            !tx_queue->timestamping && !tx_queue->xdp_tx) {
                tso_v2 = true;
        tx_queue->buffer[0].flags = EFX_TX_BUF_OPTION;
        tx_queue->insert_count = 1;
        txd = efx_tx_desc(tx_queue, 0);
-       EFX_POPULATE_QWORD_5(*txd,
+       EFX_POPULATE_QWORD_7(*txd,
                             ESF_DZ_TX_DESC_IS_OPT, true,
                             ESF_DZ_TX_OPTION_TYPE,
                             ESE_DZ_TX_OPTION_DESC_CRC_CSUM,
                             ESF_DZ_TX_OPTION_UDP_TCP_CSUM, csum_offload,
-                            ESF_DZ_TX_OPTION_IP_CSUM, csum_offload,
+                            ESF_DZ_TX_OPTION_IP_CSUM, csum_offload && !tso_v2,
+                            ESF_DZ_TX_OPTION_INNER_UDP_TCP_CSUM, inner_csum,
+                            ESF_DZ_TX_OPTION_INNER_IP_CSUM, inner_csum && !tso_v2,
                             ESF_DZ_TX_TIMESTAMP, tx_queue->timestamping);
        tx_queue->write_count = 1;
 
 
        MCDI_DECLARE_BUF(inbuf, MC_CMD_INIT_TXQ_IN_LEN(EFX_MAX_DMAQ_SIZE * 8 /
                                                       EFX_BUF_SIZE));
        bool csum_offload = tx_queue->type & EFX_TXQ_TYPE_OUTER_CSUM;
+       bool inner_csum = tx_queue->type & EFX_TXQ_TYPE_INNER_CSUM;
        size_t entries = tx_queue->txd.buf.len / EFX_BUF_SIZE;
        struct efx_channel *channel = tx_queue->channel;
        struct efx_nic *efx = tx_queue->efx;
        inlen = MC_CMD_INIT_TXQ_IN_LEN(entries);
 
        do {
-               MCDI_POPULATE_DWORD_4(inbuf, INIT_TXQ_IN_FLAGS,
+               /* TSOv2 implies IP header checksum offload for TSO frames,
+                * so we can safely disable IP header checksum offload for
+                * everything else.  If we don't have TSOv2, then we have to
+                * enable IP header checksum offload, which is strictly
+                * incorrect but better than breaking TSO.
+                */
+               MCDI_POPULATE_DWORD_6(inbuf, INIT_TXQ_IN_FLAGS,
                                /* This flag was removed from mcdi_pcol.h for
                                 * the non-_EXT version of INIT_TXQ.  However,
                                 * firmware still honours it.
                                 */
                                INIT_TXQ_EXT_IN_FLAG_TSOV2_EN, tso_v2,
-                               INIT_TXQ_IN_FLAG_IP_CSUM_DIS, !csum_offload,
+                               INIT_TXQ_IN_FLAG_IP_CSUM_DIS, !(csum_offload && tso_v2),
                                INIT_TXQ_IN_FLAG_TCP_CSUM_DIS, !csum_offload,
-                               INIT_TXQ_EXT_IN_FLAG_TIMESTAMP,
-                                               tx_queue->timestamping);
+                               INIT_TXQ_EXT_IN_FLAG_TIMESTAMP, tx_queue->timestamping,
+                               INIT_TXQ_IN_FLAG_INNER_IP_CSUM_EN, inner_csum && !tso_v2,
+                               INIT_TXQ_IN_FLAG_INNER_TCP_CSUM_EN, inner_csum);
 
                rc = efx_mcdi_rpc_quiet(efx, MC_CMD_INIT_TXQ, inbuf, inlen,
                                        NULL, 0, NULL);