uint32_t m_hi = m >> 32;
        uint32_t n_lo = n;
        uint32_t n_hi = n >> 32;
-       uint64_t res, tmp;
+       uint64_t res;
+       uint32_t res_lo, res_hi, tmp;
 
        if (!bias) {
                res = ((uint64_t)m_lo * n_lo) >> 32;
                res = (m + (uint64_t)m_lo * n_lo) >> 32;
        } else {
                res = m + (uint64_t)m_lo * n_lo;
-               tmp = (res < m) ? (1ULL << 32) : 0;
-               res = (res >> 32) + tmp;
+               res_lo = res >> 32;
+               res_hi = (res_lo < m_hi);
+               res = res_lo | ((uint64_t)res_hi << 32);
        }
 
        if (!(m & ((1ULL << 63) | (1ULL << 31)))) {
                res += (uint64_t)m_hi * n_lo;
                res >>= 32;
        } else {
-               tmp = res += (uint64_t)m_lo * n_hi;
+               res += (uint64_t)m_lo * n_hi;
+               tmp = res >> 32;
                res += (uint64_t)m_hi * n_lo;
-               tmp = (res < tmp) ? (1ULL << 32) : 0;
-               res = (res >> 32) + tmp;
+               res_lo = res >> 32;
+               res_hi = (res_lo < tmp);
+               res = res_lo | ((uint64_t)res_hi << 32);
        }
 
        res += (uint64_t)m_hi * n_hi;