/* aligned to potentially speed up crypto_xor() */
        u8 stream[CHACHA_BLOCK_SIZE] __aligned(sizeof(long));
 
-       if (dst != src)
-               memcpy(dst, src, bytes);
-
        while (bytes >= CHACHA_BLOCK_SIZE) {
                chacha_block(state, stream, nrounds);
-               crypto_xor(dst, stream, CHACHA_BLOCK_SIZE);
+               crypto_xor_cpy(dst, src, stream, CHACHA_BLOCK_SIZE);
                bytes -= CHACHA_BLOCK_SIZE;
                dst += CHACHA_BLOCK_SIZE;
+               src += CHACHA_BLOCK_SIZE;
        }
        if (bytes) {
                chacha_block(state, stream, nrounds);
-               crypto_xor(dst, stream, bytes);
+               crypto_xor_cpy(dst, src, stream, bytes);
        }
 }