return 0;
 }
 
+/*
+ * The purpose of this function is to ensure a memcpy_toio() with byte writes
+ * only. Its structure is inspired from the ARM implementation of _memcpy_toio()
+ * which also does single byte writes but cannot be used here as this is just an
+ * implementation detail and not part of the API. Not mentioning the comment
+ * stating that _memcpy_toio() should be optimized.
+ */
+static void spear_smi_memcpy_toio_b(volatile void __iomem *dest,
+                                   const void *src, size_t len)
+{
+       const unsigned char *from = src;
+
+       while (len) {
+               len--;
+               writeb(*from, dest);
+               from++;
+               dest++;
+       }
+}
+
 static inline int spear_smi_cpy_toio(struct spear_smi *dev, u32 bank,
                void __iomem *dest, const void *src, size_t len)
 {
        ctrlreg1 = readl(dev->io_base + SMI_CR1);
        writel((ctrlreg1 | WB_MODE) & ~SW_MODE, dev->io_base + SMI_CR1);
 
-       memcpy_toio(dest, src, len);
+       /*
+        * In Write Burst mode (WB_MODE), the specs states that writes must be:
+        * - incremental
+        * - of the same size
+        * The ARM implementation of memcpy_toio() will optimize the number of
+        * I/O by using as much 4-byte writes as possible, surrounded by
+        * 2-byte/1-byte access if:
+        * - the destination is not 4-byte aligned
+        * - the length is not a multiple of 4-byte.
+        * Avoid this alternance of write access size by using our own 'byte
+        * access' helper if at least one of the two conditions above is true.
+        */
+       if (IS_ALIGNED(len, sizeof(u32)) &&
+           IS_ALIGNED((uintptr_t)dest, sizeof(u32)))
+               memcpy_toio(dest, src, len);
+       else
+               spear_smi_memcpy_toio_b(dest, src, len);
 
        writel(ctrlreg1, dev->io_base + SMI_CR1);