]> www.infradead.org Git - users/jedix/linux-maple.git/commit
__arch_xprod64(): make __always_inline when optimizing for performance
authorNicolas Pitre <npitre@baylibre.com>
Thu, 3 Oct 2024 21:16:16 +0000 (17:16 -0400)
committerArnd Bergmann <arnd@arndb.de>
Mon, 28 Oct 2024 21:44:28 +0000 (21:44 +0000)
commitd533cb2d2af400f4689d8c5ca41db6d83ff173be
tree4adba740945772f1373edb767fe053c38d5f3cd5
parent06508533d51a1dc96c5399e533adfe9ec1076088
__arch_xprod64(): make __always_inline when optimizing for performance

Recent gcc versions started not systematically inline __arch_xprod64()
and that has performance implications. Give the compiler the freedom to
decide only when optimizing for size.

Here's some timing numbers from lib/math/test_div64.c

Using __always_inline:

```
test_div64: Starting 64bit/32bit division and modulo test
test_div64: Completed 64bit/32bit division and modulo test, 0.048285584s elapsed
```

Without __always_inline:

```
test_div64: Starting 64bit/32bit division and modulo test
test_div64: Completed 64bit/32bit division and modulo test, 0.053023584s elapsed
```

Forcing constant base through the non-constant base code path:

```
test_div64: Starting 64bit/32bit division and modulo test
test_div64: Completed 64bit/32bit division and modulo test, 0.103263776s elapsed
```

It is worth noting that test_div64 does half the test with non constant
divisors already so the impact is greater than what those numbers show.
And for what it is worth, those numbers were obtained using QEMU. The
gcc version is 14.1.0.

Signed-off-by: Nicolas Pitre <npitre@baylibre.com>
Signed-off-by: Arnd Bergmann <arnd@arndb.de>
arch/arm/include/asm/div64.h
include/asm-generic/div64.h