As suggested by Oleg, remove the thread::fpu pointer, as we can
calculate it via x86_task_fpu() at compile-time.
This improves code generation a bit:
   kepler:~/tip> size vmlinux.before vmlinux.after
   text        data        bss        dec         hex        filename
   
26475405    10435342    1740804    38651551    24dc69f    vmlinux.before
   
26475339    10959630    1216516    38651485    24dc65d    vmlinux.after
Suggested-by: Oleg Nesterov <oleg@redhat.com>
Signed-off-by: Ingo Molnar <mingo@kernel.org>
Cc: Andy Lutomirski <luto@kernel.org>
Cc: Brian Gerst <brgerst@gmail.com>
Cc: Chang S. Bae <chang.seok.bae@intel.com>
Cc: H. Peter Anvin <hpa@zytor.com>
Cc: Linus Torvalds <torvalds@linux-foundation.org>
Cc: Peter Zijlstra <peterz@infradead.org>
Cc: Uros Bizjak <ubizjak@gmail.com>
Link: https://lore.kernel.org/r/20250409211127.3544993-5-mingo@kernel.org
 
        struct thread_shstk     shstk;
 #endif
-
-       /* Floating point and extended processor state */
-       struct fpu              *fpu;
 };
 
-#define x86_task_fpu(task) ((task)->thread.fpu)
+#define x86_task_fpu(task)     ((struct fpu *)((void *)(task) + sizeof(*(task))))
 
 /*
  * X86 doesn't need any embedded-FPU-struct quirks:
 
         * This is safe because task_struct size is a multiple of cacheline size.
         */
        struct fpu *src_fpu = x86_task_fpu(current);
-       struct fpu *dst_fpu = (void *)dst + sizeof(*dst);
+       struct fpu *dst_fpu = x86_task_fpu(dst);
 
        BUILD_BUG_ON(sizeof(*dst) % SMP_CACHE_BYTES != 0);
        BUG_ON(!src_fpu);
 
-       dst->thread.fpu = dst_fpu;
-
        /* The new task's FPU state cannot be valid in the hardware. */
        dst_fpu->last_cpu = -1;
 
 
 static void __init fpu__init_system_early_generic(void)
 {
        fpstate_reset(&x86_init_fpu);
-       current->thread.fpu = &x86_init_fpu;
        set_thread_flag(TIF_NEED_FPU_LOAD);
        x86_init_fpu.last_cpu = -1;
 
 
 #ifdef CONFIG_VM86
        dst->thread.vm86 = NULL;
 #endif
-       /* Drop the copied pointer to current's fpstate */
-       dst->thread.fpu = NULL;
 
        return 0;
 }
 
                /* equivalent to task_pt_regs(&init_task) */
                __top_init_kernel_stack = __end_init_stack - TOP_OF_KERNEL_STACK_PADDING - PTREGS_SIZE;
 
+               __x86_init_fpu_begin = .;
+               . = __x86_init_fpu_begin + 128*PAGE_SIZE;
+               __x86_init_fpu_end = .;
+
 #ifdef CONFIG_X86_32
                /* 32 bit has nosave before _edata */
                NOSAVE_DATA