DECLARE_PER_CPU(union irq_stack_union, irq_stack_union);
 DECLARE_PER_CPU(char *, irq_stack_ptr);
-
-static inline void load_gs_base(int cpu)
-{
-       wrmsrl(MSR_GS_BASE, (unsigned long)per_cpu(irq_stack_union.gs_base, cpu));
-}
 #endif
 
 extern void print_cpu_info(struct cpuinfo_x86 *);
 
 void switch_to_new_gdt(void)
 {
        struct desc_ptr gdt_descr;
+       int cpu = smp_processor_id();
 
-       gdt_descr.address = (long)get_cpu_gdt_table(smp_processor_id());
+       gdt_descr.address = (long)get_cpu_gdt_table(cpu);
        gdt_descr.size = GDT_SIZE - 1;
        load_gdt(&gdt_descr);
+       /* Reload the per-cpu base */
 #ifdef CONFIG_X86_32
-       asm("mov %0, %%fs" : : "r" (__KERNEL_PERCPU) : "memory");
+       loadsegment(fs, __KERNEL_PERCPU);
+#else
+       loadsegment(gs, 0);
+       wrmsrl(MSR_GS_BASE, (unsigned long)per_cpu(irq_stack_union.gs_base, cpu));
 #endif
 }
 
        struct task_struct *me;
        int i;
 
-       loadsegment(fs, 0);
-       loadsegment(gs, 0);
-       load_gs_base(cpu);
-
 #ifdef CONFIG_NUMA
        if (cpu != 0 && percpu_read(node_number) == 0 &&
            cpu_to_node(cpu) != NUMA_NO_NODE)
         */
 
        switch_to_new_gdt();
+       loadsegment(fs, 0);
+
        load_idt((const struct desc_ptr *)&idt_descr);
 
        memset(me->thread.tls_array, 0, GDT_ENTRY_TLS_ENTRIES * 8);
 
 #ifdef CONFIG_NUMA
                per_cpu(x86_cpu_to_node_map, cpu) =
                                early_per_cpu_map(x86_cpu_to_node_map, cpu);
+#endif
 #endif
                /*
                 * Up to this point, the boot CPU has been using .data.init
-                * area.  Reload %gs offset for the boot CPU.
+                * area.  Reload any changed state for the boot CPU.
                 */
                if (cpu == boot_cpu_id)
-                       load_gs_base(cpu);
-#endif
+                       switch_to_new_gdt();
 
                DBG("PERCPU: cpu %4d %p\n", cpu, ptr);
        }