]> www.infradead.org Git - users/jedix/linux-maple.git/commitdiff
kaiser: enhanced by kernel and user PCIDs
authorDave Hansen <dave.hansen@linux.intel.com>
Wed, 30 Aug 2017 23:23:00 +0000 (16:23 -0700)
committerKirtikar Kashyap <kirtikar.kashyap@oracle.com>
Fri, 12 Jan 2018 18:20:07 +0000 (10:20 -0800)
Merged performance improvements to Kaiser, using distinct kernel
and user Process Context Identifiers to minimize the TLB flushing.

Signed-off-by: Hugh Dickins <hughd@google.com>
Acked-by: Jiri Kosina <jkosina@suse.cz>
Signed-off-by: Greg Kroah-Hartman <gregkh@linuxfoundation.org>
(cherry picked from commit eb82151d0b1df53d1ad8d060ecd554ca12eb552a)
Orabug: 27333760
CVE: CVE-2017-5754
Signed-off-by: Pavel Tatashin <pasha.tatashin@oracle.com>
Conflicts:
arch/x86/entry/entry_64.S (not in this tree)
arch/x86/kernel/entry_64.S (patched instead of that)
arch/x86/entry/entry_64_compat.S (not in this tree)
arch/x86/ia32/ia32entry.S (patched instead of that)
arch/x86/include/asm/tlbflush.h

Signed-off-by: Kirtikar Kashyap <kirtikar.kashyap@oracle.com>
arch/x86/ia32/ia32entry.S
arch/x86/include/asm/cpufeature.h
arch/x86/include/asm/kaiser.h
arch/x86/include/asm/pgtable_types.h
arch/x86/include/asm/tlbflush.h
arch/x86/include/uapi/asm/processor-flags.h
arch/x86/kernel/cpu/common.c
arch/x86/kernel/entry_64.S
arch/x86/kvm/x86.c
arch/x86/mm/kaiser.c
arch/x86/mm/tlb.c

index 28e2091d86904fc6147200659581c192b028ca28..eb9026ea1f6d40571720520a36dedef761658527 100644 (file)
@@ -16,6 +16,7 @@
 #include <asm/asm.h>
 #include <asm/smap.h>
 #include <asm/spec_ctrl.h>
+#include <asm/pgtable_types.h>
 #include <asm/kaiser.h>
 #include <linux/linkage.h>
 #include <linux/err.h>
index 4dc2c67193cdff5fb0e6a624f6d973a67b5cbec8..20d31df5050c54221c1dedbdf9c5b7f5167a6221 100644 (file)
 #define X86_FEATURE_ARAT       ( 7*32+ 1) /* Always Running APIC Timer */
 #define X86_FEATURE_CPB                ( 7*32+ 2) /* AMD Core Performance Boost */
 #define X86_FEATURE_EPB                ( 7*32+ 3) /* IA32_ENERGY_PERF_BIAS support */
+#define X86_FEATURE_INVPCID_SINGLE ( 7*32+ 4) /* Effectively INVPCID && CR4.PCIDE=1 */
 #define X86_FEATURE_PLN                ( 7*32+ 5) /* Intel Power Limit Notification */
 #define X86_FEATURE_PTS                ( 7*32+ 6) /* Intel Package Thermal Status */
 #define X86_FEATURE_DTHERM     ( 7*32+ 7) /* Digital Thermal Sensor */
index e0fc45e77aeeb4bab9d88f624a365f459498ca06..360ff3bc44a97286320b1a09de3e1a5734011331 100644 (file)
@@ -1,5 +1,8 @@
 #ifndef _ASM_X86_KAISER_H
 #define _ASM_X86_KAISER_H
+
+#include <uapi/asm/processor-flags.h> /* For PCID constants */
+
 /*
  * This file includes the definitions for the KAISER feature.
  * KAISER is a counter measure against x86_64 side channel attacks on
 
 .macro _SWITCH_TO_KERNEL_CR3 reg
 movq %cr3, \reg
-andq $(~KAISER_SHADOW_PGD_OFFSET), \reg
+andq $(~(X86_CR3_PCID_ASID_MASK | KAISER_SHADOW_PGD_OFFSET)), \reg
+orq  X86_CR3_PCID_KERN_VAR, \reg
 movq \reg, %cr3
 .endm
 
 .macro _SWITCH_TO_USER_CR3 reg
 movq %cr3, \reg
-orq $(KAISER_SHADOW_PGD_OFFSET), \reg
+andq $(~(X86_CR3_PCID_ASID_MASK | KAISER_SHADOW_PGD_OFFSET)), \reg
+/*
+ * This can obviously be one instruction by putting the
+ * KAISER_SHADOW_PGD_OFFSET bit in the X86_CR3_PCID_USER_VAR.
+ * But, just leave it now for simplicity.
+ */
+orq  X86_CR3_PCID_USER_VAR, \reg
+orq  $(KAISER_SHADOW_PGD_OFFSET), \reg
 movq \reg, %cr3
 .endm
 
index a6beec0ef30ae482d105a60398db943da03ca852..087ae1f1e03389c817baf83c47fbacbfe726ccb2 100644 (file)
                         _PAGE_SOFT_DIRTY)
 #define _HPAGE_CHG_MASK (_PAGE_CHG_MASK | _PAGE_PSE)
 
+/* The ASID is the lower 12 bits of CR3 */
+#define X86_CR3_PCID_ASID_MASK  (_AC((1<<12)-1,UL))
+
+/* Mask for all the PCID-related bits in CR3: */
+#define X86_CR3_PCID_MASK       (X86_CR3_PCID_NOFLUSH | X86_CR3_PCID_ASID_MASK)
+#if defined(CONFIG_KAISER) && defined(CONFIG_X86_64)
+#define X86_CR3_PCID_ASID_KERN  (_AC(0x4,UL))
+#define X86_CR3_PCID_ASID_USER  (_AC(0x6,UL))
+
+#define X86_CR3_PCID_KERN_FLUSH                (X86_CR3_PCID_ASID_KERN)
+#define X86_CR3_PCID_USER_FLUSH                (X86_CR3_PCID_ASID_USER)
+#define X86_CR3_PCID_KERN_NOFLUSH      (X86_CR3_PCID_NOFLUSH | X86_CR3_PCID_ASID_KERN)
+#define X86_CR3_PCID_USER_NOFLUSH      (X86_CR3_PCID_NOFLUSH | X86_CR3_PCID_ASID_USER)
+#else
+#define X86_CR3_PCID_ASID_KERN  (_AC(0x0,UL))
+#define X86_CR3_PCID_ASID_USER  (_AC(0x0,UL))
+/*
+ * PCIDs are unsupported on 32-bit and none of these bits can be
+ * set in CR3:
+ */
+#define X86_CR3_PCID_KERN_FLUSH                (0)
+#define X86_CR3_PCID_USER_FLUSH                (0)
+#define X86_CR3_PCID_KERN_NOFLUSH      (0)
+#define X86_CR3_PCID_USER_NOFLUSH      (0)
+#endif
+
 /*
  * The cache modes defined here are used to translate between pure SW usage
  * and the HW defined cache mode bits and/or PAT entries.
index 1e0d6baabb43560bc1dc014f4479df500a935caf..9f842b68be2108ac1fbdfdfa82f3a45317506d87 100644 (file)
@@ -12,7 +12,6 @@ static inline void __invpcid(unsigned long pcid, unsigned long addr,
                             unsigned long type)
 {
        struct { u64 d[2]; } desc = { { pcid, addr } };
-
        /*
         * The memory clobber is because the whole point is to invalidate
         * stale TLB entries and, especially if we're flushing global
@@ -134,6 +133,14 @@ static inline void cr4_set_bits_and_update_boot(unsigned long mask)
 static inline void __native_flush_tlb(void)
 {
        native_write_cr3(native_read_cr3());
+       /*
+        * We are no longer using globals with KAISER, so a
+        * "nonglobals" flush would work too. But, this is more
+        * conservative.
+        *
+        * Note, this works with CR4.PCIDE=0 or 1.
+        */
+       invpcid_flush_all();
 }
 
 static inline void __native_flush_tlb_global_irq_disabled(void)
@@ -155,6 +162,8 @@ static inline void __native_flush_tlb_global(void)
                /*
                 * Using INVPCID is considerably faster than a pair of writes
                 * to CR4 sandwiched inside an IRQ flag save/restore.
+                *
+                * Note, this works with CR4.PCIDE=0 or 1.
                 */
                invpcid_flush_all();
                return;
@@ -174,7 +183,31 @@ static inline void __native_flush_tlb_global(void)
 
 static inline void __native_flush_tlb_single(unsigned long addr)
 {
-       asm volatile("invlpg (%0)" ::"r" (addr) : "memory");
+       /*
+        * SIMICS #GP's if you run INVPCID with type 2/3
+        * and X86_CR4_PCIDE clear.  Shame!
+        *
+        * The ASIDs used below are hard-coded.  But, we must not
+        * call invpcid(type=1/2) before CR4.PCIDE=1.  Just call
+        * invpcid in the case we are called early.
+        */
+       if (!this_cpu_has(X86_FEATURE_INVPCID_SINGLE)) {
+               asm volatile("invlpg (%0)" ::"r" (addr) : "memory");
+               return;
+       }
+       /* Flush the address out of both PCIDs. */
+       /*
+        * An optimization here might be to determine addresses
+        * that are only kernel-mapped and only flush the kernel
+        * ASID.  But, userspace flushes are probably much more
+        * important performance-wise.
+        *
+        * Make sure to do only a single invpcid when KAISER is
+        * disabled and we have only a single ASID.
+        */
+       if (X86_CR3_PCID_ASID_KERN != X86_CR3_PCID_ASID_USER)
+               invpcid_flush_one(X86_CR3_PCID_ASID_KERN, addr);
+       invpcid_flush_one(X86_CR3_PCID_ASID_USER, addr);
 }
 
 static inline void __flush_tlb_all(void)
index 180a0c3c224db00e67d91434784b7a217cd45de9..bd4513b7b877975aa650e126357644f0e5d6baf5 100644 (file)
@@ -79,7 +79,8 @@
 #define X86_CR3_PWT            _BITUL(X86_CR3_PWT_BIT)
 #define X86_CR3_PCD_BIT                4 /* Page Cache Disable */
 #define X86_CR3_PCD            _BITUL(X86_CR3_PCD_BIT)
-#define X86_CR3_PCID_MASK      _AC(0x00000fff,UL) /* PCID Mask */
+#define X86_CR3_PCID_NOFLUSH_BIT 63 /* Preserve old PCID */
+#define X86_CR3_PCID_NOFLUSH    _BITULL(X86_CR3_PCID_NOFLUSH_BIT)
 
 /*
  * Intel CPU features in CR4
index 5c32cc15f2ef00744240397c7145429d3385018b..5f6c75050eb14cecf0ef385b300db90a77af388f 100644 (file)
@@ -339,11 +339,45 @@ static __always_inline void setup_smap(struct cpuinfo_x86 *c)
        }
 }
 
+/*
+ * These can have bit 63 set, so we can not just use a plain "or"
+ * instruction to get their value or'd into CR3.  It would take
+ * another register.  So, we use a memory reference to these
+ * instead.
+ *
+ * This is also handy because systems that do not support
+ * PCIDs just end up or'ing a 0 into their CR3, which does
+ * no harm.
+ */
+__aligned(PAGE_SIZE) unsigned long X86_CR3_PCID_KERN_VAR = 0;
+__aligned(PAGE_SIZE) unsigned long X86_CR3_PCID_USER_VAR = 0;
+
 static void setup_pcid(struct cpuinfo_x86 *c)
 {
        if (cpu_has(c, X86_FEATURE_PCID)) {
                if (cpu_has(c, X86_FEATURE_PGE)) {
                        cr4_set_bits(X86_CR4_PCIDE);
+                       /*
+                        * These variables are used by the entry/exit
+                        * code to change PCIDs.
+                        */
+#ifdef CONFIG_KAISER
+                       X86_CR3_PCID_KERN_VAR = X86_CR3_PCID_KERN_NOFLUSH;
+                       X86_CR3_PCID_USER_VAR = X86_CR3_PCID_USER_NOFLUSH;
+#endif
+                       /*
+                        * INVPCID has two "groups" of types:
+                        * 1/2: Invalidate an individual address
+                        * 3/4: Invalidate all contexts
+                        *
+                        * 1/2 take a PCID, but 3/4 do not.  So, 3/4
+                        * ignore the PCID argument in the descriptor.
+                        * But, we have to be careful not to call 1/2
+                        * with an actual non-zero PCID in them before
+                        * we do the above cr4_set_bits().
+                        */
+                       if (cpu_has(c, X86_FEATURE_INVPCID))
+                               set_cpu_cap(c, X86_FEATURE_INVPCID_SINGLE);
                } else {
                        /*
                         * flush_tlb_all(), as currently implemented, won't
index 00c4fe48285c4934db3d483558d5715fa314427f..65c570211361ad06cd4a9bad5d16bce33e589880 100644 (file)
@@ -1724,7 +1724,10 @@ ENTRY(nmi)
        /* %rax is saved above, so OK to clobber here */
        movq    %cr3, %rax
        pushq   %rax
-       andq    $(~KAISER_SHADOW_PGD_OFFSET), %rax
+       /* mask off "user" bit of pgd address and 12 PCID bits: */
+       andq    $(~(X86_CR3_PCID_ASID_MASK | KAISER_SHADOW_PGD_OFFSET)), %rax
+       /* Add back kernel PCID and "no flush" bit */
+       orq     X86_CR3_PCID_KERN_VAR, %rax
        movq    %rax, %cr3
 #endif
        call    do_nmi
@@ -1960,7 +1963,10 @@ end_repeat_nmi:
        /* %rax is saved above, so OK to clobber here */
        movq    %cr3, %rax
        pushq   %rax
-       andq    $(~KAISER_SHADOW_PGD_OFFSET), %rax
+       /* mask off "user" bit of pgd address and 12 PCID bits: */
+       andq    $(~(X86_CR3_PCID_ASID_MASK | KAISER_SHADOW_PGD_OFFSET)), %rax
+       /* Add back kernel PCID and "no flush" bit */
+       orq     X86_CR3_PCID_KERN_VAR, %rax
        movq    %rax, %cr3
 #endif
        DEFAULT_FRAME 0                         /* XXX: Do we need this? */
index a7c32750b4ceb55cb6ad102bde01a7f14264187c..304c48893c68654afda369c42297c153f2e470d6 100644 (file)
@@ -735,7 +735,8 @@ int kvm_set_cr4(struct kvm_vcpu *vcpu, unsigned long cr4)
                        return 1;
 
                /* PCID can not be enabled when cr3[11:0]!=000H or EFER.LMA=0 */
-               if ((kvm_read_cr3(vcpu) & X86_CR3_PCID_MASK) || !is_long_mode(vcpu))
+               if ((kvm_read_cr3(vcpu) & X86_CR3_PCID_ASID_MASK) ||
+                   !is_long_mode(vcpu))
                        return 1;
        }
 
index 50d650799f3912ecfaf6013766eec8a1fd18973f..91968328ccdf19bb58fac4a64963e26a52888c5b 100644 (file)
@@ -240,6 +240,8 @@ static void __init kaiser_init_all_pgds(void)
 } while (0)
 
 extern char __per_cpu_user_mapped_start[], __per_cpu_user_mapped_end[];
+extern unsigned long X86_CR3_PCID_KERN_VAR;
+extern unsigned long X86_CR3_PCID_USER_VAR;
 /*
  * If anything in here fails, we will likely die on one of the
  * first kernel->user transitions and init will die.  But, we
@@ -290,6 +292,11 @@ void __init kaiser_init(void)
        kaiser_add_user_map_early(&debug_idt_table,
                                  sizeof(gate_desc) * NR_VECTORS,
                                  __PAGE_KERNEL);
+
+       kaiser_add_user_map_early(&X86_CR3_PCID_KERN_VAR, PAGE_SIZE,
+                                 __PAGE_KERNEL);
+       kaiser_add_user_map_early(&X86_CR3_PCID_USER_VAR, PAGE_SIZE,
+                                 __PAGE_KERNEL);
 }
 
 /* Add a mapping to the shadow mapping, and synchronize the mappings */
index 98fac1615e782847b352f7f2bc9355b4ed43e9b1..638814ba3393ad087ec966414a31da89765cdb79 100644 (file)
@@ -34,6 +34,46 @@ struct flush_tlb_info {
        unsigned long flush_end;
 };
 
+static void load_new_mm_cr3(pgd_t *pgdir)
+{
+       unsigned long new_mm_cr3 = __pa(pgdir);
+
+       /*
+        * KAISER, plus PCIDs needs some extra work here.  But,
+        * if either of features is not present, we need no
+        * PCIDs here and just do a normal, full TLB flush with
+        * the write_cr3()
+        */
+       if (!IS_ENABLED(CONFIG_KAISER) ||
+           !cpu_feature_enabled(X86_FEATURE_PCID))
+               goto out_set_cr3;
+       /*
+        * We reuse the same PCID for different tasks, so we must
+        * flush all the entires for the PCID out when we change
+        * tasks.
+        */
+       new_mm_cr3 = X86_CR3_PCID_KERN_FLUSH | __pa(pgdir);
+
+       /*
+        * The flush from load_cr3() may leave old TLB entries
+        * for userspace in place.  We must flush that context
+        * separately.  We can theoretically delay doing this
+        * until we actually load up the userspace CR3, but
+        * that's a bit tricky.  We have to have the "need to
+        * flush userspace PCID" bit per-cpu and check it in the
+        * exit-to-userspace paths.
+        */
+       invpcid_flush_single_context(X86_CR3_PCID_ASID_USER);
+
+out_set_cr3:
+       /*
+        * Caution: many callers of this function expect
+        * that load_cr3() is serializing and orders TLB
+        * fills with respect to the mm_cpumask writes.
+        */
+       write_cr3(new_mm_cr3);
+}
+
 /*
  * We cannot call mmdrop() because we are in interrupt context,
  * instead update mm->cpu_vm_mask.
@@ -45,7 +85,7 @@ void leave_mm(int cpu)
                BUG();
        if (cpumask_test_cpu(cpu, mm_cpumask(active_mm))) {
                cpumask_clear_cpu(cpu, mm_cpumask(active_mm));
-               load_cr3(swapper_pg_dir);
+               load_new_mm_cr3(swapper_pg_dir);
                /*
                 * This gets called in the idle path where RCU
                 * functions differently.  Tracing normally
@@ -110,7 +150,7 @@ void switch_mm_irqs_off(struct mm_struct *prev, struct mm_struct *next,
                 * ordering guarantee we need.
                 *
                 */
-               load_cr3(next->pgd);
+               load_new_mm_cr3(next->pgd);
 
                trace_tlb_flush(TLB_FLUSH_ON_TASK_SWITCH, TLB_FLUSH_ALL);
 
@@ -155,7 +195,7 @@ void switch_mm_irqs_off(struct mm_struct *prev, struct mm_struct *next,
                         * As above, load_cr3() is serializing and orders TLB
                         * fills with respect to the mm_cpumask write.
                         */
-                       load_cr3(next->pgd);
+                       load_new_mm_cr3(next->pgd);
                        trace_tlb_flush(TLB_FLUSH_ON_TASK_SWITCH, TLB_FLUSH_ALL);
                        load_mm_cr4(next);
                        load_mm_ldt(next);