Remove the "struct mutex lock" variable from annotation that is
allocated per symbol. This removes in the region of 40 bytes per
symbol allocation. Use a sharded mutex where the number of shards is
set to the number of CPUs. Assuming good hashing of the annotation
(done based on the pointer), this means in order to contend there
needs to be more threads than CPUs, which is not currently true in any
perf command. Were contention an issue it is straightforward to
increase the number of shards in the mutex.
On my Debian/glibc based machine, this reduces the size of struct
annotation from 136 bytes to 96 bytes, or nearly 30%.
Signed-off-by: Ian Rogers <irogers@google.com>
Acked-by: Namhyung Kim <namhyung@kernel.org>
Cc: Andres Freund <andres@anarazel.de>
Cc: Mark Rutland <mark.rutland@arm.com>
Cc: Yuan Can <yuancan@huawei.com>
Cc: Peter Zijlstra <peterz@infradead.org>
Cc: Adrian Hunter <adrian.hunter@intel.com>
Cc: Arnaldo Carvalho de Melo <acme@kernel.org>
Cc: Huacai Chen <chenhuacai@kernel.org>
Cc: Jiri Olsa <jolsa@kernel.org>
Cc: Masami Hiramatsu <mhiramat@kernel.org>
Cc: Alexander Shishkin <alexander.shishkin@linux.intel.com>
Cc: Kan Liang <kan.liang@linux.intel.com>
Cc: Ingo Molnar <mingo@redhat.com>
Link: https://lore.kernel.org/r/20230615040715.2064350-2-irogers@google.com
Signed-off-by: Namhyung Kim <namhyung@kernel.org>
        }
 
        notes = symbol__annotation(sym);
-       mutex_lock(¬es->lock);
+       annotation__lock(notes);
 
        if (!symbol__hists(sym, top->evlist->core.nr_entries)) {
-               mutex_unlock(¬es->lock);
+               annotation__unlock(notes);
                pr_err("Not enough memory for annotating '%s' symbol!\n",
                       sym->name);
                sleep(1);
                pr_err("Couldn't annotate %s: %s\n", sym->name, msg);
        }
 
-       mutex_unlock(¬es->lock);
+       annotation__unlock(notes);
        return err;
 }
 
 
        notes = symbol__annotation(sym);
 
-       if (!mutex_trylock(¬es->lock))
+       if (!annotation__trylock(notes))
                return;
 
        err = hist_entry__inc_addr_samples(he, sample, evsel, ip);
 
-       mutex_unlock(¬es->lock);
+       annotation__unlock(notes);
 
        if (unlikely(err)) {
                /*
        symbol = he->ms.sym;
        notes = symbol__annotation(symbol);
 
-       mutex_lock(¬es->lock);
+       annotation__lock(notes);
 
        symbol__calc_percent(symbol, evsel);
 
        if (more != 0)
                printf("%d lines not displayed, maybe increase display entries [e]\n", more);
 out_unlock:
-       mutex_unlock(¬es->lock);
+       annotation__unlock(notes);
 }
 
 static void perf_top__resort_hists(struct perf_top *t)
 
 
        browser->entries = RB_ROOT;
 
-       mutex_lock(¬es->lock);
+       annotation__lock(notes);
 
        symbol__calc_percent(sym, evsel);
 
                }
                disasm_rb_tree__insert(browser, &pos->al);
        }
-       mutex_unlock(¬es->lock);
+       annotation__unlock(notes);
 
        browser->curr_hot = rb_last(&browser->entries);
 }
        }
 
        notes = symbol__annotation(dl->ops.target.sym);
-       mutex_lock(¬es->lock);
+       annotation__lock(notes);
 
        if (!symbol__hists(dl->ops.target.sym, evsel->evlist->core.nr_entries)) {
-               mutex_unlock(¬es->lock);
+               annotation__unlock(notes);
                ui__warning("Not enough memory for annotating '%s' symbol!\n",
                            dl->ops.target.sym->name);
                return true;
        target_ms.maps = ms->maps;
        target_ms.map = ms->map;
        target_ms.sym = dl->ops.target.sym;
-       mutex_unlock(¬es->lock);
+       annotation__unlock(notes);
        symbol__tui_annotate(&target_ms, evsel, hbt, browser->opts);
        sym_title(ms->sym, ms->map, title, sizeof(title), browser->opts->percent_type);
        ui_browser__show_title(&browser->b, title);
 
 #include "block-range.h"
 #include "string2.h"
 #include "util/event.h"
+#include "util/sharded_mutex.h"
 #include "arch/common.h"
 #include "namespaces.h"
 #include <regex.h>
 {
        struct annotation *notes = symbol__annotation(sym);
 
-       mutex_lock(¬es->lock);
+       annotation__lock(notes);
        if (notes->src != NULL) {
                memset(notes->src->histograms, 0,
                       notes->src->nr_histograms * notes->src->sizeof_sym_hist);
                        memset(notes->src->cycles_hist, 0,
                                symbol__size(sym) * sizeof(struct cyc_hist));
        }
-       mutex_unlock(¬es->lock);
+       annotation__unlock(notes);
 }
 
 static int __symbol__account_cycles(struct cyc_hist *ch,
        notes->hit_insn = 0;
        notes->cover_insn = 0;
 
-       mutex_lock(¬es->lock);
+       annotation__lock(notes);
        for (offset = size - 1; offset >= 0; --offset) {
                struct cyc_hist *ch;
 
                        notes->have_cycles = true;
                }
        }
-       mutex_unlock(¬es->lock);
+       annotation__unlock(notes);
 }
 
 int addr_map_symbol__inc_samples(struct addr_map_symbol *ams, struct perf_sample *sample,
        return ins__scnprintf(&dl->ins, bf, size, &dl->ops, max_ins_name);
 }
 
-void annotation__init(struct annotation *notes)
+void annotation__exit(struct annotation *notes)
 {
-       mutex_init(¬es->lock);
+       annotated_source__delete(notes->src);
 }
 
-void annotation__exit(struct annotation *notes)
+static struct sharded_mutex *sharded_mutex;
+
+static void annotation__init_sharded_mutex(void)
 {
-       annotated_source__delete(notes->src);
-       mutex_destroy(¬es->lock);
+       /* As many mutexes as there are CPUs. */
+       sharded_mutex = sharded_mutex__new(cpu__max_present_cpu().cpu);
+}
+
+static size_t annotation__hash(const struct annotation *notes)
+{
+       return (size_t)notes;
 }
 
+static struct mutex *annotation__get_mutex(const struct annotation *notes)
+{
+       static pthread_once_t once = PTHREAD_ONCE_INIT;
+
+       pthread_once(&once, annotation__init_sharded_mutex);
+       if (!sharded_mutex)
+               return NULL;
+
+       return sharded_mutex__get_mutex(sharded_mutex, annotation__hash(notes));
+}
+
+void annotation__lock(struct annotation *notes)
+       NO_THREAD_SAFETY_ANALYSIS
+{
+       struct mutex *mutex = annotation__get_mutex(notes);
+
+       if (mutex)
+               mutex_lock(mutex);
+}
+
+void annotation__unlock(struct annotation *notes)
+       NO_THREAD_SAFETY_ANALYSIS
+{
+       struct mutex *mutex = annotation__get_mutex(notes);
+
+       if (mutex)
+               mutex_unlock(mutex);
+}
+
+bool annotation__trylock(struct annotation *notes)
+{
+       struct mutex *mutex = annotation__get_mutex(notes);
+
+       if (!mutex)
+               return false;
+
+       return mutex_trylock(mutex);
+}
+
+
 static void annotation_line__add(struct annotation_line *al, struct list_head *head)
 {
        list_add_tail(&al->node, head);
 
        struct sym_hist    *histograms;
 };
 
-struct annotation {
-       struct mutex lock;
+struct LOCKABLE annotation {
        u64                     max_coverage;
        u64                     start;
        u64                     hit_cycles;
        struct annotated_source *src;
 };
 
-void annotation__init(struct annotation *notes);
+static inline void annotation__init(struct annotation *notes __maybe_unused)
+{
+}
 void annotation__exit(struct annotation *notes);
 
+void annotation__lock(struct annotation *notes) EXCLUSIVE_LOCK_FUNCTION(*notes);
+void annotation__unlock(struct annotation *notes) UNLOCK_FUNCTION(*notes);
+bool annotation__trylock(struct annotation *notes) EXCLUSIVE_TRYLOCK_FUNCTION(true, *notes);
+
 static inline int annotation__cycles_width(struct annotation *notes)
 {
        if (notes->have_cycles && notes->options->show_minmax_cycle)