]> www.infradead.org Git - users/jedix/linux-maple.git/commitdiff
mm: madvise: pageout: ignore references rather than clearing young
authorBarry Song <v-songbaohua@oppo.com>
Mon, 26 Feb 2024 00:57:39 +0000 (13:57 +1300)
committerAndrew Morton <akpm@linux-foundation.org>
Tue, 5 Mar 2024 01:01:18 +0000 (17:01 -0800)
While doing MADV_PAGEOUT, the current code will clear PTE young so that
vmscan won't read young flags to allow the reclamation of madvised folios
to go ahead.  It seems we can do it by directly ignoring references, thus
we can remove tlb flush in madvise and rmap overhead in vmscan.

Regarding the side effect, in the original code, if a parallel thread runs
side by side to access the madvised memory with the thread doing madvise,
folios will get a chance to be re-activated by vmscan (though the time gap
is actually quite small since checking PTEs is done immediately after
clearing PTEs young).  But with this patch, they will still be reclaimed.
But this behaviour doing PAGEOUT and doing access at the same time is
quite silly like DoS.  So probably, we don't need to care.  Or ignoring
the new access during the quite small time gap is even better.

For DAMON's DAMOS_PAGEOUT based on physical address region, we still keep
its behaviour as is since a physical address might be mapped by multiple
processes.  MADV_PAGEOUT based on virtual address is actually much more
aggressive on reclamation.  To untouch paddr's DAMOS_PAGEOUT, we simply
pass ignore_references as false in reclaim_pages().

A microbench as below has shown 6% decrement on the latency of
MADV_PAGEOUT,

 #define PGSIZE 4096
 main()
 {
  int i;
 #define SIZE 512*1024*1024
  volatile long *p = mmap(NULL, SIZE, PROT_READ | PROT_WRITE,
  MAP_PRIVATE | MAP_ANONYMOUS, -1, 0);

  for (i = 0; i < SIZE/sizeof(long); i += PGSIZE / sizeof(long))
  p[i] =  0x11;

  madvise(p, SIZE, MADV_PAGEOUT);
 }

w/o patch                    w/ patch
root@10:~# time ./a.out      root@10:~# time ./a.out
real 0m49.634s            real   0m46.334s
user 0m0.637s             user   0m0.648s
sys 0m47.434s            sys    0m44.265s

Link: https://lkml.kernel.org/r/20240226005739.24350-1-21cnbao@gmail.com
Signed-off-by: Barry Song <v-songbaohua@oppo.com>
Acked-by: Minchan Kim <minchan@kernel.org>
Cc: SeongJae Park <sj@kernel.org>
Cc: Michal Hocko <mhocko@suse.com>
Cc: Johannes Weiner <hannes@cmpxchg.org>
Signed-off-by: Andrew Morton <akpm@linux-foundation.org>
mm/damon/paddr.c
mm/internal.h
mm/madvise.c
mm/vmscan.c

index 081e2a3257789201d643a2a338075f1519b04687..5e6dc312072cd01ac30d58be07ae74a204550c41 100644 (file)
@@ -249,7 +249,7 @@ static unsigned long damon_pa_pageout(struct damon_region *r, struct damos *s)
 put_folio:
                folio_put(folio);
        }
-       applied = reclaim_pages(&folio_list);
+       applied = reclaim_pages(&folio_list, false);
        cond_resched();
        return applied * PAGE_SIZE;
 }
index 2b7efffbe4d7a91adea5558d99feac006e5f27b3..cb4eabb1051d5742d96b96480a6beab4400cd474 100644 (file)
@@ -869,7 +869,7 @@ extern unsigned long  __must_check vm_mmap_pgoff(struct file *, unsigned long,
         unsigned long, unsigned long);
 
 extern void set_pageblock_order(void);
-unsigned long reclaim_pages(struct list_head *folio_list);
+unsigned long reclaim_pages(struct list_head *folio_list, bool ignore_references);
 unsigned int reclaim_clean_pages_from_list(struct zone *zone,
                                            struct list_head *folio_list);
 /* The ALLOC_WMARK bits are used as an index to zone->watermark */
index abde3edb04f048c0c794851236aafe55b802cb8b..44a498c94158c882c624eac2e29a5f07d854e322 100644 (file)
@@ -386,7 +386,7 @@ static int madvise_cold_or_pageout_pte_range(pmd_t *pmd,
                        return 0;
                }
 
-               if (pmd_young(orig_pmd)) {
+               if (!pageout && pmd_young(orig_pmd)) {
                        pmdp_invalidate(vma, addr, pmd);
                        orig_pmd = pmd_mkold(orig_pmd);
 
@@ -410,7 +410,7 @@ static int madvise_cold_or_pageout_pte_range(pmd_t *pmd,
 huge_unlock:
                spin_unlock(ptl);
                if (pageout)
-                       reclaim_pages(&folio_list);
+                       reclaim_pages(&folio_list, true);
                return 0;
        }
 
@@ -490,7 +490,7 @@ restart:
 
                VM_BUG_ON_FOLIO(folio_test_large(folio), folio);
 
-               if (pte_young(ptent)) {
+               if (!pageout && pte_young(ptent)) {
                        ptent = ptep_get_and_clear_full(mm, addr, pte,
                                                        tlb->fullmm);
                        ptent = pte_mkold(ptent);
@@ -524,7 +524,7 @@ restart:
                pte_unmap_unlock(start_pte, ptl);
        }
        if (pageout)
-               reclaim_pages(&folio_list);
+               reclaim_pages(&folio_list, true);
        cond_resched();
 
        return 0;
index 198d623054c571947f9a58648f80a4057fddb82a..dcfbe617e9efc25f6bc07d83fb790cde567562a6 100644 (file)
@@ -2085,7 +2085,8 @@ static void shrink_active_list(unsigned long nr_to_scan,
 }
 
 static unsigned int reclaim_folio_list(struct list_head *folio_list,
-                                     struct pglist_data *pgdat)
+                                     struct pglist_data *pgdat,
+                                     bool ignore_references)
 {
        struct reclaim_stat dummy_stat;
        unsigned int nr_reclaimed;
@@ -2098,7 +2099,7 @@ static unsigned int reclaim_folio_list(struct list_head *folio_list,
                .no_demotion = 1,
        };
 
-       nr_reclaimed = shrink_folio_list(folio_list, pgdat, &sc, &dummy_stat, false);
+       nr_reclaimed = shrink_folio_list(folio_list, pgdat, &sc, &dummy_stat, ignore_references);
        while (!list_empty(folio_list)) {
                folio = lru_to_folio(folio_list);
                list_del(&folio->lru);
@@ -2108,7 +2109,7 @@ static unsigned int reclaim_folio_list(struct list_head *folio_list,
        return nr_reclaimed;
 }
 
-unsigned long reclaim_pages(struct list_head *folio_list)
+unsigned long reclaim_pages(struct list_head *folio_list, bool ignore_references)
 {
        int nid;
        unsigned int nr_reclaimed = 0;
@@ -2130,11 +2131,12 @@ unsigned long reclaim_pages(struct list_head *folio_list)
                        continue;
                }
 
-               nr_reclaimed += reclaim_folio_list(&node_folio_list, NODE_DATA(nid));
+               nr_reclaimed += reclaim_folio_list(&node_folio_list, NODE_DATA(nid),
+                                                  ignore_references);
                nid = folio_nid(lru_to_folio(folio_list));
        } while (!list_empty(folio_list));
 
-       nr_reclaimed += reclaim_folio_list(&node_folio_list, NODE_DATA(nid));
+       nr_reclaimed += reclaim_folio_list(&node_folio_list, NODE_DATA(nid), ignore_references);
 
        memalloc_noreclaim_restore(noreclaim_flag);