Metryki oceny jakości rekomendacji: precision, recall, NDCG
Źródło: User:Wiso, domena publiczna, Wikimedia Commons
Spis treści
Precision i recall
Precision (precyzja) to udział trafnych rekomendacji wśród wszystkich rekomendacji wyświetlonych użytkownikowi. Wysoka precyzja oznacza, że większość zaprezentowanych rekomendacji rzeczywiście odpowiada zainteresowaniom użytkownika. Recall (pełność) to z kolei udział trafnych rekomendacji, które system faktycznie zaprezentował, w stosunku do wszystkich produktów, które teoretycznie mogłyby zainteresować użytkownika.
Metryki te pozostają zwykle w pewnym napięciu — zawężenie listy rekomendacji do najbardziej pewnych pozycji zwiększa precyzję, ale może obniżyć recall, ponieważ część potencjalnie trafnych rekomendacji zostaje pominięta.
NDCG
NDCG (Normalized Discounted Cumulative Gain) to metryka uwzględniająca nie tylko trafność poszczególnych rekomendacji, ale także ich kolejność na liście. Rekomendacje trafne umieszczone wyżej na liście mają większy wpływ na wynik metryki niż rekomendacje trafne umieszczone niżej. Metryka ta jest szczególnie przydatna w kontekstach, w których kolejność prezentacji ma istotne znaczenie dla użytkownika, np. na stronie wyników wyszukiwania lub w sekcji rekomendacji na stronie głównej.
Dobór metryki do kontekstu
Wybór odpowiedniej metryki zależy od charakteru danego zastosowania. W kontekstach, w których użytkownik przegląda tylko kilka pierwszych pozycji listy (np. rekomendacje na stronie głównej), metryki uwzględniające kolejność, takie jak NDCG, dostarczają bardziej miarodajnego obrazu jakości systemu niż proste precision czy recall liczone dla całej listy.
W praktycznych wdrożeniach metryki te są zwykle stosowane łącznie z testami A/B, pozwalającymi ocenić wpływ zmian algorytmu na rzeczywiste zachowanie użytkowników, a nie tylko na wyniki obliczone na danych historycznych. Kontekst wdrożeniowy tych metryk w polskich sklepach internetowych opisano w artykule Systemy rekomendacji w polskim e-commerce.