Ewaluacja

Metryki oceny jakości rekomendacji: precision, recall, NDCG

Źródło: User:Wiso, domena publiczna, Wikimedia Commons

Spis treści

Precision i recall
NDCG
Dobór metryki do kontekstu

Precision i recall

Precision (precyzja) to udział trafnych rekomendacji wśród wszystkich rekomendacji wyświetlonych użytkownikowi. Wysoka precyzja oznacza, że większość zaprezentowanych rekomendacji rzeczywiście odpowiada zainteresowaniom użytkownika. Recall (pełność) to z kolei udział trafnych rekomendacji, które system faktycznie zaprezentował, w stosunku do wszystkich produktów, które teoretycznie mogłyby zainteresować użytkownika.

Metryki te pozostają zwykle w pewnym napięciu — zawężenie listy rekomendacji do najbardziej pewnych pozycji zwiększa precyzję, ale może obniżyć recall, ponieważ część potencjalnie trafnych rekomendacji zostaje pominięta.

NDCG

NDCG (Normalized Discounted Cumulative Gain) to metryka uwzględniająca nie tylko trafność poszczególnych rekomendacji, ale także ich kolejność na liście. Rekomendacje trafne umieszczone wyżej na liście mają większy wpływ na wynik metryki niż rekomendacje trafne umieszczone niżej. Metryka ta jest szczególnie przydatna w kontekstach, w których kolejność prezentacji ma istotne znaczenie dla użytkownika, np. na stronie wyników wyszukiwania lub w sekcji rekomendacji na stronie głównej.

Dobór metryki do kontekstu

Wybór odpowiedniej metryki zależy od charakteru danego zastosowania. W kontekstach, w których użytkownik przegląda tylko kilka pierwszych pozycji listy (np. rekomendacje na stronie głównej), metryki uwzględniające kolejność, takie jak NDCG, dostarczają bardziej miarodajnego obrazu jakości systemu niż proste precision czy recall liczone dla całej listy.

W praktycznych wdrożeniach metryki te są zwykle stosowane łącznie z testami A/B, pozwalającymi ocenić wpływ zmian algorytmu na rzeczywiste zachowanie użytkowników, a nie tylko na wyniki obliczone na danych historycznych. Kontekst wdrożeniowy tych metryk w polskich sklepach internetowych opisano w artykule Systemy rekomendacji w polskim e-commerce.

Metryki oceny jakości rekomendacji: precision, recall, NDCG

Spis treści

Precision i recall

NDCG

Dobór metryki do kontekstu

Powiązane materiały

Historia systemów rekomendacji: od list rankingowych do modeli głębokich

Filtracja kolaboratywna: zasady działania i ograniczenia

Content-based filtering a filtracja kolaboratywna: porównanie podejść