Filtracja kolaboratywna: zasady działania i ograniczenia

Filtracja kolaboratywna: zasady działania i ograniczenia

Źródło: Moshanin, CC BY-SA 3.0, Wikimedia Commons

Zasada działania

Filtracja kolaboratywna to metoda generowania rekomendacji oparta na analizie zachowań grupy użytkowników, a nie na cechach opisujących poszczególne produkty. Podstawowe założenie tej metody mówi, że jeśli dwaj użytkownicy podobnie oceniali te same produkty w przeszłości, prawdopodobnie będą mieli zbliżone preferencje także w przypadku produktów, których jeszcze nie ocenili. System na podstawie takich podobieństw przewiduje, jak dany użytkownik oceniłby produkt, którego jeszcze nie widział.

Dane wejściowe dla filtracji kolaboratywnej przyjmują zwykle postać macierzy interakcji, w której wiersze odpowiadają użytkownikom, kolumny — produktom, a wartości komórek — ocenom lub sygnałom niejawnym, takim jak liczba kliknięć czy czas spędzony na stronie produktu.

Typy filtracji kolaboratywnej

Wyróżnia się dwa podstawowe warianty tej metody. Filtracja oparta na użytkownikach (user-based) polega na wyszukiwaniu grupy użytkowników o zachowaniach podobnych do analizowanego użytkownika i rekomendowaniu produktów, które ta grupa oceniła wysoko. Filtracja oparta na produktach (item-based) odwraca ten mechanizm — wyszukuje produkty podobne do tych, które użytkownik już ocenił pozytywnie, na podstawie wzorców ocen innych użytkowników.

W praktyce filtracja oparta na produktach bywa częściej stosowana w systemach o dużej liczbie użytkowników, ponieważ podobieństwa między produktami zmieniają się wolniej niż podobieństwa między użytkownikami, co ułatwia okresowe przeliczanie wyników.

Ograniczenia metody

Filtracja kolaboratywna napotyka kilka istotnych ograniczeń. Pierwszym z nich jest problem zimnego startu — opisany szerzej w artykule Problem zimnego startu w systemach rekomendacji — czyli brak możliwości wygenerowania trafnych rekomendacji dla nowego użytkownika lub nowego produktu, dla którego nie zgromadzono jeszcze wystarczającej liczby interakcji.

Drugim ograniczeniem jest rzadkość danych (data sparsity) — w systemach z dużą liczbą produktów przeciętny użytkownik ocenia jedynie niewielki ich ułamek, co utrudnia znajdowanie wiarygodnych podobieństw. Trzecim ograniczeniem jest tendencja do wzmacniania popularności już popularnych produktów kosztem produktów niszowych, co bywa określane jako efekt „bańki popularności”.

Czy filtracja kolaboratywna wymaga znajomości treści produktu?

Nie. W przeciwieństwie do metod content-based, filtracja kolaboratywna opiera się wyłącznie na wzorcach interakcji, a nie na opisie cech produktu — więcej na ten temat w artykule porównawczym poświęconym obu podejściom.

Czy filtracja kolaboratywna działa dobrze przy małej liczbie użytkowników?

Metoda ta wymaga odpowiednio dużej liczby interakcji, aby znajdowane podobieństwa były statystycznie wiarygodne. Przy małej liczbie użytkowników lub ocen jakość rekomendacji generowanych tą metodą zwykle spada.

Czy filtracja kolaboratywna jest nadal stosowana we współczesnych systemach?

Tak, choć rzadko jako jedyny mechanizm. Współczesne architektury dwuetapowe często łączą sygnały filtracji kolaboratywnej z modelami opartymi na sieciach neuronowych i dodatkowymi cechami kontekstowymi.