Content-based filtering a filtracja kolaboratywna: porównanie podejść

Content-based filtering a filtracja kolaboratywna: porównanie podejść

Źródło: Kavanaughf999, CC0, Wikimedia Commons

Content-based filtering

Metoda content-based filtering generuje rekomendacje na podstawie cech opisujących sam produkt lub treść — takich jak kategoria, słowa kluczowe, gatunek czy parametry techniczne — zestawionych z profilem preferencji użytkownika zbudowanym na podstawie jego wcześniejszych interakcji. Jeśli użytkownik często wybierał produkty z określonej kategorii, system będzie preferował rekomendowanie kolejnych produktów z tej samej kategorii.

Zaletą tego podejścia jest brak zależności od danych innych użytkowników — rekomendacje mogą być generowane wyłącznie na podstawie historii jednego użytkownika i cech produktów, co czyni tę metodę odporną na problem zimnego startu nowego produktu (o ile jego cechy zostały poprawnie opisane).

Filtracja kolaboratywna

W przeciwieństwie do content-based filtering, filtracja kolaboratywna nie wymaga znajomości cech produktu — opiera się wyłącznie na wzorcach interakcji między użytkownikami a produktami. Szczegółowy opis tej metody znajduje się w artykule Filtracja kolaboratywna: zasady działania i ograniczenia.

Porównanie podejść

Oba podejścia różnią się źródłem sygnału wykorzystywanego do generowania rekomendacji. Content-based filtering opiera się na cechach produktu i preferencjach jednego użytkownika, natomiast filtracja kolaboratywna wykorzystuje wzorce zachowań całej populacji użytkowników. W praktyce oznacza to odmienne mocne i słabe strony obu metod.

Content-based filtering dobrze radzi sobie z rekomendowaniem nowych produktów, ale ma tendencję do zawężania rekomendacji do kategorii już znanych użytkownikowi, co bywa określane jako efekt „bańki filtrującej”. Filtracja kolaboratywna potrafi odkrywać nieoczywiste powiązania między produktami, ale wymaga znacznej liczby interakcji, zanim zacznie generować trafne rekomendacje.

Podejścia hybrydowe

Ze względu na komplementarne ograniczenia obu metod, wiele współczesnych systemów rekomendacji łączy oba podejścia w ramach architektury hybrydowej. Sygnały content-based bywają wykorzystywane szczególnie w sytuacjach ograniczonej liczby interakcji, natomiast sygnały kolaboratywne przejmują większą wagę wraz ze wzrostem historii użytkownika. Więcej informacji o łączeniu różnych sygnałów w ramach jednej architektury znajduje się w artykule Architektura dwuetapowa: generowanie kandydatów i ranking.