Przyczyn nie ma w danych

Dane są cenne. Pomagają w dopasowaniu oferty do klienta, obniżeniu kosztów, minimalizowaniu ryzyka i poprawie satysfakcji. Jednakże, mimo swojej skuteczności, w większości przypadków nie pomagają w zrozumieniu motywacji klienta.

Modele Uczenia Maszynowego (ML)

Modele ML to modele, które same uczą się z danych. Potrafią przewidzieć skłonność klienta do kupna danego produktu lub jego inne zachowanie. Robią to na podstawie danych historycznych, obserwując zachowania podobnych klientów. Gdy mamy model trafnie prognozujący, jak zachowa się klient, naturalnym pytaniem menedżera jest: "dlaczego?".

Jednak modele ML nie potrafią odpowiedzieć na pytanie o przyczynę. Wskazują tylko, że pewne rzeczy są ze sobą powiązane. Takie związki mogą być z kolei przypadkowe lub może wystąpić inny, trzeci element, który na nie wpływa. Dla przykładu: gdy widzimy rodziców z dziećmi czekającymi w poczekalni u lekarza, a następnie tych dzieci nie ma przez kilka dni w przedszkolu czy na placu zabaw, nasz model świata mówi nam, że to nie z powodu wizyty u lekarza. Przeciwnie, ta wizyta prawdopodobnie skróciła ich nieobecność, gdyż lekarz tym chorym dzieciom pomógł.

Natomiast dla komputera pozbawionego tej wiedzy wizyta u lekarza bezpośrednio przekłada się na nieobecność. Model opracowany na takich danych zacznie przewidywać nieobecności na podstawie wizyt u lekarza. Nikt rozsądny nie zaproponuje rozwiązania problemu nieobecności przez ograniczenie wizyt u lekarza. Tymczasem komputer takie rozwiązanie (przy braku innych informacji) uzna za całkowicie racjonalne.

Przykład może jest przejaskrawiony, ale chodzi o zademonstrowanie, że ludzie, patrząc na dane, używają całego swojego życiowego doświadczenia, zawodowego i prywatnego. Czegoś, czego komputer jest pozbawiony.

Modelom uczenia maszynowego brakuje modelu świata. To coś, co my, ludzie, budujemy od dziecka – wiedzę, która pozwala nam funkcjonować, uczyć się i wyciągać wnioski z otaczającej nas rzeczywistości. Gdy patrzymy na nowy problem, już na wstępie wiemy dużo więcej, niż nam się wydaje. Pokazując te same dane komputerowi, nie ma on żadnego punktu odniesienia.

Model przyczynowo-skutkowy

Ludzie na co dzień posługują się modelem, w którym rzeczy mają swoją przyczynę i skutek. Nie chodzi tylko o to, że występują w określonej kolejności. Posługujemy się modelem, który nam mówi, że choć wizyta u lekarza nastąpiła tuż przed nieobecnością, to jesteśmy świadomi, że nie ta wizyta jest przyczyną problemu, a jego skutkiem.

Komputer pozbawiony modelu przyczynowo-skutkowego, a zamiast tego z olbrzymią ilością danych, będzie szukał związków ze wszystkim.
Chcemy zrozumieć, który oddział obsłuży najwięcej klientów? Komputer udowodni, że taki położony niedaleko fontanny. Dla człowieka natychmiast staje się oczywiste, że chodzi o centrum lub inną ruchliwą lokalizację. Algorytm natomiast uchwyci się szczegółu, nawet tylko pozornie powiązanego.

Co to oznacza? Połączenie modeli ML i ekspertów z danej domeny

Pomimo tych wad modele ML pozostają bardzo skuteczne. Ich użycie i znaczenie będzie rosło. Dokończenie słowa, gdy piszemy SMS-a, poprawa pisowni w mailu, podsunięcie ciekawego artykułu czy interesującego nas filmu lub produktu – to wszystko przykłady modeli ML. To automatyzacja szybkich decyzji. Jeśli jednak chodzi o decyzje, podejmowane przez menedżerów, znaczenie modeli ML jest mniejsze. Chcąc zrozumieć jakieś zjawisko na tyle, aby mieć wpływ na jego wynik, musimy w nasz model włączyć umiejętności i doświadczenie ekspertów.

Wiedza na temat znaczenia różnych czynników, ich powiązania i ostatecznego wpływu na wynik będzie pochodzić właśnie od nich. Możliwe jest, że model, który powstanie, używając danych, zweryfikuje część tej wiedzy i skłoni ekspertów do modyfikacji ich przekonań, ale pierwszym punktem będzie doświadczenie ludzi.

Jeśli mamy do czynienia z nowym zjawiskiem, gdzie wiedza na temat przyczyn i skutków nie jest jeszcze pełna, niezbędne okażą się eksperymenty. To jedyny sposób na zrozumienie wpływu różnych elementów na badanie danego zdarzenia. Tak jak przy testowaniu leków, kiedy eksperymentalnie bada się losowo wybraną grupę klientów poddanych określonej interwencji i porównuje się jej wynik z grupą kontrolną o podobnej charakterystyce (jednak niepoddanej np. kuracji czy leczeniu). Jeżeli rezultaty w tych grupach będą różne, mamy dowód na to, że interwencja przynosi skutek.

Kiedy następnym razem spotkają się Państwo ze stwierdzeniem, że coś na coś wpływa, warto zapytać, jaki jest na to dowód. Jeśli to zwyczajna korelacja w danych, to warto zastanowić się, czy może istnieje inny czynnik, który oddziałuje zarówno na to, co nam przedstawiono jako przyczynę, jak i na to, co pokazano jako skutek.

Korelacja vs przyczyna

Korelacja – to powiązanie albo wzór między dwoma zmiennymi. Możemy narysować jedną zmienną na osi X a drugą na Y i zobaczymy, że punkty układają się we wzór (np. linię wznosząca się do góry).

Przyczyna – to znaczy, że jedno zdarzenie wpływa na drugie. Związek przyczynowy może być ustalony tylko poprzez odpowiednio zaprojektowany eksperyment. W takim eksperymencie podobne grupy otrzymują różne interwencje, a wyniki w każdej z grup są oceniane. Możemy uznać, że interwencja wywołuje określony skutek, jeśli wyniki w tych grupach wystarczająco się różnią.

Dlaczego korelacja nie oznacza przyczyny

Nawet jeśli dwie zmienne są skorelowane, nie możemy stwierdzić, że jedna powoduje zmiany drugiej. To powiązanie może być przypadkowe lub inny czynnik może powodować, że obie wartości się zmieniają.

Inne artykuły tego autora

Zapisz się do newslettera