TI/Uczenie maszynowe

Z Brain-wiki

Przykład: ocena zdolności kredytowej

noframe

Przed udzieleniem kredytu bank ocenia tzw. zdolność kredytową potencjalnego kredytobiorcy. Chodzi konkretnie o prawdopodobieństwo tego, że kredyt będzie spłacany. Tradycyjnie decyzje takie podejmowali doświadczeni urzędnicy, na podstawie:

  • danych potencjalnego kredytobiorcy — na przykład takich, jak na powyższym rysunku
  • doświadczenia opartego na faktycznej spłacalności udzielanych wcześniej kredytów.

Jeśli "doświadczenie" potraktujemy jako wiedzę nabytą przez konkretnego urzędnika, decyzja będzie mniej lub bardziej subiektywna — na przykład lepsze wrażenie zrobi być może osoba w drogim garniturze, co niekoniecznie musi wpływać na faktyczną zdolność kredytową. Dlatego w szukamy coraz bardziej obiektywnych metod, opartych na konkretnych danych. Bank mógłby spisać doświadczenia wszystkich urzędników w postaci reguł typu "osoba bez stałego zatrudnienia, pomimo wysokiego stanu gotówki na kontach jest potencjalnym kłopotem, kredytu nie udzielamy".

Żeby proces był całkowicie obiektywny, możemy go zalgorytmizować, czyli przedstawić w formie algorytmu. Po przypisaniu wartości liczbowych parametrom A, B, C, D, E i F, mógłby on wyglądać na przykład tak:

  1. oblicz [math]x = w_1 A +w_2 B + w_3 C - w_4 D - w_5 E - w_6 F[/math]
  2. jeśli [math]x \geq 0[/math], przyznaj kredyt, koniec
  3. jeśli [math]x\lt 0[/math], odmów kredytu, koniec

Skąd wziąć wartości współczynników (wag) [math] w_i[/math], określających względne znaczenie poszczególnych parametrów? Oczywiście z doświadczenia. Ale jak? Tu z pomocą przychodzi statystyka.

Uczenie maszynowe

W najprostzym sformułowaniu uczenie maszynowe to zbiór metod statystycznych, które na podstawie danych uczących (doświadczenie) tworzą algorytmy pozwalające klasyfikować dane, których w zbiorze uczącym nie było. Można je próbować dobrać na podstawie posiadanych danych tak, żeby dla osób, które wcześniej nie spłacały kredytów, równanie dawało wartości ujemne, a dla spłacających regularnie — dodatnie. Nawet w tak drastycznie uproszczonym przykładzie mamy sześć zmiennych A--D — uprośćmy go jeszcze bardziej, do dwóch zmiennych "obciążenia" i "majątek". Wtedy dane każdej osoby, której bank kiedyś udzielił kredytu, można przedstawić w dwóch wymiarach, czyli na płaszczyźnie. Dane osób, które spłacały, oznaczymy zielonym, a pozostałych — czerwonym kolorem: LDA bank2.png

Pozostaje wykreśli linię, oddzeilającą te dwie grupy. Nowy kandydat na kredytobiorcę po wypełnieniu informacji staje się punktem w tej przestrzeni. Jeśli punkt znajdzie się ponad kreską, bank udzieli kredytu.