Uczenie maszynowe i sztuczne sieci neuronowe/Wybor cech
Uczenie_maszynowe_i_sztuczne_sieci_neuronowe_cw/Wybór cech
Wstęp
W uczeniu maszynowym dopasowywane modele są opisywane przez pewną liczbę parametrów. Regułą jest, że estymując parametry powinniśmy dysponowac zbiorem uczącym którego liczebność przekracza co najmniej kilkukrotnie liczbę parametrów. Przydatne są zatem techniki wybierania optymalnych cech, które są informatywne dla klasyfikacji i jednocześnie nie są redundantne (nie powtarzają tych samych informacji).
Na tych zajęciach zapoznamy się z dwiema techniką rangowanie cech z rekursywną eliminacją bazującą na wagach przypisanych cechom przy dopasowaniu modelu. Najpierw model dopasowywany jest z wykorzystaniem wszystkich cech. Następnie do każdej z cech przypisane są wagi. Cechy odpowiadające najmniejszym bezwzględnym wartościom współczynników są usuwane z przykładów w ciągu uczącym. Dopasowanie modelu jest powtarzane dla tak "przyciętego" ciągu uczącego. Np. współczynniki w modelu liniowym: wektor cech [math]X=[x_1,x_2, x_3]^T[/math] wektor współczynników [math]A = [a_1, a_2, a_3][/math] i hipoteza [math]h= A^T X[/math]. Jeśli [math]a_2[/math] jest znacząco mniejszy niż [math]a_1[/math] i [math]a_3[/math], to cechy [math]x_2[/math] można usunąć z wektorów w ciągu uczącym, bo nie niosą ważnych informacji, ich obecność nie wpływa bardzo na wartość hipotezy. Oczywiście, żeby to rozumowanie było prawidłowe zakresy zmienności wszystkich cech powinny być porównywalne. (implementacja w http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html#sklearn.feature_selection.RFE)