<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="pl">
	<id>http://brain.fuw.edu.pl/edu/index.php?action=history&amp;feed=atom&amp;title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe%2FWyk%C5%82ad_6</id>
	<title>Uczenie maszynowe i sztuczne sieci neuronowe/Wykład 6 - Historia wersji</title>
	<link rel="self" type="application/atom+xml" href="http://brain.fuw.edu.pl/edu/index.php?action=history&amp;feed=atom&amp;title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe%2FWyk%C5%82ad_6"/>
	<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;action=history"/>
	<updated>2026-05-03T17:32:42Z</updated>
	<subtitle>Historia wersji tej strony wiki</subtitle>
	<generator>MediaWiki 1.34.1</generator>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=6703&amp;oldid=prev</id>
		<title>SuperAdmin: /* Rozkład Bernouliego */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=6703&amp;oldid=prev"/>
		<updated>2017-03-13T11:42:21Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Rozkład Bernouliego&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 11:42, 13 mar 2017&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l69&quot; &gt;Linia 69:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 69:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\end{array}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\end{array}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Zatem w rozkładzie Bernouliego parametrem naturalnym jest &amp;lt;math&amp;gt; \eta = \log \frac{&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;1&lt;/del&gt;}{1-\phi}&amp;lt;/math&amp;gt;.  &lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Zatem w rozkładzie Bernouliego parametrem naturalnym jest &amp;lt;math&amp;gt; \eta = \log \frac{&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;\phi&lt;/ins&gt;}{1-\phi}&amp;lt;/math&amp;gt;.  &lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Warto zauważyć, że jeśli przekształcić to wyrażenie ze względu na &amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; to dostaniemy dobrzez znaną funkcję logistyczną: &amp;lt;math&amp;gt;\phi = \frac{1}{1+\exp(-\eta)} &amp;lt;/math&amp;gt;.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Warto zauważyć, że jeśli przekształcić to wyrażenie ze względu na &amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; to dostaniemy dobrzez znaną funkcję logistyczną: &amp;lt;math&amp;gt;\phi = \frac{1}{1+\exp(-\eta)} &amp;lt;/math&amp;gt;.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>SuperAdmin</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=6434&amp;oldid=prev</id>
		<title>Jarekz o 16:30, 16 lut 2017</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=6434&amp;oldid=prev"/>
		<updated>2017-02-16T16:30:33Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 16:30, 16 lut 2017&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l1&quot; &gt;Linia 1:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 1:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;[[Uczenie_maszynowe_i_sztuczne_sieci_neuronowe|powrót]]&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=Wstęp=&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=Wstęp=&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;W tym wykładzie zajmiemy się problemem konstrukcji Uogulnionych Modeli Liniowych (ang. ''generalized linear models'' - GML). Metodologia ta pozwala objąć w jednym formaliźmie zarówno problemy regresji jak i klasyfikacji. W pewnym sensie klasyfikacja jest podobna do regresji, z tą różnicą, że zmienne które chcemy przewidywać mogą przybierać tylko niewielką ilość dyskretnych wartości. Na początek skupimy się na dwóch nieco już oswojonych przykładach, pod koniec dołożymy jeden bardzo przydatny przykład klasyfikacji wielorakiej (z więcej niż dwoma klasami).  &lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;W tym wykładzie zajmiemy się problemem konstrukcji Uogulnionych Modeli Liniowych (ang. ''generalized linear models'' - GML). Metodologia ta pozwala objąć w jednym formaliźmie zarówno problemy regresji jak i klasyfikacji. W pewnym sensie klasyfikacja jest podobna do regresji, z tą różnicą, że zmienne które chcemy przewidywać mogą przybierać tylko niewielką ilość dyskretnych wartości. Na początek skupimy się na dwóch nieco już oswojonych przykładach, pod koniec dołożymy jeden bardzo przydatny przykład klasyfikacji wielorakiej (z więcej niż dwoma klasami).  &lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=4861&amp;oldid=prev</id>
		<title>Jarekz: /* Regresja wieloraka (softmax) jako GLM */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=4861&amp;oldid=prev"/>
		<updated>2016-03-06T17:34:57Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Regresja wieloraka (softmax) jako GLM&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 17:34, 6 mar 2016&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l281&quot; &gt;Linia 281:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 281:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;                   \end{array}  &lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;                   \end{array}  &lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;                  \right]\\&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;                  \right]\\&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;\end{array}&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&amp;lt;/math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;::&amp;lt;math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;\begin{array}{lcl}&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;           &amp;amp;=&amp;amp; \left[&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;           &amp;amp;=&amp;amp; \left[&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;                   \begin{array}{l}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;                   \begin{array}{l}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=632&amp;oldid=prev</id>
		<title>Jarekz: /* Funkcja wiarygodności */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=632&amp;oldid=prev"/>
		<updated>2015-05-21T15:43:05Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Funkcja wiarygodności&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 15:43, 21 maj 2015&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l47&quot; &gt;Linia 47:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 47:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;  + \alpha \sum_{j=1}^m (y^{(j)} - h_\theta( x^{(j)}) )x_i^{(j)} &amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;  + \alpha \sum_{j=1}^m (y^{(j)} - h_\theta( x^{(j)}) )x_i^{(j)} &amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Może to się wydać dziwne, ale startując z zupełnie innych założeń i stosując optymalizację innej funkcji dostaliśmy taką samą regułę zmiany parametrów jak przy gradientowej minimalizacji funkcji (średniokwadratowej) kosztu&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Może to się wydać dziwne, ale startując z zupełnie innych założeń i stosując optymalizację innej funkcji dostaliśmy taką samą regułę zmiany parametrów jak przy gradientowej minimalizacji funkcji (średniokwadratowej) kosztu&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;  ([[&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;STAT:&lt;/del&gt;Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_4#Pojedynczy_neuron:_regu.C5.82a_delta|proszę porównać]])!&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;  ([[Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_4#Pojedynczy_neuron:_regu.C5.82a_delta|proszę porównać]])!&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=Uogólnione modele liniowe=&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=Uogólnione modele liniowe=&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=630&amp;oldid=prev</id>
		<title>Jarekz: /* Uogólnione modele liniowe */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=630&amp;oldid=prev"/>
		<updated>2015-05-21T15:42:39Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Uogólnione modele liniowe&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 15:42, 21 maj 2015&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l50&quot; &gt;Linia 50:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 50:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=Uogólnione modele liniowe=&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;=Uogólnione modele liniowe=&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Dotychczas rozważaliśmy przykłady [[&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;STAT:&lt;/del&gt;Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_1#Interpretacja_probabilistyczna|regresji]] gdzie zwykle &amp;lt;math&amp;gt;y \in \mathcal{N}(\mu,\sigma^2)&amp;lt;/math&amp;gt; oraz klasyfikacji gdzie &amp;lt;math&amp;gt;y \in \text{Bernoulli}(\phi)&amp;lt;/math&amp;gt;. Wkrótce przekonamy się, że oba te problemy sa szczególnymi przypadkami większej rodziny modleli, tzw. uogólnionych modeli liniowych.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Dotychczas rozważaliśmy przykłady [[Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_1#Interpretacja_probabilistyczna|regresji]] gdzie zwykle &amp;lt;math&amp;gt;y \in \mathcal{N}(\mu,\sigma^2)&amp;lt;/math&amp;gt; oraz klasyfikacji gdzie &amp;lt;math&amp;gt;y \in \text{Bernoulli}(\phi)&amp;lt;/math&amp;gt;. Wkrótce przekonamy się, że oba te problemy sa szczególnymi przypadkami większej rodziny modleli, tzw. uogólnionych modeli liniowych.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;==Rodzina wykładnicza==&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;==Rodzina wykładnicza==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Mówimy, że dany rozkład należy do rodziny wykładniczej jeśli da się go zapisać w postaci:&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Mówimy, że dany rozkład należy do rodziny wykładniczej jeśli da się go zapisać w postaci:&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=629&amp;oldid=prev</id>
		<title>Jarekz: /* Regresja logistyczna jako GLM */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=629&amp;oldid=prev"/>
		<updated>2015-05-21T15:42:14Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Regresja logistyczna jako GLM&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 15:42, 21 maj 2015&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l126&quot; &gt;Linia 126:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 126:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== Regresja logistyczna jako GLM==&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== Regresja logistyczna jako GLM==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Rozważmy teraz regresję logistyczną. Interesuje nas tutaj klasyfikacja binarna, więc &amp;lt;math&amp;gt;y \in \{0,1\}&amp;lt;/math&amp;gt;. Ponieważ &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; przyjmuje wartości binarne to naturalnym rozkładem prawdopodobieństwa do modelowania warunkowego rozkładu &amp;lt;math&amp;gt;(y|x)&amp;lt;/math&amp;gt; jest rozkład Bernoulliego z parametrem &amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; (&amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; jest prawdopodbieństwem tego, że ''y''=1). Pokazaliśmy już wcześniej, że rozkład ten należy do rodziny RozkładówWykładniczych i, że [[&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;STAT:&lt;/del&gt;Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_6#Rozk.C5.82ad_Bernouliego|w tym przypadku]] &amp;lt;math&amp;gt;\phi = \frac{1}{1+\exp(-\eta)}&amp;lt;/math&amp;gt;. Dalej zauważmy, że jeśli &amp;lt;math&amp;gt;(y|x;\theta) \sim \text{Bernoulli}(\phi)&amp;lt;/math&amp;gt;, to &amp;lt;math&amp;gt;E[y|x;\theta] = \phi&amp;lt;/math&amp;gt;, więc analogicznie jak dla regresji liniowej mamy:&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Rozważmy teraz regresję logistyczną. Interesuje nas tutaj klasyfikacja binarna, więc &amp;lt;math&amp;gt;y \in \{0,1\}&amp;lt;/math&amp;gt;. Ponieważ &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; przyjmuje wartości binarne to naturalnym rozkładem prawdopodobieństwa do modelowania warunkowego rozkładu &amp;lt;math&amp;gt;(y|x)&amp;lt;/math&amp;gt; jest rozkład Bernoulliego z parametrem &amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; (&amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; jest prawdopodbieństwem tego, że ''y''=1). Pokazaliśmy już wcześniej, że rozkład ten należy do rodziny RozkładówWykładniczych i, że [[Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_6#Rozk.C5.82ad_Bernouliego|w tym przypadku]] &amp;lt;math&amp;gt;\phi = \frac{1}{1+\exp(-\eta)}&amp;lt;/math&amp;gt;. Dalej zauważmy, że jeśli &amp;lt;math&amp;gt;(y|x;\theta) \sim \text{Bernoulli}(\phi)&amp;lt;/math&amp;gt;, to &amp;lt;math&amp;gt;E[y|x;\theta] = \phi&amp;lt;/math&amp;gt;, więc analogicznie jak dla regresji liniowej mamy:&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;:&amp;lt;math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;:&amp;lt;math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\begin{array}{lcl}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\begin{array}{lcl}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=628&amp;oldid=prev</id>
		<title>Jarekz: /* Regresja liniowa jako GLM */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=628&amp;oldid=prev"/>
		<updated>2015-05-21T15:41:57Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Regresja liniowa jako GLM&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 15:41, 21 maj 2015&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l109&quot; &gt;Linia 109:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 109:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Te trzy założenia pozwalają wyprowadzić klasę algorytmów uczących GLM. Poniżej przedstawimy trzy przykłady.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Te trzy założenia pozwalają wyprowadzić klasę algorytmów uczących GLM. Poniżej przedstawimy trzy przykłady.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== Regresja liniowa jako GLM==&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;== Regresja liniowa jako GLM==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Przekonajmy się, że regresja liniowa jest szczególnym przykładem GLM. Zmienna zależna &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; jest ciągła i jej prawdopodobieństwo warunkowe dla danego &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; jest modelowane przez rozkład Gaussa &amp;lt;math&amp;gt;N(\mu,\sigma)&amp;lt;/math&amp;gt; (&amp;lt;math&amp;gt;\mu&amp;lt;/math&amp;gt; może zależeć od &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;). Tak więc w tym wypadku wspomnianą w założeniu 1 RodzinąWykładniczą&amp;lt;math&amp;gt;(\eta)&amp;lt;/math&amp;gt; jest rozkład Gaussa. Tak jak widzieliśmy [[&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;STAT:&lt;/del&gt;Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_6#Rozk.C5.82ad_Gaussa|wcześniej]] w tym przypadku &amp;lt;math&amp;gt;\eta = \mu&amp;lt;/math&amp;gt;. Dalej mamy:&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Przekonajmy się, że regresja liniowa jest szczególnym przykładem GLM. Zmienna zależna &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; jest ciągła i jej prawdopodobieństwo warunkowe dla danego &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; jest modelowane przez rozkład Gaussa &amp;lt;math&amp;gt;N(\mu,\sigma)&amp;lt;/math&amp;gt; (&amp;lt;math&amp;gt;\mu&amp;lt;/math&amp;gt; może zależeć od &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;). Tak więc w tym wypadku wspomnianą w założeniu 1 RodzinąWykładniczą&amp;lt;math&amp;gt;(\eta)&amp;lt;/math&amp;gt; jest rozkład Gaussa. Tak jak widzieliśmy [[Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_6#Rozk.C5.82ad_Gaussa|wcześniej]] w tym przypadku &amp;lt;math&amp;gt;\eta = \mu&amp;lt;/math&amp;gt;. Dalej mamy:&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;:&amp;lt;math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;:&amp;lt;math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\begin{array}{lcl}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\begin{array}{lcl}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=627&amp;oldid=prev</id>
		<title>Jarekz: Utworzono nową stronę &quot;=Wstęp= W tym wykładzie zajmiemy się problemem konstrukcji Uogulnionych Modeli Liniowych (ang. ''generalized linear models'' - GML). Metodologia ta pozwala objąć w...&quot;</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_6&amp;diff=627&amp;oldid=prev"/>
		<updated>2015-05-21T15:41:33Z</updated>

		<summary type="html">&lt;p&gt;Utworzono nową stronę &amp;quot;=Wstęp= W tym wykładzie zajmiemy się problemem konstrukcji Uogulnionych Modeli Liniowych (ang. &amp;#039;&amp;#039;generalized linear models&amp;#039;&amp;#039; - GML). Metodologia ta pozwala objąć w...&amp;quot;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Nowa strona&lt;/b&gt;&lt;/p&gt;&lt;div&gt;=Wstęp=&lt;br /&gt;
W tym wykładzie zajmiemy się problemem konstrukcji Uogulnionych Modeli Liniowych (ang. ''generalized linear models'' - GML). Metodologia ta pozwala objąć w jednym formaliźmie zarówno problemy regresji jak i klasyfikacji. W pewnym sensie klasyfikacja jest podobna do regresji, z tą różnicą, że zmienne które chcemy przewidywać mogą przybierać tylko niewielką ilość dyskretnych wartości. Na początek skupimy się na dwóch nieco już oswojonych przykładach, pod koniec dołożymy jeden bardzo przydatny przykład klasyfikacji wielorakiej (z więcej niż dwoma klasami). &lt;br /&gt;
&lt;br /&gt;
Zaczniemy od problemu klasyfikacji binarnej, czyli takiej w której wejściom mamy przypisywać jedną z dwóch klas (podobnie jak to było dla preceptronu Rosenblatta), np. oznaczonych 0 i 1. Na chwilę też odłożymy na bok sieci i zajmiemy się tym zagadnieniem bardziej z punktu widzenia statystyki.&lt;br /&gt;
&lt;br /&gt;
=Regresja logistyczna=&lt;br /&gt;
==Hipoteza==&lt;br /&gt;
W tym podejściu ignorujemy fakt, że zbiór wartości jest dyskretny. Jako funkcję pełniącą rolę [[Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1#Uczenie_z_nadzorem|hipotezy]] wybierzemy sigmiodę uzyskaną z funkcji logistycznej, znaną nam już jako jedną z popularnych form nieliniowości neuronów:&lt;br /&gt;
:&amp;lt;math&amp;gt;g(s) = \frac{1}{1+ \exp(-s)}&amp;lt;/math&amp;gt;&lt;br /&gt;
która wraz z parametrami &amp;lt;math&amp;gt;\theta&amp;lt;/math&amp;gt; i wejściami &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; jest postaci:&lt;br /&gt;
:&amp;lt;math&amp;gt;h_\theta(x) = g(\theta^T x) =  \frac{1}{1+ \exp(-\theta^T x)}&amp;lt;/math&amp;gt;&lt;br /&gt;
Pod koniec wykładu okaże się dlaczego taki akurat wybór hipotezy jest bardzo naturalny.&lt;br /&gt;
&lt;br /&gt;
==Estymacja parametrów==&lt;br /&gt;
Jak znaleźć parametry &amp;lt;math&amp;gt;\theta&amp;lt;/math&amp;gt;? W języku funkcji kosztu  moglibyśmy oczywiście zapostulować odpowiednią funkcję kosztu i zastosować do niej minimalizację gradientową. Tu jednak spróbujemy pokazać, że analogiczny algorytm można też wyprowadzić z interpretacji probabilistycznej. Dzięki temu będziemy mogli nabrać nowego wglądu w proces doboru parametrów. &lt;br /&gt;
&lt;br /&gt;
Hipotezę wybraliśmy tak, że:&lt;br /&gt;
:&amp;lt;math&amp;gt; P(y=1|x;\theta) = h_\theta(x)  &amp;lt;/math&amp;gt;&lt;br /&gt;
:&amp;lt;math&amp;gt; P(y=0|x;\theta) = 1- h_\theta(x) &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Zauważmy, że powyższe wyrażenia można zapisać w zwartej formie:&lt;br /&gt;
:&amp;lt;math&amp;gt;P(y|x;\theta) = \left(h_\theta(x)\right)^y \left(1-h_\theta(x)\right)^{1-y}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Funkcja wiarygodności===&lt;br /&gt;
Zakładając, że przykłady zbioru uczącego są niezależne od siebie prawdopodobieństwo zaobserwowania całego zbioru uczącego &amp;lt;math&amp;gt;{\left(X^{(j)},Y^{(j)}\right)}_{j=1,\dots,m}&amp;lt;/math&amp;gt; wynosi:&lt;br /&gt;
:&amp;lt;math&amp;gt;P(Y|X;\theta) = \prod_{j=1}^m P(y^{(j)}|x^{(j)};\theta)&amp;lt;/math&amp;gt;&lt;br /&gt;
Możemy to prawdopodobieństwo potraktować jako funkcję parametrów &amp;lt;math&amp;gt;\theta&amp;lt;/math&amp;gt;, nazywamy ją wówczas ''funkcją wiarygodności'' i oznaczamy &amp;lt;math&amp;gt;L(\theta)&amp;lt;/math&amp;gt;.&lt;br /&gt;
:&amp;lt;math&amp;gt;L(\theta)= \prod_{j=1}^m P(y^{(j)}|x^{(j)};\theta) = &lt;br /&gt;
\prod_{j=1}^m \left(h_\theta(x^{(j)})\right)&lt;br /&gt;
^{y^{(j)}} \left(1-h_\theta(x^{(j)})\right)^{1-y^{(j)}}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Łatwiejsza w posługiwaniu się jest funkcja log-wiarygodności:&lt;br /&gt;
:&amp;lt;math&amp;gt;l(\theta) = \log L(\theta) = \sum_{j=1}^m y^{(j)} \log h_{\theta}(x^{(j)}) + (1 - y^{(j)}) \log (1 - h_{\theta}(x^{(j)}))&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Dobre parametry &amp;lt;math&amp;gt;\theta&amp;lt;/math&amp;gt; to te, dla których zaobserwowanie ciągu uczącego jest największe. Aby je znaleźć należy zmaksymalizować funkcję wiarygodności, czy też dowolną monotonicznie rosnącą funkcję funkcji wiarygodności np. log-wiarygodność. Robimy to modyfikując parametry zgodnie z jej pochodną:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
\frac{\partial}{\partial \theta_i} l(\theta) &amp;amp;=&amp;amp;  \sum_{j=1}^m\left(y^{(j)}\frac{1}{g(\theta^T x^{(j)})} - (1-y^{(j)})\frac{1}{1-g(\theta^Tx^{(j)})} \right) \frac{\partial}{\partial \theta_i} g(\theta^T x^{(j)})\\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum_{j=1}^m \left(y^{(j)}\frac{1}{g(\theta^T x^{(j)})} - (1-y^{(j)})\frac{1}{1-g(\theta^Tx^{(j)})} \right) g(\theta^T x^{(j)})(1-g(\theta^T x^{(j)})) \frac{\partial}{\partial \theta_i} (\theta^T x^{(j)})\\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum_{j=1}^m \left( y^{(j)} (1-g(\theta^T x^{(j)})) - (1-y^{(j)})g(\theta^T x^{(j)})\right)x_i^{(j)}\\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum_{j=1}^m (y^{(j)}-h_\theta(x^{(j)}))x_i^{(j)}&lt;br /&gt;
\end{array}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
skorzystaliśmy po drodze z postaci pochodnej funkcji logistycznej.&lt;br /&gt;
Zatem aby zwiększać funkcję wiarygodności powinniśmy parametry zmieniać zgodnie z obliczoną pochodną:&lt;br /&gt;
:&amp;lt;math&amp;gt;\theta_i^{(j+1)} =\theta_i^{(j)} &lt;br /&gt;
 + \alpha \sum_{j=1}^m (y^{(j)} - h_\theta( x^{(j)}) )x_i^{(j)} &amp;lt;/math&amp;gt;&lt;br /&gt;
Może to się wydać dziwne, ale startując z zupełnie innych założeń i stosując optymalizację innej funkcji dostaliśmy taką samą regułę zmiany parametrów jak przy gradientowej minimalizacji funkcji (średniokwadratowej) kosztu&lt;br /&gt;
 ([[STAT:Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_4#Pojedynczy_neuron:_regu.C5.82a_delta|proszę porównać]])!&lt;br /&gt;
&lt;br /&gt;
=Uogólnione modele liniowe=&lt;br /&gt;
Dotychczas rozważaliśmy przykłady [[STAT:Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_1#Interpretacja_probabilistyczna|regresji]] gdzie zwykle &amp;lt;math&amp;gt;y \in \mathcal{N}(\mu,\sigma^2)&amp;lt;/math&amp;gt; oraz klasyfikacji gdzie &amp;lt;math&amp;gt;y \in \text{Bernoulli}(\phi)&amp;lt;/math&amp;gt;. Wkrótce przekonamy się, że oba te problemy sa szczególnymi przypadkami większej rodziny modleli, tzw. uogólnionych modeli liniowych.&lt;br /&gt;
==Rodzina wykładnicza==&lt;br /&gt;
Mówimy, że dany rozkład należy do rodziny wykładniczej jeśli da się go zapisać w postaci:&lt;br /&gt;
:&amp;lt;math&amp;gt; p(y;\eta) = b(y) \exp(\eta^T T(y) - a(\eta))&amp;lt;/math&amp;gt; (*)&lt;br /&gt;
tutaj:&lt;br /&gt;
* &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; nazywana jest parametrem naturalnym lub kanonicznym dystrybucji; &lt;br /&gt;
* &amp;lt;math&amp;gt;T(y)&amp;lt;/math&amp;gt; jest tzw. statystyką wystarczającą (często &amp;lt;math&amp;gt;T(y) = y&amp;lt;/math&amp;gt;); &lt;br /&gt;
*  wielkość &amp;lt;math&amp;gt;\exp(-a(\eta))&amp;lt;/math&amp;gt; jest czynnikiem normalizującym, takim aby rozkład &amp;lt;math&amp;gt;p(y;\eta)&amp;lt;/math&amp;gt; sumował/całkował się do 1.&lt;br /&gt;
Tak więc członka rodziny wykładniczej określamy podając konkretne postaci &amp;lt;math&amp;gt;\eta,\, T(y),\, a(\eta)\, \text{oraz} \, b(y)&amp;lt;/math&amp;gt;.&lt;br /&gt;
===Rozkład Bernouliego ===&lt;br /&gt;
Pokażemy teraz, że rozkład Bernouliego należy do rodziny wykładniczej. &amp;lt;math&amp;gt;\text{Bernouli}(\phi)&amp;lt;/math&amp;gt; to taki rozkład wartości &amp;lt;math&amp;gt;y \in \{0,1\}&amp;lt;/math&amp;gt;, że &amp;lt;math&amp;gt;p(y=1;\phi) = \phi&amp;lt;/math&amp;gt; zaś &amp;lt;math&amp;gt;p(y=0;\phi) = 1-\phi&amp;lt;/math&amp;gt;. w sposób zwarty możemy napisać ten rozkład tak:&lt;br /&gt;
:&amp;lt;math&amp;gt; &lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
p(y;\phi) &amp;amp;=&amp;amp; \phi^y(1-\phi)^{1-y} \\&lt;br /&gt;
&amp;amp;=&amp;amp; ﻿\exp(y \log \phi + (1-y) \log (1-\phi))\\&lt;br /&gt;
&amp;amp;=&amp;amp; \exp\left( y \log \frac{\phi}{1-\phi} + \log(1-\phi)\right)&lt;br /&gt;
\end{array}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Zatem w rozkładzie Bernouliego parametrem naturalnym jest &amp;lt;math&amp;gt; \eta = \log \frac{1}{1-\phi}&amp;lt;/math&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
Warto zauważyć, że jeśli przekształcić to wyrażenie ze względu na &amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; to dostaniemy dobrzez znaną funkcję logistyczną: &amp;lt;math&amp;gt;\phi = \frac{1}{1+\exp(-\eta)} &amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Widzimy też, że:&lt;br /&gt;
:&amp;lt;math&amp;gt;T(y) = y&amp;lt;/math&amp;gt;&lt;br /&gt;
:&amp;lt;math&amp;gt;a(\eta) = -\log(1-\phi) = \log (1+exp(-\eta))&amp;lt;/math&amp;gt;&lt;br /&gt;
:&amp;lt;math&amp;gt;b(y) = 1&amp;lt;/math&amp;gt;&lt;br /&gt;
Czyli możemy przedstawić ten rozkład w postaci (*).&lt;br /&gt;
&lt;br /&gt;
===Rozkład Gaussa===&lt;br /&gt;
Teraz rozważymy rozkład  Gaussa. Do estymacji parametrów regresji liniowej nie musieliśmy używać jego wariancji, więc dla uproszczenia obliczeń przyjmiemy, że nasz rozkład Gaussa ma wariancję &amp;lt;math&amp;gt;\sigma^2 = 1&amp;lt;/math&amp;gt;.&lt;br /&gt;
Mamy:&lt;br /&gt;
:&amp;lt;math&amp;gt; &lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
p(y;\mu) &amp;amp;=&amp;amp; \frac{1}{\sqrt{2 \pi}} \exp\left( -\frac{1}{2} (y-\mu)^2\right)\\&lt;br /&gt;
&amp;amp;=&amp;amp; \frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{1}{2}y^2 \right) \exp\left(\mu y - \frac{1}{2}\mu^2 \right)&lt;br /&gt;
\end{array}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Widzimy więc, że rozkład Gaussa należy do rodziny wykładniczej z następującymi parametrami:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
\eta &amp;amp;=&amp;amp; \mu \\&lt;br /&gt;
T(y) &amp;amp;=&amp;amp; y \\&lt;br /&gt;
a(\eta) &amp;amp;=&amp;amp; \mu^2/2 = \eta^2/2 \\&lt;br /&gt;
b(y) &amp;amp;=&amp;amp; \frac{1}{\sqrt{2 \pi}} \exp\left( -\frac{1}{2} y^2\right)&lt;br /&gt;
\end{array}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Rodzina wykładnicza jest znacznie bogatsza. Zawiera w sobie rozkłady wielorakie, Poissona (do modelowania zliczeń), gamma i wykładnicze (np. interwałów czasowych) i wiele innych. W kolejnej sekcji podamy ogólny sposób na konstruowanie modeli, w których &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; pochodzi z rozkładów wykładniczych.&lt;br /&gt;
&lt;br /&gt;
=Konstrukcja uogólnionego modelu liniowego=&lt;br /&gt;
Załóżmy, że chcemy zbudować model służący do szacowania  liczby (''y'') klientów odwiedzających sklep (lub witrynę) w dowolnej godzinie, na podstawie pewnych cech ''x'', takich jak promocje, ostatnie reklamy, prognoza pogody, dzień tygodnia, itd. Wiemy, że rozkład Poissona zwykle daje dobry model zliczeń np. liczby odwiedzających. Wiedząc o tym, jak możemy wymyślić model dla naszego problemu? Na szczęście, rozkład Poissona należy do rodziny rozkładów wykładniczych, więc możemy zastosować uogólniony model liniowy (GLM). W tej sekcji opiszemy metodę konstruowania modeli GLM.&lt;br /&gt;
&lt;br /&gt;
W ogólności chcielibyśmy przewidywać wartość zmiennej losowej (zależnej) ''y'' traktując ją jako funkcję zmiennej (niezależnej) ''x''. Aby móc zastosować tu metodologię GLM musimy poczynić następujące założenia:&lt;br /&gt;
# Zmienna ''y'' przy ustalonych ''x''  i &amp;lt;math&amp;gt;\theta&amp;lt;/math&amp;gt; podlega pewnemu rozkładowi wykładniczemu z parametrem &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; tzn.: &amp;lt;math&amp;gt;(y|x;\theta) \sim&amp;lt;/math&amp;gt; RodzinaWykładnicza(&amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt;) &lt;br /&gt;
# Naszym celem jest estymacja wartości oczekiwanej &amp;lt;math&amp;gt;T(y)&amp;lt;/math&amp;gt; mając dany &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;. W wielu przypadkach mamy &amp;lt;math&amp;gt;T(y) = y&amp;lt;/math&amp;gt;, co oznacza, że chcielibyśmy aby hipoteza otrzymana w wyniku uczenia spełniałą warunek &amp;lt;math&amp;gt;h(x)= E[y|x]&amp;lt;/math&amp;gt;. (Zauważmy, że własność ta jest spełniona dla regresji liniowej i logistycznej. Np. dla regresji logistycznej mamy &amp;lt;math&amp;gt;h_\theta(x) = p(y=1|x;\theta) = 0 \cdot p(y=0|x;\theta) + 1\cdot p(y=1|x;\theta) = E[y|x;\theta]&amp;lt;/math&amp;gt;).&lt;br /&gt;
# Parametr naturalny &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; jest '''liniowo''' związany z wejściem &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;: &amp;lt;math&amp;gt;\eta = \theta^T x&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Te trzy założenia pozwalają wyprowadzić klasę algorytmów uczących GLM. Poniżej przedstawimy trzy przykłady.&lt;br /&gt;
== Regresja liniowa jako GLM==&lt;br /&gt;
Przekonajmy się, że regresja liniowa jest szczególnym przykładem GLM. Zmienna zależna &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; jest ciągła i jej prawdopodobieństwo warunkowe dla danego &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; jest modelowane przez rozkład Gaussa &amp;lt;math&amp;gt;N(\mu,\sigma)&amp;lt;/math&amp;gt; (&amp;lt;math&amp;gt;\mu&amp;lt;/math&amp;gt; może zależeć od &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;). Tak więc w tym wypadku wspomnianą w założeniu 1 RodzinąWykładniczą&amp;lt;math&amp;gt;(\eta)&amp;lt;/math&amp;gt; jest rozkład Gaussa. Tak jak widzieliśmy [[STAT:Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_6#Rozk.C5.82ad_Gaussa|wcześniej]] w tym przypadku &amp;lt;math&amp;gt;\eta = \mu&amp;lt;/math&amp;gt;. Dalej mamy:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
h_\theta(x) &amp;amp;=&amp;amp; E[y|x;\theta]\\&lt;br /&gt;
&amp;amp;=&amp;amp; \mu \\&lt;br /&gt;
&amp;amp;=&amp;amp; \eta \\&lt;br /&gt;
&amp;amp;=&amp;amp; \theta^T x&lt;br /&gt;
\end{array}&lt;br /&gt;
 &amp;lt;/math&amp;gt;&lt;br /&gt;
* pierwsza równość wynika z założenia 2, &lt;br /&gt;
* druga równość wynika z tego, że &amp;lt;math&amp;gt;(y|x;\theta) \sim N(\mu,\sigma^2)&amp;lt;/math&amp;gt;, tak więc wartość oczekiwana wynosi &amp;lt;math&amp;gt;\mu&amp;lt;/math&amp;gt;&lt;br /&gt;
* trzecia równość wynika z założenia 1&lt;br /&gt;
* ostatnia równość wynika  z założenia 3&lt;br /&gt;
&lt;br /&gt;
Zauważmy jak przyjęcie założeń co do postaci rozkładu zmiennej zależnej i metodologi GLM (trzy założenia) prowadzą do konkretnej postaci hipotezy.&lt;br /&gt;
&lt;br /&gt;
== Regresja logistyczna jako GLM==&lt;br /&gt;
Rozważmy teraz regresję logistyczną. Interesuje nas tutaj klasyfikacja binarna, więc &amp;lt;math&amp;gt;y \in \{0,1\}&amp;lt;/math&amp;gt;. Ponieważ &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; przyjmuje wartości binarne to naturalnym rozkładem prawdopodobieństwa do modelowania warunkowego rozkładu &amp;lt;math&amp;gt;(y|x)&amp;lt;/math&amp;gt; jest rozkład Bernoulliego z parametrem &amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; (&amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; jest prawdopodbieństwem tego, że ''y''=1). Pokazaliśmy już wcześniej, że rozkład ten należy do rodziny RozkładówWykładniczych i, że [[STAT:Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wykład_6#Rozk.C5.82ad_Bernouliego|w tym przypadku]] &amp;lt;math&amp;gt;\phi = \frac{1}{1+\exp(-\eta)}&amp;lt;/math&amp;gt;. Dalej zauważmy, że jeśli &amp;lt;math&amp;gt;(y|x;\theta) \sim \text{Bernoulli}(\phi)&amp;lt;/math&amp;gt;, to &amp;lt;math&amp;gt;E[y|x;\theta] = \phi&amp;lt;/math&amp;gt;, więc analogicznie jak dla regresji liniowej mamy:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
h_\theta(x) &amp;amp;=&amp;amp; E[y|x;\theta]\\&lt;br /&gt;
&amp;amp;=&amp;amp; \phi \\&lt;br /&gt;
&amp;amp;=&amp;amp; \frac{1}{1+\exp(-\eta)} \\&lt;br /&gt;
&amp;amp;=&amp;amp; \frac{1}{1+\exp(-\theta^T x)}&lt;br /&gt;
\end{array}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Otrzymaliśmy więc funkcję hipotezy w postaci &amp;lt;math&amp;gt;h_\theta(x) = \frac{1}{1+\exp(-\theta^T x)}&amp;lt;/math&amp;gt;. To jest wytłumaczenie dlaczego stosuje się funkcje logistyczne w problemach klasyfikacji: jak tylko założymy, że zmienna zależna podlega rozkładowi Bernoulliego to funkcja logistyczna jest konsekwencją definicji uogólnionych modeli liniowych i rodziny rozkładów wykładniczych.&lt;br /&gt;
&lt;br /&gt;
Wprowadzimy tu jeszcze dwa pojęcia: &lt;br /&gt;
* funkcja &amp;lt;math&amp;gt;g&amp;lt;/math&amp;gt; dająca średnią rozkładu jako funkcję parametru naturalnego, &amp;lt;math&amp;gt;g(\eta) = E[T(y);\eta]&amp;lt;/math&amp;gt; nazywamy ''kanoniczną funkcją odpowiedzi'' (canonical response function)&lt;br /&gt;
* jej odwrotność, &amp;lt;math&amp;gt;g^{-1}&amp;lt;/math&amp;gt; nazywamy ''kanoniczną funkcją łączącą'' (canonical link function.)&lt;br /&gt;
&lt;br /&gt;
==Regresja wieloraka (softmax) jako GLM ==&lt;br /&gt;
Rozważmy jeszcze jeden przypadek modelu GLM. Tym razem nasz problem polega na przydzieleniu zmiennych niezależnych do jednej z ''k'' klas, czyli zmienna zależna nadal jest dyskretna, ale może przyjmować jedną z ''k'' wartości: &amp;lt;math&amp;gt;y \in \{1,2,\dots,k\}&amp;lt;/math&amp;gt;. Mówimy, że zmienne ''y'' podlegają rozkładowi wielorakiemu (ang. ''multinomial'').&lt;br /&gt;
&lt;br /&gt;
Wyprowadzimy teraz GLM do modelowania takich wielorakich danych. Zaczniemy od wyrażenia rozkładu wielorakiego jako rozkładu należącego do rodziny rozkładów wykładniczych.&lt;br /&gt;
&lt;br /&gt;
Aby sparametryzować wielorakość z ''k'' możliwymi wynikami, można by zacząć od ''k'' parametrów &amp;lt;math&amp;gt;\phi_1,\dots,\phi_k&amp;lt;/math&amp;gt; określających prawdopodobieństwo każdego z wyników. Taka parametryzacja jest jednak redundantna, tzn. parametry te nie są niezależne (znając &amp;lt;math&amp;gt;k-1&amp;lt;/math&amp;gt; spośród &amp;lt;math&amp;gt;\phi_i&amp;lt;/math&amp;gt; parametrów ostatni, ''k''-ty, parametr jest jednoznacznie określony bo musi być spełniona równość &amp;lt;math&amp;gt;\sum_{i=1}^k \phi_i =1&amp;lt;/math&amp;gt;.) Tak więc sparametryzujemy rozkład przez ''k-1'' parametrów:&lt;br /&gt;
:&amp;lt;math&amp;gt;\phi_1,\dots,\phi_{k-1}&amp;lt;/math&amp;gt;, &lt;br /&gt;
gdzie:&lt;br /&gt;
* &amp;lt;math&amp;gt;\phi_i = p(y=i;\phi)&amp;lt;/math&amp;gt; &lt;br /&gt;
* &amp;lt;math&amp;gt;p(y=k;\phi) = 1 - \sum_{i=1}^{k-1} \phi_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
Dla wygody notacji zapiszemy, że &amp;lt;math&amp;gt;\phi_k = 1-\sum_{i=1}^{k-1} \phi_i&amp;lt;/math&amp;gt;, ale będziemy pamiętać, że to nie jest parametr, i że nasz rozkład wieloraki jest w pełni określony przez parametry: &amp;lt;math&amp;gt;\phi_1,\dots,\phi_{k-1}&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Aby wyrazić rozkład wieloraki w języku rodziny rozkładów wykładniczych zdefiniujmy &amp;lt;math&amp;gt;T(y) \in \mathcal{R}^{k-1}&amp;lt;/math&amp;gt; w następujący sposób:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
T(1) = \left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
1\\&lt;br /&gt;
0\\&lt;br /&gt;
0\\&lt;br /&gt;
\vdots\\&lt;br /&gt;
0&lt;br /&gt;
\end{array}&lt;br /&gt;
 \right],&lt;br /&gt;
T(2) = \left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
0\\&lt;br /&gt;
1\\&lt;br /&gt;
0\\&lt;br /&gt;
\vdots\\&lt;br /&gt;
0&lt;br /&gt;
\end{array}&lt;br /&gt;
 \right],&lt;br /&gt;
T(3) = \left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
0\\&lt;br /&gt;
0\\&lt;br /&gt;
1\\&lt;br /&gt;
\vdots\\&lt;br /&gt;
0&lt;br /&gt;
\end{array}&lt;br /&gt;
 \right],\dots,&lt;br /&gt;
T(k-1) = \left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
0\\&lt;br /&gt;
0\\&lt;br /&gt;
0\\&lt;br /&gt;
\vdots\\&lt;br /&gt;
1&lt;br /&gt;
\end{array}&lt;br /&gt;
 \right], &lt;br /&gt;
T(k) = \left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
0\\&lt;br /&gt;
0\\&lt;br /&gt;
0\\&lt;br /&gt;
\vdots\\&lt;br /&gt;
0&lt;br /&gt;
\end{array}&lt;br /&gt;
 \right]&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
W odróżnieniu od poprzednich przykładów '''nie''' mamy tu &amp;lt;math&amp;gt;T(y) = y&amp;lt;/math&amp;gt;, ale &amp;lt;math&amp;gt;T(y)&amp;lt;/math&amp;gt; '''jest ''k-1'' wymiarowym wektorem''' a nie skalarem. Aby oznaczyć ''i''-ty element tego wektora będziemy pisać &amp;lt;math&amp;gt;(T(y))_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
I jeszcze jedna użyteczna konwencja. Wprowadźmy funkcję &amp;lt;math&amp;gt;1\{\cdot\}&amp;lt;/math&amp;gt;, przyjmuje ona wartość 1 gdy jej argument jest prawdziwy i 0 gdy jest fałszywy, np.: &amp;lt;math&amp;gt;1\{2==3\} = 0&amp;lt;/math&amp;gt; zaś &amp;lt;math&amp;gt;1\{3==7-4\} = 1&amp;lt;/math&amp;gt;. Tak więc &amp;lt;math&amp;gt;(T(y))_i = 1\{y==i\}&amp;lt;/math&amp;gt;. Dalej mamy &amp;lt;math&amp;gt;E[(T(y))_i] = P(y=i) = \phi_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
Teraz możemy pokazać jak  rozkład wieloraki wyrazić w języku rozkładu wykładniczego i sformułować model klasy GLM.&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
p(y;\phi) &amp;amp;=&amp;amp; \phi_1^{1\{y==1\}}\phi_2^{1\{y==2\}} \dots \phi_k^{1\{y==k\}}\\&lt;br /&gt;
 &amp;amp;=&amp;amp; \phi_1^{1\{y==1\}}\phi_2^{1\{y==2\}} \dots \phi_k^{1-\sum_{i=1}^{k-1}1\{y==i\}}\\&lt;br /&gt;
&amp;amp;=&amp;amp; \phi_1^{(T(y))_1}\phi_2^{(T(y))_2}\dots\phi_k^{1-\sum_{i=1}^{k-1}(T(y))_i}\\&lt;br /&gt;
&amp;amp;=&amp;amp; \exp\left[ (T(y)_1\log(\phi_1)) + (T(y)_2\log(\phi_2)) + \dots + (1-\sum_{i=1}^{k-1} (T(y))_i)\log(\phi_k)\right]\\&lt;br /&gt;
&amp;amp;=&amp;amp; \exp \left[ (T(y))_1 \log \frac{\phi_1}{\phi_k} + (T(y))_2 \log \frac{\phi_2}{\phi_k} + \dots + (T(y))_{k-1} \log \frac{\phi_{k-1}}{\phi_k} + \log(\phi_k)\right]\\&lt;br /&gt;
&amp;amp;=&amp;amp; b(y) \exp(\eta^T(y) - a(\eta))&lt;br /&gt;
\end{array} &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
gdzie:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
   \eta &amp;amp;=&amp;amp; &lt;br /&gt;
       \left[&lt;br /&gt;
            \begin{array}{c}&lt;br /&gt;
                \log \frac{\phi_1}{\phi_k}\\&lt;br /&gt;
                \log \frac{\phi_2}{\phi_k}\\&lt;br /&gt;
                \vdots \\&lt;br /&gt;
                \log \frac{\phi_{k-1}}{\phi_k}&lt;br /&gt;
            \end{array} &lt;br /&gt;
      \right]\\&lt;br /&gt;
    a(\eta)&amp;amp;=&amp;amp; -\log(\phi_k) \\&lt;br /&gt;
    b(y) &amp;amp;=&amp;amp; 1&lt;br /&gt;
\end{array} &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
To kończy prezentację rozkładu wielorakiego jako członka rodziny rozkładów wykładniczych.&lt;br /&gt;
&lt;br /&gt;
Funkcja łącząca (dla &amp;lt;math&amp;gt;i = 1,\dots,k&amp;lt;/math&amp;gt;) dana jest przez:&lt;br /&gt;
:&amp;lt;math&amp;gt;\eta_i = \log \frac{\phi_i}{\phi_k}&amp;lt;/math&amp;gt;&lt;br /&gt;
dla wygody zdefiniowaliśmy także &amp;lt;math&amp;gt;\eta_k = \log \frac{\phi_k}{\phi_k}&amp;lt;/math&amp;gt;&lt;br /&gt;
Stąd mamy:&lt;br /&gt;
:&amp;lt;math&amp;gt;\exp(\eta_i) = \frac{\phi_i}{\phi_k}&amp;lt;/math&amp;gt; (**)&lt;br /&gt;
:&amp;lt;math&amp;gt;\phi_k \exp(\eta_i) = \phi_i&amp;lt;/math&amp;gt;&lt;br /&gt;
Suma po wszystkich możliwych zdarzeniach daje zdarzenie pewne:&lt;br /&gt;
:&amp;lt;math&amp;gt;\phi_k \sum_{i=1}^{k} \exp(\eta_i) = \sum_{i=1}^k \phi_i = 1&amp;lt;/math&amp;gt;&lt;br /&gt;
Stąd:&lt;br /&gt;
:&amp;lt;math&amp;gt;\phi_k = \frac{1}{ \sum_{i=1}^{k} \exp(\eta_i)}&amp;lt;/math&amp;gt;&lt;br /&gt;
Podstawiając to wyrażenie do (**) otrzymujemy funkcję odpowiedzi postaci:&lt;br /&gt;
:&amp;lt;math&amp;gt;\phi_i = \frac{\exp(\eta_i)}{\sum_{j=1}^k \exp(\eta_j)}&amp;lt;/math&amp;gt;&lt;br /&gt;
Ta funkcja mapująca &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; na &amp;lt;math&amp;gt;\phi&amp;lt;/math&amp;gt; nazywa się funkcją softmax. Aby dokończyć formulację modelu użyjemy założenia 3, że &amp;lt;math&amp;gt;\eta&amp;lt;/math&amp;gt; jest liniowo związana ze zmienną niezależną &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;. Tak więc mamy:&lt;br /&gt;
:&amp;lt;math&amp;gt;\eta_i = \theta_i^T x&amp;lt;/math&amp;gt; dla &amp;lt;math&amp;gt;i = 1, \dots,k-1&amp;lt;/math&amp;gt; gdzie &amp;lt;math&amp;gt;\theta&amp;lt;/math&amp;gt; to parametry modelu. Dla wygody notacji definiujemy &amp;lt;math&amp;gt;\theta_k = 0&amp;lt;/math&amp;gt;. Wynika stąd, że &amp;lt;math&amp;gt;\eta_k = \theta_k^T x = 0&amp;lt;/math&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
Zatem model nasz zakłada, że rozkład warunkowy &amp;lt;math&amp;gt;(y|x)&amp;lt;/math&amp;gt; dany jest przez:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
p(y=i|x;\theta) &amp;amp;=&amp;amp; \phi_i  \\&lt;br /&gt;
&amp;amp;=&amp;amp;\frac{\exp(\eta_i)}{\sum_{j=1}^k \exp(\eta_j)}  \\&lt;br /&gt;
                &amp;amp;=&amp;amp; \frac{\exp(\theta_i^T x)}{\sum_{j=1}^k \exp(\theta_j^T x)}&lt;br /&gt;
&lt;br /&gt;
\end{array}             &lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
W wyprowadzonym powyżej modelu regresji softmax hipoteza ma postać:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
h_\theta(x) &amp;amp;=&amp;amp; E[T(y)|x;\theta]\\&lt;br /&gt;
            &amp;amp;=&amp;amp; E \left[&lt;br /&gt;
                  \begin{array}{lcl}&lt;br /&gt;
                        1\{y==1\} &amp;amp;|&amp;amp; \\&lt;br /&gt;
                        1\{y==2\} &amp;amp;|&amp;amp; \\&lt;br /&gt;
                         \vdots   &amp;amp;|&amp;amp; \\&lt;br /&gt;
                        1\{y==k-1\} &amp;amp;|&amp;amp;&lt;br /&gt;
                  \end{array} x;\theta&lt;br /&gt;
                 \right]\\&lt;br /&gt;
           &amp;amp;=&amp;amp; \left[&lt;br /&gt;
                  \begin{array}{l}&lt;br /&gt;
                        \phi_1 \\&lt;br /&gt;
                        \phi_2 \\&lt;br /&gt;
                        \vdots \\&lt;br /&gt;
                        \phi_{k-1}                  &lt;br /&gt;
                  \end{array} &lt;br /&gt;
                 \right]\\&lt;br /&gt;
          &amp;amp;=&amp;amp; \left[&lt;br /&gt;
                  \begin{array}{l}&lt;br /&gt;
                        \frac {\exp(\theta_1^T x)}{\sum_{j=1}^k \exp(\theta_j^T x)}\\&lt;br /&gt;
                        \frac {\exp(\theta_2^T x)}{\sum_{j=1}^k \exp(\theta_j^T x)} \\&lt;br /&gt;
                        \vdots \\&lt;br /&gt;
                        \frac {\exp(\theta_{k-1}^T x)}{\sum_{j=1}^k \exp(\theta_j^T x)}                  &lt;br /&gt;
                  \end{array} &lt;br /&gt;
                 \right]&lt;br /&gt;
\end{array}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Wyrażając to słowami: nasza hipoteza zwróci prawdopodobieństwo warunkowe przynależności danego ''x'' do każdej z klas ''i'':&lt;br /&gt;
:&amp;lt;math&amp;gt;p(y=i|x;\theta) &amp;lt;/math&amp;gt; dla &amp;lt;math&amp;gt;i = 1, \dots,k&amp;lt;/math&amp;gt;, &lt;br /&gt;
przy czym prawdopodobieństwo przynależności do ostatniej klasy dane jest przez: &lt;br /&gt;
:&amp;lt;math&amp;gt;p(y=k|x;\theta) = 1-\sum_{j=1}^{k-1} \phi_j&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Na koniec zastanówmy się jak estymować parametry tego modelu. Podobnie jak w przypadku regresji liniowej i regresji logistycznej potrzebny jest nam zbiór uczący postaci &amp;lt;math&amp;gt;\left\{(x^{(j)},y^{(j)})\right\}_{ j =1,\dots,m }&amp;lt;/math&amp;gt;. Można ponownie skorzystać z zasady największej wiarygodności i wyznaczyć parametry &amp;lt;math&amp;gt;\theta&amp;lt;/math&amp;gt;, które maksymalizują prawdopodobieństwo zaobserwowania całego zbioru uczącego. Funkcja log-wiarygodności ma postać:&lt;br /&gt;
:&amp;lt;math&amp;gt;&lt;br /&gt;
\begin{array}{lcl}&lt;br /&gt;
l(\theta) &amp;amp;=&amp;amp; \sum_{j=1}^m \log p(y{(j)}|x^{(j)};\theta) \\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum_{j=1}^m \log \prod_{i=1}^k \left( \frac{\exp(\theta_i^T x^{(j)} )}{\sum_{n=1}^k \exp (\theta_n^T x^{(j)})} \right)^{1\{y^{(j)}==i\}} &lt;br /&gt;
\end{array}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Teraz maksymalizację &amp;lt;math&amp;gt;l(\theta)&amp;lt;/math&amp;gt; można przeprowadzić np. za pomocą algorytmu gradientowego (tzn. zmieniamy iteracyjnie parametry  w kierunku zgodnym z gradientem funkcji log-wiarygodności).&lt;/div&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
</feed>