<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="pl">
	<id>http://brain.fuw.edu.pl/edu/index.php?action=history&amp;feed=atom&amp;title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe%2FWyk%C5%82ad_1</id>
	<title>Uczenie maszynowe i sztuczne sieci neuronowe/Wykład 1 - Historia wersji</title>
	<link rel="self" type="application/atom+xml" href="http://brain.fuw.edu.pl/edu/index.php?action=history&amp;feed=atom&amp;title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe%2FWyk%C5%82ad_1"/>
	<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;action=history"/>
	<updated>2026-04-27T03:56:12Z</updated>
	<subtitle>Historia wersji tej strony wiki</subtitle>
	<generator>MediaWiki 1.34.1</generator>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=6433&amp;oldid=prev</id>
		<title>Jarekz o 16:29, 16 lut 2017</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=6433&amp;oldid=prev"/>
		<updated>2017-02-16T16:29:58Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 16:29, 16 lut 2017&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l1&quot; &gt;Linia 1:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 1:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;[[Uczenie_maszynowe_i_sztuczne_sieci_neuronowe|powrót]]&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;==Uczenie maszynowe==&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;==Uczenie maszynowe==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=4821&amp;oldid=prev</id>
		<title>SuperAdmin: /* Algorytm najmniejszych kwadratów */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=4821&amp;oldid=prev"/>
		<updated>2016-03-01T16:18:30Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Algorytm najmniejszych kwadratów&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 16:18, 1 mar 2016&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l104&quot; &gt;Linia 104:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 104:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Uaktualnianie parametrów funkcji kosztu można też prowadzić po każdej prezentacji elementu ciągu uczącego. Zauważmy, że w pierwszej linijce naszych przekształceń występuje suma po przyczynkach pochodzących od pojedynczych przykładów. Każdy przykład daje przyczynek dodatni. Zatem minimalizując każdy z przyczynków niezależnie również zminimalizujemy funkcję kosztu. Wersja algorytmu, w której zmiany parametrów obliczane są i dla pojedynczych przykładów z ciągu uczącego podawanych w losowej kolejności nosi nazwę &amp;lt;i&amp;gt;stochastycznego&amp;lt;/i&amp;gt; algorytmu minimalizacji gradientowej. Ta wersja algorytmu jest zwykle bardziej wydajna obliczeniowo.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Uaktualnianie parametrów funkcji kosztu można też prowadzić po każdej prezentacji elementu ciągu uczącego. Zauważmy, że w pierwszej linijce naszych przekształceń występuje suma po przyczynkach pochodzących od pojedynczych przykładów. Każdy przykład daje przyczynek dodatni. Zatem minimalizując każdy z przyczynków niezależnie również zminimalizujemy funkcję kosztu. Wersja algorytmu, w której zmiany parametrów obliczane są i dla pojedynczych przykładów z ciągu uczącego podawanych w losowej kolejności nosi nazwę &amp;lt;i&amp;gt;stochastycznego&amp;lt;/i&amp;gt; algorytmu minimalizacji gradientowej. Ta wersja algorytmu jest zwykle bardziej wydajna obliczeniowo.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;tem otrzymujemy algorytm:&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;* Zainicjuj &amp;lt;math&amp;gt;\theta _{j}&amp;lt;/math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;* powtarzaj, aż zbiegniesz:&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;::wylosuj przykład &amp;lt;math&amp;gt;i&amp;lt;/math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;::dla każdego &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt;: &amp;lt;math&amp;gt;\theta _{j} := \theta _j - \alpha  \left( h_\theta (x^{(i)}) - y^{(i)} \right) x_j^{(i)}&amp;lt;/math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Warto w tym miejscu zauważyć, że algorytm gradientowy jest wrażliwy na minima lokalne, tzn. że z danego punktu w przestrzeni parametrów prowadzi do najbliższego minimum lokalnego. Na szczęście w przypadku regresji linowej istnieje tylko jedno minimum i jest to minimum globalne.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Warto w tym miejscu zauważyć, że algorytm gradientowy jest wrażliwy na minima lokalne, tzn. że z danego punktu w przestrzeni parametrów prowadzi do najbliższego minimum lokalnego. Na szczęście w przypadku regresji linowej istnieje tylko jedno minimum i jest to minimum globalne.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>SuperAdmin</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=4820&amp;oldid=prev</id>
		<title>SuperAdmin: /* Algorytm najmniejszych kwadratów */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=4820&amp;oldid=prev"/>
		<updated>2016-03-01T16:11:23Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Algorytm najmniejszych kwadratów&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 16:11, 1 mar 2016&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l78&quot; &gt;Linia 78:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 78:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Przyjrzyjmy się pochodnej cząstkowej &amp;lt;math&amp;gt;\frac{\partial }{\partial \theta _j } J(\theta ) &amp;lt;/math&amp;gt;:&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Przyjrzyjmy się pochodnej cząstkowej &amp;lt;math&amp;gt;\frac{\partial }{\partial \theta _j } J(\theta ) &amp;lt;/math&amp;gt;:&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;::&amp;lt;math&amp;gt;\begin{matrix}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;::&amp;lt;math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\frac{\partial }{\partial \theta _j } J(\theta ) &amp;amp;=&amp;amp;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\begin{matrix}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\frac{\partial }{\partial \theta _j } \frac{1}{2} \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2 \\&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\frac{\partial }{\partial \theta _j } J(\theta ) &amp;amp;=&amp;amp;\frac{\partial }{\partial \theta _j } \frac{1}{2} \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2 \\&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp;\frac{1}{2} \sum _{i=1}^{m} \frac{\partial }{\partial \theta _j } \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2\\&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp;\frac{1}{2} \sum _{i=1}^{m} \frac{\partial }{\partial \theta _j } \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2\\&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp;\frac{1}{2} \sum _{i=1}^{m} 2 \left( h_\theta (x^{(i)}) - y^{(i)} \right)\frac{\partial }{\partial \theta _j }h_\theta (x^{(i)})\\&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp;\frac{1}{2} \sum _{i=1}^{m} 2 \left( h_\theta (x^{(i)}) - y^{(i)} \right)\frac{\partial }{\partial \theta _j }h_\theta (x^{(i)})\\&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp; \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)\frac{\partial }{\partial \theta _j } \sum _{j=0}^n \theta _j x_j^{(i)}\\&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp; \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)\frac{\partial }{\partial \theta _j } \sum _{j=0}^n \theta _j x_j^{(i)}\\&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp; \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right) \sum _{j=0}^n \frac{\partial }{\partial \theta _j }\theta _j x_j^{(i)}\\&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&amp;amp;=&amp;amp; \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right) \sum _{j=0}^n \frac{\partial }{\partial \theta _j }\theta _j x_j^{(i)}  &lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;&amp;amp;&lt;/del&gt;=&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;&amp;amp; &lt;/del&gt;\sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right) x_j^{(i)}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;\end{matrix}&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;\&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;end&lt;/del&gt;{&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;matrix&lt;/del&gt;}&amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;&amp;lt;/math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;::&amp;lt;math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;\frac{\partial }{&lt;/ins&gt;\&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;partial &lt;/ins&gt;\&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;theta _j } J(\theta ) &lt;/ins&gt;= \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right) x_j^{(i)}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;&amp;lt;/math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt; &lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt; &lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt; &lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;Czyli zbierając te wyniki otrzymujemy algorytm:&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;* Zainicjuj &amp;lt;math&amp;gt;\theta _{j}&amp;lt;/math&amp;gt;&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;* powtarzaj, aż zbiegniesz:&lt;/ins&gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;::dla każdego &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt;: &amp;lt;math&amp;gt;\theta _{j} := &lt;/ins&gt;\&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;theta _j - \alpha \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right) x_j^&lt;/ins&gt;{&lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;(i)&lt;/ins&gt;}&amp;lt;/math&amp;gt;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Algorytm najmniejszych kwadratów ma kilka cech, które są intuicyjne i naturalne.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Algorytm najmniejszych kwadratów ma kilka cech, które są intuicyjne i naturalne.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>SuperAdmin</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=4769&amp;oldid=prev</id>
		<title>Jarekz: /* Interpretacja probabilistyczna */</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=4769&amp;oldid=prev"/>
		<updated>2016-02-24T15:19:02Z</updated>

		<summary type="html">&lt;p&gt;&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;Interpretacja probabilistyczna&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 15:19, 24 lut 2016&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l342&quot; &gt;Linia 342:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 342:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Podsumowując: zakładając konkretny model probabilistyczny ciągu uczącego udało nam się pokazać, że minimalizacja funkcji kosztu jest konsekwencją zastosowania zasady największej wiarygodności. Warto jednak pamiętać, że procedura minimalizacji średniego błędu kwadratowego daje sensowne wyniki dla znacznie szerszej klasy modeli danych.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Podsumowując: zakładając konkretny model probabilistyczny ciągu uczącego udało nam się pokazać, że minimalizacja funkcji kosztu jest konsekwencją zastosowania zasady największej wiarygodności. Warto jednak pamiętać, że procedura minimalizacji średniego błędu kwadratowego daje sensowne wyniki dla znacznie szerszej klasy modeli danych.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;Więcej o regresji liniowej jednowymiarowej można przeczytać [[Regresja_liniowa_i_test_chi2|tu]].&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=566&amp;oldid=prev</id>
		<title>Jarekz o 14:47, 21 maj 2015</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=566&amp;oldid=prev"/>
		<updated>2015-05-21T14:47:14Z</updated>

		<summary type="html">&lt;p&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;pl&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← poprzednia wersja&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;Wersja z 14:47, 21 maj 2015&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l1&quot; &gt;Linia 1:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 1:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;[[Kategoria: Uczenie maszynowe i sztuczne sieci neuronowe]]&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;&lt;del style=&quot;font-weight: bold; text-decoration: none;&quot;&gt;&lt;/del&gt;&lt;/div&gt;&lt;/td&gt;&lt;td colspan=&quot;2&quot;&gt; &lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;==Uczenie maszynowe==&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;==Uczenie maszynowe==&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l348&quot; &gt;Linia 348:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;Linia 344:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt; &lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Więcej o regresji liniowej jednowymiarowej można przeczytać [[&lt;del class=&quot;diffchange diffchange-inline&quot;&gt;STATLAB:&lt;/del&gt;Regresja_liniowa_i_test_chi2|tu]].&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;Więcej o regresji liniowej jednowymiarowej można przeczytać [[Regresja_liniowa_i_test_chi2|tu]].&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
	<entry>
		<id>http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=565&amp;oldid=prev</id>
		<title>Jarekz: Utworzono nową stronę &quot;Kategoria: Uczenie maszynowe i sztuczne sieci neuronowe    ==Uczenie maszynowe==  Na tych zajęciach zapoznamy się z koncepcjami &quot;uczenia maszynowego&quot;. Podejście t...&quot;</title>
		<link rel="alternate" type="text/html" href="http://brain.fuw.edu.pl/edu/index.php?title=Uczenie_maszynowe_i_sztuczne_sieci_neuronowe/Wyk%C5%82ad_1&amp;diff=565&amp;oldid=prev"/>
		<updated>2015-05-21T14:46:22Z</updated>

		<summary type="html">&lt;p&gt;Utworzono nową stronę &amp;quot;&lt;a href=&quot;/edu/index.php?title=Kategoria:Uczenie_maszynowe_i_sztuczne_sieci_neuronowe&amp;amp;action=edit&amp;amp;redlink=1&quot; class=&quot;new&quot; title=&quot;Kategoria:Uczenie maszynowe i sztuczne sieci neuronowe (strona nie istnieje)&quot;&gt;Kategoria: Uczenie maszynowe i sztuczne sieci neuronowe&lt;/a&gt;    ==Uczenie maszynowe==  Na tych zajęciach zapoznamy się z koncepcjami &amp;quot;uczenia maszynowego&amp;quot;. Podejście t...&amp;quot;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Nowa strona&lt;/b&gt;&lt;/p&gt;&lt;div&gt;[[Kategoria: Uczenie maszynowe i sztuczne sieci neuronowe]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==Uczenie maszynowe==&lt;br /&gt;
&lt;br /&gt;
Na tych zajęciach zapoznamy się z koncepcjami &amp;quot;uczenia maszynowego&amp;quot;. Podejście to jest nieco odmienne od standardowego programowania. Algorytmy, które będziemy omawiać bardziej stanowią &amp;quot;metodologię uczenia&amp;quot; niż sposoby kodowania rozwiązań konkretnych problemów. Zobaczymy jak łącza się pojęcia ze statystyki, algebry z inspiracjami biologicznymi.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;!--&lt;br /&gt;
(Kilka przykładów zastosowań: rozpoznawanie pisma ręcznego, data mining,algorytmy podpowiadające co klient mógłby jeszcze chcieć zobaczyć/kupić - w sklepach elektronicznych, itp )&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Pierwsze historycznie podejścia: Arthur Samuel (1959):&lt;br /&gt;
&amp;quot; Uczenie maszynowe: dziedzina nauki,która ma umożliwić uczenie komputerów bez bezpośredniego ich programowania. &amp;lt;math&amp;gt;-&amp;gt;&amp;lt;/math&amp;gt; program do gry w szachy, bazował na wynikach kilku tysięcy rozgrywek. Jego program grał w szachy lepiej od autora.&amp;quot;&lt;br /&gt;
--&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Na wstępie warto może wspomnieć, że uczenie może przebiegać z nadzorem lub bez nadzoru. Uczenie z nadzorem przypomina typowe uczenie w szkole, gdzie nauczyciel podaje przykłady dla których znane są prawidłowe odpowiedzi i potrafi uczniowi wskazać błędy. Uczenie bez nadzoru przypomina nieco uczenie się postrzegania świata przez małe dziecko. Bazuje ono głównie na obserwowaniu związków przyczynowo skutkowych - korelacji - pomiędzy różnymi bodźcami.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===Uczenie z nadzorem===&lt;br /&gt;
&lt;br /&gt;
Zaczniemy od najprostszej wersji uczenia z nadzorem jaką jest regresja liniowa. Aby było nam łatwiej ją sobie wyobrażać weźmy konkretny przykład: chcielibyśmy przewidywać zużycie paliwa przez samochody. Załóżmy, że znamy odległość jaką samochód może pokonać i jego masę. Możemy narysować te dane.&lt;br /&gt;
&lt;br /&gt;
[[Plik:reg1.png|350px|thumb|&amp;lt;figure id=&amp;quot;uid2&amp;quot; /&amp;gt;Przykładowe dane]]&lt;br /&gt;
&lt;br /&gt;
Jak na podstawie tych danych można przewidzieć zasięg innych samochodów?&lt;br /&gt;
&lt;br /&gt;
Można potraktować te dane jako punkty reprezentujące pewne odwzorowanie, funkcję.&lt;br /&gt;
Najprostszą funkcję jaką moglibyśmy zaproponować to odwzorowanie liniowe.&lt;br /&gt;
&lt;br /&gt;
W tym miejscu wprowadzimy kilka ważnych pojęć i notację, z której będziemy korzystać w trakcie dalszych wykładów.&lt;br /&gt;
&lt;br /&gt;
; wejście: w naszym przykładzie daną wejściową jest masa samochodu. Oznaczmy ją &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;. W kontekście uczenia maszynowego dane wejściowe często nazywane są &amp;lt;i&amp;gt;cechami&amp;lt;/i&amp;gt; (ang. features).&lt;br /&gt;
; przestrzeń wejść: przestrzeń, z której pochodzą dane wejściowe, oznaczymy ją &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt;&lt;br /&gt;
; wyjście: w naszym przykładzie zasięg. Oznaczymy go &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt;.&lt;br /&gt;
; przestrzeń wyjść: przestrzeń, z której pochodzą dane wyjściowe, oznaczymy ją &amp;lt;math&amp;gt;Y&amp;lt;/math&amp;gt;&lt;br /&gt;
; przykład: para wejścia i odpowiadającego mu wyjścia: &amp;lt;math&amp;gt;(x,y)&amp;lt;/math&amp;gt; stanowi pojedynczy przykład.&lt;br /&gt;
; ciąg uczący: zbiór przykładów &amp;lt;math&amp;gt;\lbrace (x^{(i)}, y^{(i)}), \quad i = 1, \dots ,m\rbrace &amp;lt;/math&amp;gt;.&lt;br /&gt;
; hipoteza: &amp;lt;math&amp;gt;h&amp;lt;/math&amp;gt;: odwzorowanie &amp;lt;math&amp;gt;h: X\rightarrow Y&amp;lt;/math&amp;gt;, które &amp;quot;dobrze&amp;quot; pasuje do przykładów ciągu uczącego.&lt;br /&gt;
&lt;br /&gt;
Formalnie proces uczenia z nadzorem polega na tym, żeby mając dany ciąg uczący znaleźć funkcję &amp;lt;math&amp;gt;h&amp;lt;/math&amp;gt; taką, że jest ona dobrym predyktorem &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; mając dany &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Gdy zmiana &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; jest ciągła problem nazywamy &amp;lt;i&amp;gt;regresją&amp;lt;/i&amp;gt;, gdy zmienna &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; jest dyskretna problem nazywamy &amp;lt;i&amp;gt;klasyfikacją&amp;lt;/i&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
===Regresja liniowa===&lt;br /&gt;
&lt;br /&gt;
Aby nasz przykład uczynić bardziej interesującym załóżmy, że oprócz masy pojazdu znamy także jego moc. Aby przeprowadzić uczenie z nadzorem musimy zdecydować się jak będziemy reprezentować funkcję &amp;lt;math&amp;gt;h&amp;lt;/math&amp;gt; w komputerze. Na początek załóżmy, że będzie to funkcja liniowa:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;h_{\theta }(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Parametry &amp;lt;math&amp;gt;\theta _i&amp;lt;/math&amp;gt; (zwane także wagami) parametryzują przestrzeń funkcji liniowych &amp;lt;math&amp;gt;X \rightarrow Y&amp;lt;/math&amp;gt;. Tam gdzie nie będzie to powodować niejednoznaczności zamiast &amp;lt;math&amp;gt;h_\theta (x)&amp;lt;/math&amp;gt; będziemy pisać &amp;lt;math&amp;gt;h(x)&amp;lt;/math&amp;gt;. Dla uproszczenia notacji wprowadzimy też &amp;quot;sztuczne&amp;quot; wejście &amp;lt;math&amp;gt;x_0 =1 &amp;lt;/math&amp;gt;, zaś parametr &amp;lt;math&amp;gt;\theta _0&amp;lt;/math&amp;gt; nazywać będziemy obciążeniem.&lt;br /&gt;
Stosując powyższą konwencję możemy napisać:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;h(x) = \sum _{i=0}^n \theta _i x_i &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
(u nas n = 2).&lt;br /&gt;
Niektóre rachunki uproszczą się nam jeśli zastosujemy notację wektorową. Oznaczmy:&lt;br /&gt;
&amp;lt;math&amp;gt;\mathbf {\theta } = [\theta _0, \dots , \theta _n]^T&amp;lt;/math&amp;gt; , &amp;lt;math&amp;gt;\mathbf {x} = [x_0, \dots ,x_n]^T&amp;lt;/math&amp;gt; (zapisaliśmy oba wektory jako transponowane bo &amp;lt;math&amp;gt;\mathbf {\theta }&amp;lt;/math&amp;gt; i  &amp;lt;math&amp;gt;\mathbf {x}&amp;lt;/math&amp;gt; są wektorami kolumnowymi). Wówczas:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;h(x) = \sum _{i=0}^n \theta _i x_i = \mathbf {\theta }^T \mathbf {x}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Problem uczenia maszynowego polega na tym: jak mając zbiór uczący znaleźć &amp;quot;dobre&amp;quot; parametry? Aby sformalizować ten problem wyprowadzimy &amp;lt;i&amp;gt;funkcję kosztu&amp;lt;/i&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;J(\mathbf {\theta }) = \frac{1}{2} \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2 &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
(Uwaga: &amp;lt;math&amp;gt;^{(i)}&amp;lt;/math&amp;gt; to indeks przykładu a nie potęga. )&lt;br /&gt;
Teraz możemy powiedzieć, że &amp;quot;dobre&amp;quot; parametry to takie, które minimalizują funkcję kosztu.&lt;br /&gt;
&lt;br /&gt;
===Algorytm najmniejszych kwadratów===&lt;br /&gt;
&lt;br /&gt;
Chcemy znaleźć takie parametry aby zminimalizować funkcję kosztów. Zobaczmy czy zadziała następujący pomysł:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;i&amp;gt;Zacznijmy od pewniej &amp;quot;odgadniętej&amp;quot; wartości początkowej. Następnie zmieniamy ją zgodnie z kierunkiem przeciwnym do gradientu funkcji kosztu.&amp;lt;/i&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Warto tu przypomnieć, że gradient funkcji to wektor, którego kierunek pokrywa się z kierunkiem, w którym funkcja zmienia się najszybciej, a zwrot wskazuje kierunek, w którym funkcja rośnie. Zatem jeśli wyobrazimy sobie funkcję jako pofałdowany teren, to poruszając się w kierunku przeciwnym do gradientu powinniśmy dotrzeć do niżej położonych partii terenu.&lt;br /&gt;
Formalnie jeden krok algorytmu &amp;lt;i&amp;gt;minimalizacji gradientowej&amp;lt;/i&amp;gt; możemy zapisać:&lt;br /&gt;
&lt;br /&gt;
dla każdego &amp;lt;math&amp;gt;j&amp;lt;/math&amp;gt;: &amp;lt;math&amp;gt;\theta _{j} := \theta _j - \alpha \frac{\partial }{\partial \theta _j } J(\theta ) &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
gdzie parametr &amp;lt;math&amp;gt;\alpha &amp;lt;/math&amp;gt; to szybkość uczenia.&lt;br /&gt;
&lt;br /&gt;
Przyjrzyjmy się pochodnej cząstkowej &amp;lt;math&amp;gt;\frac{\partial }{\partial \theta _j } J(\theta ) &amp;lt;/math&amp;gt;:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\begin{matrix}&lt;br /&gt;
\frac{\partial }{\partial \theta _j } J(\theta ) &amp;amp;=&amp;amp;&lt;br /&gt;
\frac{\partial }{\partial \theta _j } \frac{1}{2} \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2 \\&lt;br /&gt;
&amp;amp;=&amp;amp;\frac{1}{2} \sum _{i=1}^{m} \frac{\partial }{\partial \theta _j } \left( h_\theta (x^{(i)}) - y^{(i)} \right)^2\\&lt;br /&gt;
&amp;amp;=&amp;amp;\frac{1}{2} \sum _{i=1}^{m} 2 \left( h_\theta (x^{(i)}) - y^{(i)} \right)\frac{\partial }{\partial \theta _j }h_\theta (x^{(i)})\\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right)\frac{\partial }{\partial \theta _j } \sum _{j=0}^n \theta _j x_j^{(i)}\\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right) \sum _{j=0}^n \frac{\partial }{\partial \theta _j }\theta _j x_j^{(i)}\\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum _{i=1}^{m} \left( h_\theta (x^{(i)}) - y^{(i)} \right) x_j^{(i)}&lt;br /&gt;
\end{matrix}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Algorytm najmniejszych kwadratów ma kilka cech, które są intuicyjne i naturalne.&lt;br /&gt;
Wartość zmiany jest proporcjonalna do błędu. Gdy mamy przykład uczący, dla którego przewidywanie prawie zgadza się z &amp;lt;math&amp;gt;y&amp;lt;/math&amp;gt; to wprowadzane zmiany parametrów są małe. Większa zmiana parametrów będzie dla przykładu, który generuje większy błąd.&lt;br /&gt;
&lt;br /&gt;
Powyższe obliczenia dotyczą sytuacji gdy ciąg uczący zawierają wiele przykładów i poprawki obliczamy biorąc pod uwagę wszystkie przykłady. Jest to tak zwany algorytm gradientowy zbiorczy (ang. batch gradient descent).&lt;br /&gt;
&lt;br /&gt;
Uaktualnianie parametrów funkcji kosztu można też prowadzić po każdej prezentacji elementu ciągu uczącego. Zauważmy, że w pierwszej linijce naszych przekształceń występuje suma po przyczynkach pochodzących od pojedynczych przykładów. Każdy przykład daje przyczynek dodatni. Zatem minimalizując każdy z przyczynków niezależnie również zminimalizujemy funkcję kosztu. Wersja algorytmu, w której zmiany parametrów obliczane są i dla pojedynczych przykładów z ciągu uczącego podawanych w losowej kolejności nosi nazwę &amp;lt;i&amp;gt;stochastycznego&amp;lt;/i&amp;gt; algorytmu minimalizacji gradientowej. Ta wersja algorytmu jest zwykle bardziej wydajna obliczeniowo.&lt;br /&gt;
&lt;br /&gt;
Warto w tym miejscu zauważyć, że algorytm gradientowy jest wrażliwy na minima lokalne, tzn. że z danego punktu w przestrzeni parametrów prowadzi do najbliższego minimum lokalnego. Na szczęście w przypadku regresji linowej istnieje tylko jedno minimum i jest to minimum globalne.&lt;br /&gt;
&lt;br /&gt;
===Równania normalne===&lt;br /&gt;
&lt;br /&gt;
Iteracyjna wersja minimalizacji funkcji kosztu przyda nam się jeszcze przy omawianiu algorytmów uczenia sztucznych sieci neuronowych. W pewnych sytuacjach można wykorzystać nieco bardziej narzędzia algebry i analizy matematycznej i znaleźć optymalne parametry analitycznie. W tym celu trzeba znaleźć pochodna funkcji kosztu po parametrach i przyrównać ją do zera.&lt;br /&gt;
&lt;br /&gt;
Aby rachunki poszły nam sprawniej przypomnijmy kilka wzorów z algebry.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
====Rachunki macierzowe====&lt;br /&gt;
&lt;br /&gt;
Dla danej funkcji &amp;lt;math&amp;gt;f: \mathcal {R}^{n \times m} \rightarrow \mathcal {R}&amp;lt;/math&amp;gt; mapującej macierze &amp;lt;math&amp;gt;n \times m&amp;lt;/math&amp;gt; na liczby rzeczywiste definiujemy pochodną &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; względem &amp;lt;math&amp;gt;A&amp;lt;/math&amp;gt; jako:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;&lt;br /&gt;
\nabla _A f(A) = \left[&lt;br /&gt;
\begin{array}{ccc}&lt;br /&gt;
\frac{\partial f}{\partial A_{1,1}} &amp;amp; \dots &amp;amp; \frac{\partial f }{\partial A_{1,n}} \\&lt;br /&gt;
\vdots &amp;amp; &amp;amp; \vdots \\&lt;br /&gt;
\frac{\partial f}{\partial A_{n,1}}&amp;amp; \dots &amp;amp;\frac{\partial f}{\partial A_{n,n}}&lt;br /&gt;
\end{array}&lt;br /&gt;
\right]&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Zatem gradient &amp;lt;math&amp;gt;\nabla _A f(A) &amp;lt;/math&amp;gt; jest macierzą &amp;lt;math&amp;gt;n \times m&amp;lt;/math&amp;gt;, której element &amp;lt;math&amp;gt;(i,j)&amp;lt;/math&amp;gt; to pochodna cząstkowa &amp;lt;math&amp;gt; \frac{\partial f}{\partial A_{i,j}}&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Jako przykład weźmy macierz&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;A =&lt;br /&gt;
\left[&lt;br /&gt;
\begin{array}{cc}&lt;br /&gt;
A_{1,1} &amp;amp; A_{1,2} \\&lt;br /&gt;
A_{2,1} &amp;amp; A_{2,2}&lt;br /&gt;
\end{array}&lt;br /&gt;
\right]&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
i funkcję &amp;lt;math&amp;gt;f: \mathcal {R}^{n \times m} \rightarrow \mathcal {R}&amp;lt;/math&amp;gt; :&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;&lt;br /&gt;
f(A) = \frac{3}{2} A_{1,1} + 5 A_{1,2}^2 + A_{2,1} A_{2,2}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
W tym przypadku otrzymujemy:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;&lt;br /&gt;
\nabla _A f(A) = \left[&lt;br /&gt;
\begin{array}{ccc}&lt;br /&gt;
\frac{3}{2} &amp;amp; 10 A_{1,2} \\&lt;br /&gt;
A_{2,2} &amp;amp; A_{2,1}&lt;br /&gt;
\end{array}&lt;br /&gt;
\right]&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Dla przypomnienia operator śladu macierzy kwadratowej &amp;lt;math&amp;gt;A&amp;lt;/math&amp;gt; to suma elementów diagonalnych:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt; \textrm {tr}A = \sum _{i=1}^{n}A_{i,i}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Operator śladu jest przemienny, tzn.&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt; \textrm {tr}AB = \textrm {tr}BA&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Zachodzi również:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\textrm {tr}A =\textrm {tr}A^T&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\textrm {tr}(A+B) =\textrm {tr}A + \textrm {tr}B&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\textrm {tr}(aA) = a\textrm {tr}A&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Dla pochodnych macierzowych zachodzi:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;equation id=&amp;quot;uid14&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;&lt;br /&gt;
\nabla _A \textrm {tr}AB = B^T&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&amp;lt;/equation&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;equation id=&amp;quot;uid15&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;&lt;br /&gt;
\nabla _{A^T} f(A) = (\nabla _A f(A))^T&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&amp;lt;/equation&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;equation id=&amp;quot;uid16&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;&lt;br /&gt;
\nabla _A \textrm {tr} ABA^TC = CAB +C^TAB^T&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&amp;lt;/equation&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;equation id=&amp;quot;uid17&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;&lt;br /&gt;
\nabla _A |A| = |A| (A^{-1})^T&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&amp;lt;/equation&amp;gt;&lt;br /&gt;
&lt;br /&gt;
gdzie &amp;lt;math&amp;gt;|A|&amp;lt;/math&amp;gt; to wyznacznik macierzy A.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
====Minimalizacja funkcji kosztu====&lt;br /&gt;
&lt;br /&gt;
Uzbrojeni w powyższe wzory możemy powrócić do minimalizacji funkcji kosztu.&lt;br /&gt;
Zbudujmy macierz wejść &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt; w taki sposób, że wejścia z poszczególnych przykładów są jej wierszami.&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;X =&lt;br /&gt;
\left[&lt;br /&gt;
\begin{array}{ccc}&lt;br /&gt;
-&amp;amp; ( x^{(1)})^T&amp;amp;- \\&lt;br /&gt;
&amp;amp; \vdots &amp;amp; \\&lt;br /&gt;
- &amp;amp;(x^{(m)})^T &amp;amp;-&lt;br /&gt;
\end{array}&lt;br /&gt;
\right]&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Z wartości wyjściowych zbudujemy wektor kolumnowy&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\mathbf {y} = \left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
y^{(1) }\\&lt;br /&gt;
\vdots \\&lt;br /&gt;
y^{(m)}&lt;br /&gt;
\end{array}&lt;br /&gt;
\right]&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Ponieważ &amp;lt;math&amp;gt;h_\theta (x^{(i)} ) = (x^{(i)})^T \theta &amp;lt;/math&amp;gt; możemy zapisać:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;&lt;br /&gt;
X \theta - \mathbf {y} =&lt;br /&gt;
\left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
( x^{(1)})^T \theta \\&lt;br /&gt;
\vdots \\&lt;br /&gt;
(x^{(m)})^T \theta \end{array}&lt;br /&gt;
\right]&lt;br /&gt;
-&lt;br /&gt;
\left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
y^{(1) }\\&lt;br /&gt;
\vdots \\&lt;br /&gt;
y^{(m)}&lt;br /&gt;
\end{array}&lt;br /&gt;
\right]&lt;br /&gt;
=&lt;br /&gt;
\left[&lt;br /&gt;
\begin{array}{c}&lt;br /&gt;
h_\theta (x^{(1)}) - y^{(1) }\\&lt;br /&gt;
\vdots \\&lt;br /&gt;
h_\theta (x^{(m)}) - y^{(m)}&lt;br /&gt;
\end{array}&lt;br /&gt;
\right]&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Korzystając z faktu, że dla wektora &amp;lt;math&amp;gt;\mathbf {z}&amp;lt;/math&amp;gt; mamy &amp;lt;math&amp;gt;\mathbf {z}^T\mathbf {z}=\sum _i z_i^2&amp;lt;/math&amp;gt; możemy zapisać funkcję kosztu w następujący sposób:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;J(\theta ) = \frac{1}{2} \sum _{i=1}^m \left( h_\theta (x^{(i)} ) - y^{(i)}\right)^2 = \frac{1}{2} (X \theta - \mathbf {y})^T (X \theta - \mathbf {y}) &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Teraz aby zminimalizować funkcję kosztu &amp;lt;math&amp;gt;J&amp;lt;/math&amp;gt; znajdzmy jej pochodną względem &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt;. Korzystając z równań (&amp;lt;xr id=&amp;quot;uid15&amp;quot;&amp;gt; %i&amp;lt;/xr&amp;gt;) i (&amp;lt;xr id=&amp;quot;uid16&amp;quot;&amp;gt; %i&amp;lt;/xr&amp;gt;) widzimy, że:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;equation id=&amp;quot;uid19&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;math&amp;gt;&lt;br /&gt;
\nabla _{A^T} \textrm {tr}ABA^TC = B^T A^T C^T + B A^T C&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&amp;lt;/equation&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Tak więc:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\begin{matrix}&lt;br /&gt;
\nabla _\theta J(\theta ) &amp;amp;=&amp;amp; \nabla _\theta \frac{1}{2} (X \theta - \mathbf {y})^T (X \theta - \mathbf {y}) \\&lt;br /&gt;
&amp;amp;=&amp;amp; \frac{1}{2} \nabla _\theta ( \theta ^T X ^T X \theta -\theta ^T X^T \mathbf {y} - \mathbf {y}^T X \theta + \mathbf {y}^T \mathbf {y}) \\&lt;br /&gt;
&amp;amp;=&amp;amp; \frac{1}{2} \nabla _\theta \textrm {tr}( \theta ^T X ^T X \theta -\theta ^T X^T \mathbf {y} - \mathbf {y}^T X \theta + \mathbf {y}^T \mathbf {y}) \\&lt;br /&gt;
&amp;amp;=&amp;amp; \frac{1}{2} \nabla _\theta (\textrm {tr} \theta ^T X ^T X \theta - 2 \textrm {tr} \mathbf {y}^T X \theta ) \\&lt;br /&gt;
&amp;amp;=&amp;amp; \frac{1}{2} ( X ^T X \theta +X^T X \theta - 2 X^T \mathbf {y}) \\&lt;br /&gt;
&amp;amp;=&amp;amp; X^T X \theta - X^T \mathbf {y}&lt;br /&gt;
\end{matrix}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Użyte tricki:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;ol&amp;gt;&lt;br /&gt;
&lt;br /&gt;
	&amp;lt;li&amp;gt;&lt;br /&gt;
	w trzecim kroku skorzystaliśmy z tego, że ślad liczby jest tą samą liczbą&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
	&amp;lt;li&amp;gt;&lt;br /&gt;
	w czwartym kroku skorzystaliśmy z tego, że &amp;lt;math&amp;gt;\textrm {tr}A = \textrm {tr}A^T&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
	&amp;lt;li&amp;gt;&lt;br /&gt;
	w piątym kroku skorzystaliśmy z równania (&amp;lt;xr id=&amp;quot;uid19&amp;quot;&amp;gt; %i&amp;lt;/xr&amp;gt;), podstawiając &amp;lt;math&amp;gt;A^T = \theta &amp;lt;/math&amp;gt;, &amp;lt;math&amp;gt;B = B^T = X^TX&amp;lt;/math&amp;gt; i &amp;lt;math&amp;gt;C = I&amp;lt;/math&amp;gt; oraz równanie (&amp;lt;xr id=&amp;quot;uid14&amp;quot;&amp;gt; %i&amp;lt;/xr&amp;gt;)&lt;br /&gt;
&lt;br /&gt;
&amp;lt;/ol&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Aby zminimalizować funkcję kosztu kładziemy jej pochodną równą 0 i otrzymujemy &amp;lt;i&amp;gt;równanie normalne&amp;lt;/i&amp;gt;:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt; X^T X \theta = X^T \mathbf {y}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Z niego możemy obliczyć parametry minimalizujące funkcję kosztu:&lt;br /&gt;
&lt;br /&gt;
   &amp;lt;math&amp;gt; \theta = (X^T X )^{-1} X^T \mathbf {y}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Interpretacja probabilistyczna===&lt;br /&gt;
&lt;br /&gt;
Dlaczego funkcja kosztu &amp;lt;math&amp;gt;J&amp;lt;/math&amp;gt; w postaci sumy kwadratów błędów dla problemu regresji jest sensowna? W tej sekcji zaprezentuje zestaw założeń probabilistycznych, dla których kwadratowa funkcja błędu jest naturalną konsekwencją.&lt;br /&gt;
&lt;br /&gt;
Załóżmy, że zmienne wejściowe i wyjściowe powiązane są zależnością:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt; y^{(i)} = \theta ^T x^{(i)} + \epsilon ^{(i)}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
gdzie &amp;lt;math&amp;gt;\epsilon ^{(i)}&amp;lt;/math&amp;gt; jest błędem, który albo pochodzi od pewnych nieuwzględnionych w modelu regresji czynników lub czynnikiem losowym. Załóżmy, że &amp;lt;math&amp;gt;\epsilon ^{(i)}&amp;lt;/math&amp;gt; to zmienne &amp;lt;i&amp;gt;niezależne&amp;lt;/i&amp;gt; i podlegające &amp;lt;i&amp;gt;temu samemu rozkładowi&amp;lt;/i&amp;gt; (ang. IID - independent and identically distributed) normalnemu o średniej zero i wariancji &amp;lt;math&amp;gt;\sigma ^2&amp;lt;/math&amp;gt;. To założenie zapisujemy krótko: &amp;lt;math&amp;gt; \epsilon ^{(i)} \sim \mathcal {N}(0, \sigma ^2)&amp;lt;/math&amp;gt; . Zatem funkcja gęstości prawdopodobieństwa &amp;lt;math&amp;gt;\epsilon ^{(i)}&amp;lt;/math&amp;gt; dana jest wzorem:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;&lt;br /&gt;
p(\epsilon ^{(i)}) = \frac{1}{\sqrt{2 \pi} \sigma } \exp \left( - \frac{ \left(\epsilon ^{(i)} \right)^2}{2 \sigma ^2} \right)&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Z tego wynika, że:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt; p(y^{(i)}| x^{(i)}; \theta ) = \frac{1}{\sqrt{2 \pi} \sigma } \exp \left( - \frac{ \left(y^{(i)} - \theta ^Tx^{(i)} \right)^2}{2 \sigma ^2} \right) &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Notacja &amp;lt;math&amp;gt;p(y^{(i)}| x^{(i)}; \theta )&amp;lt;/math&amp;gt; oznacza funkcję gęstości prawdopodobieństwa zmiennej &amp;lt;math&amp;gt;y^{(i)}&amp;lt;/math&amp;gt; mając daną zmienną &amp;lt;math&amp;gt;x^{(i)}&amp;lt;/math&amp;gt; sparametryzowaną przez &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt;. Nie mówimy &amp;quot;mając dane &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt;&amp;quot; bo &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt; nie jest zmienną losową. Prawdopodobieństwo danych (całego ciągu uczącego) określone jest przez rozkład &amp;lt;math&amp;gt;p(\mathbf {y}|X;\theta )&amp;lt;/math&amp;gt;. Ten rozkład zazwyczaj rozumiany jest jako funkcja &amp;lt;math&amp;gt;\mathbf {y}&amp;lt;/math&amp;gt; i &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt; przy ustalonym &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt;. Możemy jednak spojrzeć na niego inaczej, tzn. jako funkcję &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt; przy ustalonych &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt; i &amp;lt;math&amp;gt;\mathbf {y}&amp;lt;/math&amp;gt;. Funkcję tą nazywamy &amp;lt;i&amp;gt;funkcją wiarygodności&amp;lt;/i&amp;gt;:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;L(\theta ) = L(\theta ;X,\mathbf {y}) = p(\mathbf {y}|X;\theta )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Zauważmy, że dzięki założeniu o niezależności &amp;lt;math&amp;gt;\epsilon ^{(i)}&amp;lt;/math&amp;gt; możemy tą funkcję zapisać jako:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\begin{matrix}&lt;br /&gt;
L(\theta ) &amp;amp;=&amp;amp; \prod _{i=1}^m p(y^{(i)} | x^{(i)};\theta )\\&lt;br /&gt;
&amp;amp;=&amp;amp; \prod _{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma } \exp \left( - \frac{ \left(y^{(i)} - \theta ^Tx^{(i)} \right)^2}{2 \sigma ^2} \right)&lt;br /&gt;
\end{matrix}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Teraz, mając nasz model probabilistyczny możemy się zapytać: jakie &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt; są sensowne? Chcielibyśmy, aby były to takie parametry, dla których zaobserwowanie naszego ciągu uczącego jest najbardziej prawdopodobne. Jest to zasada &amp;lt;i&amp;gt;największej wiarygodności&amp;lt;/i&amp;gt;. A zatem w myśl tej zasady trzeba znaleźć &amp;lt;math&amp;gt;\theta &amp;lt;/math&amp;gt;, które maksymalizuje funkcję wiarygodności &amp;lt;math&amp;gt;L(\theta )&amp;lt;/math&amp;gt;. Tak naprawdę wystarczy jeśli zmaksymalizujemy dowolną ściśle rosnącą funkcję funkcji wiarygodności. Rachunki znacznie się uproszczą jeśli jako tą funkcję wybierzemy &amp;lt;math&amp;gt;\log &amp;lt;/math&amp;gt; (wówczas iloczyn przejdzie w sumę). Ostatecznie chcemy zmaksymalizować:&lt;br /&gt;
&lt;br /&gt;
::&amp;lt;math&amp;gt;\begin{matrix}&lt;br /&gt;
l(\theta ) &amp;amp;=&amp;amp; \log (L(\theta )) \\&lt;br /&gt;
&amp;amp;=&amp;amp; \log \prod _{i=1}^m \frac{1}{\sqrt{2 \pi} \sigma } \exp \left( - \frac{ \left(y^{(i)} - \theta ^Tx^{(i)} \right)^2}{2 \sigma ^2} \right)\\&lt;br /&gt;
&amp;amp;=&amp;amp; \sum _{i=1}^m \log \frac{1}{\sqrt{2 \pi} \sigma } \exp \left( - \frac{ \left(y^{(i)} - \theta ^Tx^{(i)} \right)^2}{2 \sigma ^2} \right) \\&lt;br /&gt;
&amp;amp;=&amp;amp; m \log \frac{1}{\sqrt{2 \pi }\sigma } - \frac{1}{\sigma ^2} \cdot \frac{1}{2} \sum _{i=1}^m \left( y^{(i)} - \theta ^Tx^{(i)} \right)^2&lt;br /&gt;
\end{matrix}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Zauważmy, że aby zmaksymalizować funkcję wiarygodności musimy zminimalizować wyrażenie &amp;lt;math&amp;gt; \frac{1}{2} \sum _{i=1}^m \left( y^{(i)} - \theta ^Tx^{(i)} \right)^2 &amp;lt;/math&amp;gt;, czyli wprowadzoną w poprzednim rozdziale funkcję kosztu &amp;lt;math&amp;gt;J(\theta )&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Podsumowując: zakładając konkretny model probabilistyczny ciągu uczącego udało nam się pokazać, że minimalizacja funkcji kosztu jest konsekwencją zastosowania zasady największej wiarygodności. Warto jednak pamiętać, że procedura minimalizacji średniego błędu kwadratowego daje sensowne wyniki dla znacznie szerszej klasy modeli danych.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Więcej o regresji liniowej jednowymiarowej można przeczytać [[STATLAB:Regresja_liniowa_i_test_chi2|tu]].&lt;/div&gt;</summary>
		<author><name>Jarekz</name></author>
		
	</entry>
</feed>