Przy lokalnym minimum (lub maksimum) x
, pochodna funkcji docelowej f
znika: f'(x) = 0
(przy założeniu wystarczającej gładkości)).
Pochylenie gradientowe próbuje znaleźć takie minimum x
, korzystając z informacji z pierwszej pochodnej f
: Po prostu następuje po najbardziej stromym zejście z bieżącego punktu. To jest jak rzucanie piłką w dół wykresu f
, aż dojdzie do odpoczynku (przy jednoczesnym zaniedbaniu bezwładności).
metoda Newtona próbuje znaleźć punkt x
spełniającego f'(x) = 0
poprzez zbliżenie f'
z funkcją liniową g
a następnie rozwiązywanie korzenia tej funkcji jawnie (nazywa się metodę korzeniowy rozpoznawczej Newtona). Korzeń g
niekoniecznie jest korzeniem f'
, ale w wielu okolicznościach jest to dobre przypuszczenie (Wikipedia article on Newton's method for root finding ma więcej informacji na temat kryteriów zbieżności). Podczas aproksymowania f'
metoda Newtona wykorzystuje f''
(krzywizna f
). Oznacza to, że ma wyższe wymagania co do gładkości f
, ale oznacza to również, że (przy użyciu większej ilości informacji) często zbiegają się szybciej.
Krzywizna dotyczy tego, w jaki sposób metoda Newtona wykorzystuje pochodną drugiego rzędu fuction. Pochodzenie gradientowe jest zazwyczaj pierwszego rzędu. – akk
Zobacz ten wykład od początku do końca: https://www.youtube.com/watch?v=sTCtkkqrY8A&index=15&list=PL3940DD956CDF0622 –