Accélère la recherche de l'optimum grâce à l'effet de momentum dans les régions plates.
Le momentum permet de franchir les "vallées" peu profondes et de progresser vers le minimum global.
Efficace sur des surfaces d'optimisation non convexes et des fonctions coût complexes.
Nécessite un réglage fin des paramètres α (pas d'apprentissage) et γ (coefficient de momentum).
Peut rester bloqué dans des minima locaux profonds, sans garantie de trouver le minimum global.
Implique la gestion d'une variable de vitesse supplémentaire par rapport aux méthodes de gradient simple.