L'algorithme de la boule pesante est une méthode d'optimisation non linéaire qui améliore la descente de gradient classique en ajoutant un terme "d'inertie" qui persistera la convergence vers un minimum.


On peut faire une bonne analogie en disant que la vitesse de la boule augmente lors de la descente illustre bien cette de mémoire puisque la vitesse  que la boule a pu accumuler jusqu'à l'instant t provient de ce qu'elle avait d'abord accumulé à l'instant t-1 et ainsi de suite


vitesse accumulée == mémoire du passé

En général, le gradient de f par rapport à θ indique comment f change quand θ évolue


Le gradient ne pointe PAS toujours vers le sommet.
Le gradient pointe dans la direction de la plus forte augmentation LOCALE de la fonction, pas nécessairement vers le sommet global.
Ce que le gradient indique vraiment
À un point donné, ∇f indique la direction dans laquelle f augmente le plus rapidement LOCALEMENT.


Le gradient est une information locale, pas globale.


Ce n'est pas vraiment de l'inertie physique, c'est juste qu'on ajoute une valeur qui persiste dans le temps et qui s'ajoute à θ indépendamment du gradient actuel.

La descente de gradient classique : vₖ₊₁ =  vₖ - α·∇f(θₖ) , on part de vₖ à vₖ - α·∇f(θₖ)
L'algorithme de la boule pesante  : vₖ₊₁ = γ·vₖ - α·∇f(θₖ) , on part de vₖ à γ·vₖ - α·∇f(θₖ) en remarquant bien que γ·vₖ < vₖ puisque γ < 1
la Heavy Ball Method converge plus vite 



La fonction f va chercher à quantifier l'écart entre l'abcisse de chute du projectile et l'abcisse du point visé



vₖ₊₁ = γ·vₖ - α·∇f(θₖ)
Regardons ce que γ fait concrètement :

Si γ = 0 : vₖ₊₁ = -α·∇f(θₖ)
→ La vitesse ne dépend QUE du gradient actuel, pas du passé
Si γ = 1 : vₖ₊₁ = vₖ - α·∇f(θₖ)
→ La vitesse précédente est entièrement conservée, on y ajoute juste le nouveau gradient
Si 0 < γ < 1 (par exemple 0.9) : vₖ₊₁ = 0.9·vₖ - α·∇f(θₖ)
→ On garde 90% de la vitesse précédente, et on y ajoute le gradient

γ contrôle combien de la vitesse passée on conserve.
Plus γ est proche de 1, plus la "mémoire" de v persiste longtemps.
Plus γ est proche de 0, plus v "oublie" rapidement son passé.