Aller au contenu

Racine carrée inverse rapide

Un article de Wikipédia, l'encyclopédie libre.
Les calculs de lumière (ici dans OpenArena, un fork de Quake III Arena) utilisent la racine carrée inverse rapide pour calculer les angles d'incidence et de réflexion.

La racine carrée inverse rapide (en anglais fast inverse square root, parfois abrégé Fast InvSqrt() ou par la constante 0x5f3759df en hexadécimal) est une méthode pour calculer x−½, l'inverse de la racine carrée d'un nombre à virgule flottante à simple précision sur 32 bits. L'algorithme a probablement été développé chez Silicon Graphics au début des années . Il a entre autres été utilisé dans le code source de Quake III Arena, un jeu vidéo de tir à la première personne sorti en [1]. À l'époque, le principal avantage de cet algorithme était d'éviter des opérations en virgule flottante, coûteuses en puissance de calcul, en préférant des opérations sur entiers. Les racines carrées inverses sont utilisées pour calculer les angles d'incidence et la réflexion pour la lumière et l'ombre en imagerie numérique.

L'algorithme prend en entrée des flottants de 32 bits non signés et stocke la moitié de cette valeur pour l'utiliser plus tard. Ensuite, il traite le nombre à virgule flottante comme un entier et lui applique un décalage logique à droite d'un bit et le résultat est soustrait à la valeur « magique » 0x5f3759df. Il en résulte une première approximation de la racine carrée inverse du nombre passé en entrée. En considérant de nouveau les bits comme un nombre à virgule flottante et en appliquant au nombre la méthode de Newton, on améliore cette approximation. Bien que n'assurant pas la précision la plus fine possible, le résultat final est une approximation acceptable de la racine carrée inverse d'un nombre à virgule flottante qui s'exécute quatre fois plus vite qu'une division d'un tel nombre.

Les normales à une surface sont largement utilisées dans les calculs d'éclairage et d'ombrage, ce qui nécessite le calcul des normes des vecteurs. Ici, on montre un champ de vecteurs normaux à la surface.

Les racines carrées inverses d'un nombre à virgule flottante sont utilisées pour calculer un vecteur normalisé[2]. En synthèse d'image 3D, ces vecteurs normalisés sont utilisés pour déterminer l'éclairage et l'ombrage. Des millions de ces calculs sont ainsi nécessaires chaque seconde. Avant l'apparition de matériel dédié au TCL, ces calculs pouvaient être lents. Ce fut particulièrement le cas lorsque cette technique a été développée au début des années où les opérations sur les nombres à virgule flottante étaient plus lentes que les calculs sur entiers[1].

Afin de normaliser un vecteur, on détermine la longueur de celui-ci en calculant sa norme euclidienne : la racine carrée de la somme du carré de ses composantes. Après avoir divisé chaque composante par cette longueur, on obtient alors un nouveau vecteur unitaire pointant dans la même direction.

est la norme euclidienne du vecteur, de la même manière que l'on calcule une distance dans un espace euclidien.
est le vecteur (unitaire) normalisé. Avec représentant ,
, liant le vecteur unitaire à la racine carrée inverse des composantes.

Aperçu du code

[modifier | modifier le code]

Le code source suivant est celui de la fonction Q_rsqrt qui implémente la racine carrée inverse rapide dans Quake III Arena. On a retiré du code les directives du préprocesseur C (lignes commençant par #), mais on a laissé les commentaires originaux (introduits par //)[3].

float Q_rsqrt( float number )
{
	long i;
	float x2, y;
	const float threehalfs = 1.5F;

	x2 = number * 0.5F;
	y = number;
	i = * ( long * ) &y; // evil floating point bit level hacking
	i = 0x5f3759df - ( i >> 1 ); // what the fuck?
	y = * ( float * ) &i;
	y = y * ( threehalfs - ( x2 * y * y ) ); // 1st iteration
//	y = y * ( threehalfs - ( x2 * y * y ) ); // 2nd iteration, this can be removed

	return y;
}

Afin de déterminer la racine carrée inverse, un programme calculerait une approximation de puis appliquerait ensuite une méthode numérique afin de peaufiner le résultat jusqu'à atteindre une erreur d'approximation acceptable. Des méthodes d'extraction de racine carrée du début des années ont permis d'avoir une première approximation depuis une table de correspondance[4]. Cette nouvelle fonction s'est montrée plus efficace que les tables de correspondance et environ quatre fois plus rapide qu'une division flottante classique[5]. L'algorithme a été conçu selon la norme IEEE 754[a] pour les nombres à virgule flottante 32 bits, mais des recherches de Chris Lomont et ensuite Charles McEniry ont montré qu'il pouvait être implémenté en utilisant d'autres spécifications de nombres à virgule flottante.

Le gain de vitesse apporté par le kludge qu'est la racine carrée inverse rapide vient du traitement du mot double[b] contenant le nombre à virgule flottante considéré comme entier qui est ensuite soustrait à une constante spécifique : 0x5f3759df. L'utilité de cette constante n'étant pas claire à première vue, on la considère alors comme un nombre magique[1],[6],[7],[8]. Après cette soustraction d'entiers et ce décalage à droite, on obtient un mot double qui, lorsqu'il est considéré comme un nombre à virgule flottante, devient une approximation grossière de la racine carrée inverse du nombre entré. Ensuite, une itération de la méthode de Newton est réalisée afin de gagner en précision et le résultat est retourné. L'algorithme génère des résultats raisonnablement précis en utilisant une seule approximation par la méthode de Newton ; toutefois, il reste plus lent que d'utiliser rsqrtss, une instruction du jeu SSE, sortie elle aussi en sur les processeurs x86[9].

Exemple pratique

[modifier | modifier le code]

Considérons un nombre x = 0,156 25, pour lequel on souhaite calculer 1/x ≈ 2,529 82. Voici les premières étapes de l'algorithme :

0011_1110_0010_0000_0000_0000_0000_0000  Trame binaire de x et i
0001_1111_0001_0000_0000_0000_0000_0000  Décalage à droite d'une position : (i >> 1)
0101_1111_0011_0111_0101_1001_1101_1111  Le nombre magique 0x5f3759df
0100_0000_0010_0111_0101_1001_1101_1111  le résultat de 0x5f3759df - (i >> 1)

En utilisant la représentation IEEE 754 sur 32 bits :

0_01111100_01000000000000000000000  1.25 * 2^-3
0_00111110_00100000000000000000000  1.125 * 2^-65
0_10111110_01101110101100111011111  1.432430... * 2^+63
0_10000000_01001110101100111011111  1.307430... * 2^+1

En réinterprétant la dernière trame binaire en tant que nombre à virgule flottante on obtient l'approximation y = 2,614 86 ayant une erreur relative d'environ 3,4 %. Après une itération de la méthode de Newton, le résultat final est y = 2,525 49 avec une erreur de seulement 0,17 %.

Fonctionnement de l'algorithme

[modifier | modifier le code]

L'algorithme calcule 1/x en effectuant les étapes suivantes :

  1. Transforme l'argument x en entier afin d'appliquer une approximation de log2(x) ;
  2. Utilise cet entier pour calculer une approximation de log2(1/x) ;
  3. Transforme celui-ci afin de revenir à un nombre flottant afin d'effectuer une approximation de l'exponentielle base-2 ;
  4. Affine l'approximation en utilisant une itération de la méthode de Newton.

Représentation en nombre flottant

[modifier | modifier le code]

Puisque cet algorithme s'appuie fortement sur la représentation bit à bit des nombres à virgule flottante simple précision, un aperçu rapide de ce système est fourni ici. Afin d'encoder un nombre réel non nul x en tant que flottant de simple précision, on commence par écrire x comme un nombre binaire en notation scientifique :

Où l'exposant ex est un entier, mx ∈ [0, 1), et 1,b1b2b3... est la représentation binaire de la « mantisse » (1 + mx). Notons qu'il n'est pas nécessaire d'enregistrer le bit avant la virgule dans la mantisse car il vaut toujours 1. Avec ce formalisme, on calcule trois entiers :

Ces valeurs sont ensuite condensées de gauche à droite dans un conteneur 32 bits.

Par exemple, en utilisant le nombre x = 0,156 25 = 0,001 012. En normalisant x on a :

Donc, les trois valeurs entières non signées sont :

  • S = 0 ;
  • E = −3 + 127 = 124 = 011111002 ;
  • M = 0,25 × 223 = 2097152 = 010000000000000000000002.

Ces champs sont condensés comme ceci :

Approcher un logarithme en passant à l'entier

[modifier | modifier le code]

S'il fallait calculer 1/x sans un ordinateur ou une calculatrice, une table de logarithmes serait utilement accompagnée de l'identité logb(1/x) = −½ logb(x) valide quelle que soit la base b. La racine carrée inverse rapide repose sur cette dernière ainsi que sur le fait que l'on puisse effectuer un logarithme approximatif d'un nombre en passant d'un float32 à un entier. Explications :

Soit x un nombre normal positif :

On a alors

Mais puisque mx ∈ [0, 1), le logarithme de la partie droite peut être arrondi par[10] :

σ est un paramètre arbitraire permettant de régler l'arrondi. Par exemple : σ = 0 fournit des résultats exacts aux bords de l'intervalle tandis que σ ≈ 0.0430357 fournit l'approximation optimale.

L'entier converti en nombre flottant (en bleu), comparé à un logarithme décalé et mis à l'échelle (en gris).

Alors nous avons l'approximation

D'un autre côté, en interprétant la représentation binaire de x en tant qu'entier, on obtient[e] :

On remarque alors que Ix est une approximation linéaire mise à l'échelle et décalée de log2(x), comme présenté sur le graphique ci-contre. En d'autres termes, log2(x) est approché par

Première approximation du résultat

[modifier | modifier le code]

Le calcul de y = 1/x est fondé sur l'identité

En utilisant l'approximation du logarithme telle que précédemment définie et appliquée à x et y, l'équation devient :

Qui s'écrit en code C :

i = 0x5f3759df - ( i >> 1 );

Le premier terme étant le nombre magique

à partir duquel on déduit σ ≈ 0,045 046 6. Le second terme, ½ Ix, est déterminé en décalant à droite une fois les bits de Ix[11].

Méthode de Newton

[modifier | modifier le code]
Erreur relative entre calcul direct et racine carrée inverse rapide, en exécutant (de haut en bas) 0, 1, 2, 3 et 4 itérations de la méthode de Newton (calculs effectués en double précision, la plus petite différence représentable entre 2 nombres en double précision étant atteinte en 4 itérations).

Après avoir appliqué ces opérations, l'algorithme considère de nouveau le mot double comme nombre flottant (y = *(float*)&i;) et effectue une multiplication en nombre flottant (y = y*(1.5f - xhalf*y*y);). Celle-ci étant une itération de la méthode de Newton permettant de trouver des solutions à une équation donnée. Pour ce même exemple :

est la racine carrée inverse, ou encore, en fonction de y :
.
Avec représentant l'expression générale de la méthode de Newton avec comme première approximation,
est l'expression particulière où et .
Ainsi y = y*(1.5f - xhalf*y*y); est semblable à

La première approximation est générée en utilisant les opérations en tant qu'entiers puis fournie aux deux dernières lignes de code de la fonction. Des itérations répétées de cet algorithme en utilisant la sortie de la fonction () comme argument pour l'itération suivante fait converger l'algorithme sur la racine avec une incertitude de plus en plus faible[12]. Une seule itération a été utilisée dans le cadre du moteur de Quake III, une seconde itération ayant été commentée et laissée.

Histoire et enquête

[modifier | modifier le code]
John Carmack, cofondateur d'id Software, est souvent associé à cette fonction, même s'il ne l'a pas écrite.
John Carmack, cofondateur d'id Software, est souvent associé à cette fonction, même s'il ne l'a pas écrite.

Le code source de Quake III Arena a été diffusé après la QuakeCon , mais des copies de la racine carrée inverse rapide sont apparues sur Usenet et d'autres forums dès /[1]. Les spéculations à l'époque pointent comme auteur probable de la fonction John Carmack, cofondateur d'id Software, l'entreprise qui a développé les jeux Quake. Mais Carmack dément la chose et suggère que la fonction a été écrite par Terje Mathisen, un programmeur assembleur talentueux qui a aidé les développeurs d'id Software pour optimiser Quake. Mathisen a effectivement écrit une fonction similaire à la fin des années , mais les auteurs originaux remontent à plus loin dans l'histoire de l'infographie 3D avec l'implémentation faite par Gary Tarolli pour un SGI Indigo (en) qui serait l'une des premières utilisations connues. Rys Sommefeldt, auteur de l'enquête, finit par conclure que l'algorithme original est l'œuvre de Greg Walsh de Ardent Computer (en) en collaboration avec Cleve Moler, fondateur de MathWorks[13].

On ne sait pas comment la valeur exacte du nombre magique a été déterminée. Chris Lomont a développé une fonction pour minimiser l'erreur d'approximation en choisissant le nombre magique R dans un intervalle. Il calcule d'abord la constante optimale pour l'étape d'approximation linéaire, il obtient 0x5f37642f qui est proche de 0x5f3759df, mais avec cette nouvelle constante, il obtient une précision moindre après une itération de la méthode de Newton[14]. Il cherche alors une constante optimale même après une ou deux itérations de la méthode de Newton et obtient la valeur 0x5f375a86 qui se révèle plus précise que l'originale, même après chaque étape d'itération[14]. Il conclut alors en se demandant si la valeur originale a été choisie par dérivation ou par essai-erreur[15]. Dans la lancée, Lomont indique aussi que la valeur magique pour flottant double précision 64 bits IEEE 754 est 0x5fe6ec85e7de30da, mais il a été démontré que la valeur exacte était 0x5fe6eb50c7b537a9[16]. Charles McEniry a effectué une optimisation similaire mais plus sophistiquée sur les valeurs probables pour R. Il cherche d'abord par une méthode par force brute et obtient la valeur déterminée par Lomont[17]. Il a ensuite essayé de rechercher cette valeur par une méthode de dichotomie et obtient alors la valeur utilisée initialement dans la fonction, ce qui conduit McEniry à penser que cette constante a probablement été obtenue par cette méthode[18].

Notes et références

[modifier | modifier le code]
(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Fast inverse square root » (voir la liste des auteurs).
  1. IEEE 754-1985 (en).
  2. L'utilisation du type long réduit la portabilité de ce code sur les systèmes récents. Afin que le code s'exécute, sizeof(long) doit valoir 4 octets sinon la fonction risque de retourner des résultats négatifs. Sur les systèmes 64 bits récents, sizeof(long) vaut 8 octets.
  3. Ex doit être dans le domaine [1, 254] afin que x soit représentable comme un nombre normal (en).
  4. Les seuls réels pouvant être représentés exactement comme des nombres à virgule flottante sont ceux pour lesquels Mx est un entier. Les autres nombres ne peuvent être représentés que de façon approchée en les arrondissant au nombre représentable le plus proche.
  5. Sx = 0 puisque x > 0.

Références

[modifier | modifier le code]
  1. a b c et d Sommefeldt nov. 2006.
  2. (en) Jim Blinn, Jim Blinn's Corner : Notation, Notation, Notation, Amsterdam/Boston, Morgan Kaufmann, , 327 p. (ISBN 1-55860-860-5), p. 130 [lire en ligne].
  3. (en) Travis Bradshaw, « code/game/q_math.c », The Quake III Arena sources as originally released under the GPL license on August 20, 2005, sur GitHub, id Software, , lignes 552 à 572.
  4. (en) David H. Eberly, 3D Game Engine Design : A Practical Approach to Real-Time Computer Graphics, San Francisco, Morgan Kaufmann, , 561 p. (ISBN 1-55860-593-2), p. 504.
  5. Lomont 2003, p. 1.
  6. Lomont 2003, p. 3.
  7. McEniry 2007, p. 1.
  8. Eberly 2001, p. 2.
  9. (en) Elan Ruskin, « Timing Square Root », sur assemblyrequired.crashworks.org, (version du sur Internet Archive).
  10. McEniry 2007, p. 3.
  11. (en) John L. Hennessy et David A. Patterson, Computer Organization and Design : The Hardware-Software Interface, San Francisco, Morgan Kaufmann, , 2e éd. (ISBN 1-55860-491-X et 1-55860-428-6), p. 305.
  12. McEniry 2007, p. 6.
  13. Sommefeldt déc. 2006.
  14. a et b Lomont 2003, p. 10.
  15. Lomont 2003, p. 10–11.
  16. Robertson 2012, p. 33.
  17. McEniry 2007, p. 11–12.
  18. McEniry 2007, p. 16.

Bibliographie

[modifier | modifier le code]

Articles connexes

[modifier | modifier le code]

Liens externes

[modifier | modifier le code]
  • (en) Adam Hyland, « 0x5f37642f.com », site consacré à la racine carrée inverse rapide.