\displaystyle 1,2,4,8,16,32,64,128,256,512,1024,2056,...

Dans l’enfance, il est une période où l’on a tendance à abuser des questions existentielles sur le monde qui nous entoure; et si cette période rencontre celle où vous avez appris à multiplier par {2}, peut-être en gardez vous des questions aussi tordues que non triviales comme celles que nous allons nous poser dans ce billet.

Autrement, pas de panique, les puissances de {2} constituent une dynamique qui ne manque pas d’applications. La première qui vous vient en tête se trouve dans le monde informatique, car même si vous n’avez aucune idée de ce qui se cache dessous, vous aurez au moins reconnu les nombres qui désignent la capacité de vos diverses clés USB. Et ce n’est que le début, un jour peut être, les ordinateurs quantiques auront une efficacité telle que {N} bits quantiques pourront renvoyer autant d’informations que {2^N} bits classiques ({2^{300}} c’est déja plus que le nombre de particules de l’univers…).

Bref, tout cela pour vous rassurer quant à l’utilité des questions d’apparence bizarres que peut poser la suite des {2^N}, que cela soit dans le but de soulager une question de votre enfance ou pour servir un besoin scientifique.

Je peux ainsi m’empresser de poser l’une d’entre elle qui constitue un bon alibi pour observer les résultats que peut fournir la dynamique ergodique:

A quelle fréquence apparaît le chiffre 7 en première position du nombre {2^N}?

Plus précisément, on regarde les premiers termes de la suite des premiers chiffres de {(2^n)_{n\in \mathbb{N}}}:

\displaystyle 1,2,4,8,1,3,6,1,2,5,1,2...

Pas l’ombre d’un {7}… Mais il finira bien par arriver, on me souffle que {2^{46}} commence par un {7}. Sa fréquence d’apparition semble bien inférieure à celle de {1} déjà présent à répétition dans les premiers termes écrits plus haut. Traduisons mathématiquement la question qu’on se pose…

{7} a été choisi pour la commodité de la lecture, mais on pourra obtenir une comparaison, en fonction du chiffre choisi pour l’expérience, qui sera intéressante. Ainsi, choisissons {a\in \{1,2,3,4,5,6,7,8,9 \}}, et cherchons à quelle fréquence il apparaît comme premier chiffre de {2^N}.

Soit {n\in \mathbb{N}} tel que {2^n} commence par {a}. Autrement dit, il existe un entier {k} et un nombre {b} tels que:

\displaystyle 2^n = a... = a10^k+b

avec la particularité que {b<10^k}. Ou encore:

\displaystyle a10^k \le 2^n < (a+1)10^k.

En passant cette encadrement au logarithme décimal, il devient:

\displaystyle k+ \log_{10}(a) \le n\log_{10}(2) < k+\log_{10}(a+1).

En remarquant que {\log_{10}(a)\in [0,1]} et qu’ainsi {k} est la partie entière de {n\log_{10}(2)}, il nous reste à étudier la partie fractionnaire de {n\log_{10}(2)} que l’on note {\{ n\log_{10}(2) \}} ({\{ x \} = x-E(x)}{E(x)} désigne la partie entière de {x}).
En passant l’encadrement aux parties fractionnaires, on obtient: {\{ n\log_{10}(2) \} \in [\log_{10}(a),\log_{10}(a+1)]} qui traduit exactement la condition « {a} est le premier chiffre de {2^n}« .

Il ne nous reste qu’à compter. Notons « {Prem(x)} » la fonction qui renvoie le premier chiffre de l’entier {x}. On s’interesse à la fréquence {F_a} d’apparition de {a} en première position des puissances successives de {2}. Autrement dit:

\displaystyle F_a = \lim_{n\rightarrow \infty} \frac{1}{n} \# \{ k\in [1,n], Prem(2^k) = a \}

ce que l’on peut réécrire, grâce à la traduction de la condition vue ci-dessus:

\displaystyle F_a = \lim_{n\rightarrow \infty} \frac{1}{n} \sum_{k=1}^{n} \mathbf{1}_{[\log_{10}(a),\log_{10}(a+1)]}(\{ k\log_{10}(2) \}).

{\mathbf{1}} désigne la fonction indicatrice.
Il nous faut ainsi réussir à calculer la moyenne de l’évaluation de cette indicatrice après chaque itération de {\log_{10}(2)}. C’est ce que nous allons reconnaître comme une somme de Birkhoff, l’objet phare de la théorie ergodique, statut qui se manifeste ici.

Énonçons alors les résultats de théorie ergodique qui vont nous servir à calculer la limite de cette somme.

Pour arriver aux systèmes dynamiques uniquement ergodiques.

Un système dynamique mesuré consiste en la donnée de {(X,\mathcal{B},\mu,T)}{X} est un ensemble, {\mathcal{B}} est une tribu sur {X}, {\mu} une mesure borelienne, et {T:X\rightarrow X} est une fonction mesurable qui est telle que {T_{*}\mu=\mu}. Autrement dit, pour tout borélien {B\in \mathcal{B}}, {\mu(T^{-1}B)=\mu(B)}.
Dans la suite on supposera que {X} est un espace topologique compact et que {\mu} est finie, ce qui constitue le cadre adéquat à notre problème.
{T} est ainsi la transformation qu’il nous intéresse d’itérer, c’est notre dynamique à temps discret. Soit {f\in L_1(X,\mu)} une fonction. En théorie ergodique, on s’intéresse aux sommes de Birkhoff:

\displaystyle S_N f = \frac{1}{N}\sum_{n=0}^{N-1}f\circ T^n

et plus particulièrement à leur comportement limite. Il s’agit de la moyenne des valeurs prises par {f} après chaque itération. Évidemment en prenant {\mathbf{1}_{[\log_{10}(a),\log_{10}(a+1)]}} comme fonction à évaluer, on retrouve la somme de Birkhoff qui est notre fil conducteur.
Le théorème de Birkhoff stipule que pour un système dynamique mesuré, ces moyennes convergent pour {\mu}-presque tout {x\in X} vers une fonction notée {f_{*}} qui vérifie entre autre:

\displaystyle f_{*}\circ T = f_{*}.

Certains systèmes sont particulièrement intéressants, il s’agit des systèmes dynamiques ergodiques. Ils vérifient la propriété suivante qui peut être prise comme définition: Pour toute fonction mesurable {f:X\rightarrow \mathbb{R}}, si {f\circ T = f} alors {f} est constante {\mu}-presque partout.
Dans le cadre de ces systèmes, le théorème de Birkhoff se manifeste de façon plus pratique…

Théorème (Ergodique). Si {(X,\mathcal{B},\mu,T)} est ergodique, alors {f_{*}(x) = \lim_{N\rightarrow \infty} S_N f} est constante presque partout, et vaut {\frac{1}{\mu(X)}\int f d\mu}. (Si {\mu} n’était pas finie, {f_{*}} serait nulle).

Lorsque {X} est compact, il existe toujours une mesure invariante et ergodique pour {T}.
Si de plus il n’y a qu’une seule mesure invariante pour {T}, elle est a fortiori ergodique et on dit alors que le système est uniquement ergodique. La convergence des sommes de Birkhoff n’en est que plus gentille:

Proposition (Unique ergodicité). {(X,\mathcal{B},\mu,T)} est uniquement ergodique si, et seulement si, pour toute fonction {f\in C(X,\mathbb{R})}, les sommes de Birkhoff {S_N f} convergent uniformément vers une constante.

Les rotations irrationnelles sur le cercle sont des systèmes dynamiques uniquement ergodiques.

On va s’intéresser aux fameuses rotations irrationnelles déjà beaucoup traitées sur ce blog… Ceci car notre problème fait intervenir l’itération de {\log_{10}(2)}, ce que l’on peut voir comme des rotations successives d’un angle {\log_{10}(2)}, irrationnel.
{\mathbb{T}} désigne le cercle, qu’on verra ici comme le quotient: {\mathbb{R}/\mathbb{Z}}. Soit {\alpha \in [0,1]} un irrationnel. On note {T_{\alpha}} la rotation correspondante:

\displaystyle T_{\alpha}: \left \{ \begin{array}{ccc} \mathbb{T} & \rightarrow & \mathbb{T}\\ x & \mapsto & x+\alpha \ mod \ 1 \end{array} \right.

Comme vous n’avez sûrement pas pu le rater en parcourant les articles de ce blog, la propriété primordiale de ce système (et qui change du cas rationnel) est que ses orbites sont denses dans le cercle. Autrement dit, pour tout {x\in \mathbb{T}}, {\{ T_{\alpha}^n (x), n\in \mathbb{N}\}} est dense dans {\mathbb{T}}, donc s’approche aussi près qu’on le souhaite de chaque point du cercle..
La mesure de Lebesgue, stable par translation, est donc invariante pour {T_{\alpha}} et ce quelque soit {\alpha}.
Supposons qu’il existe une mesure {\nu} invariante pour {T}. Alors, pour tout {n\in \mathbb{N}}:

\displaystyle T_{\alpha *}^n \nu = T_{n\alpha *} \nu = \nu

Ceci en utilisant qu’itérer {n} fois revient a translater de {n\alpha}, et la conservation de la mesure par {T}.
Ainsi, par densité de {\{ n\alpha = T_{\alpha}^n (0), n\in \mathbb{Z} \}} dans {\mathbb{T}}, on a pour tout {\beta \in [0,1]}:

\displaystyle T_{\beta*} \nu = \nu

Ceci en prenant la limite de {T_{n_i \alpha *}} pour une suite extraite de {n_i \alpha} qui tend vers {\beta}, et obtenue par densité de l’orbite.

On reconnaît alors que {\nu} est la mesure de Lebesgue, seule mesure invariante par toute translation.

On a obtenu qu’une rotation irrationnelle du cercle constitue un système uniquement ergodique.

Quant à l’occurrence de {7} comme premier chiffre dans les puissances successives de {2}.

L’apport de la théorie ergodique repose sur le fait que {\{ k\log_{10}(2) \}} peut-être vue comme le {k}-ième itéré de la rotation d’angle { \log_{10}(2) }, soit:

\displaystyle F_a = \lim_{n\rightarrow \infty} \frac{1}{n} \sum_{k=1}^{n} \mathbf{1}_{[\log_{10}(a),\log_{10}(a+1)]}(T_{\log_{10}(2)}^k(0)).

Et (ici se trouve un point clé) on reconnaît une somme de Birkhoff pour la fonction {\mathbf{1}_{[\log_{10}(a),\log_{10}(a+1)]}}.
De plus, comme un cadeau, il nous vient que { \log_{10}(2) } est irrationnel (la question n’était, il est vrai, pas choisie au hasard…), on a une rotation irrationnelle qui est uniquement ergodique, d’après les deux paragraphes précédents. Ainsi cette somme de Birkhoff converge uniformément vers l’intégrale donnée par le Théorème ergodique vu plus haut:

\displaystyle F_a = \int_{\mathbb{T}} \mathbf{1}_{[\log_{10}(a),\log_{10}(a+1)]} d\mu = \log_{10}(1+\frac{1}{a})

La fréquence d’apparition de {a} comme premier chiffre dans les puissances successives de {2} est {\log_{10}(1+\frac{1}{a})}.

Comme promis, la conclusion peut paraître loufoque, car en regardant de loin, aucune raison apparente nous indique qu’un chiffre apparaîtra en première position plus souvent qu’un autre. Malgré aucun indicateur sur la définition de cette suite d’une brisure de cette symétrie, elle n’est pas du tout vérifiée.
Ce n’est qu’un exemple des propriétés purement numériques que l’on observe, à moindre coût, grâce à la théorie ergodique.

Dans la même veine, et en traduisant le problème exactement comme on vient de le faire, on trouve la même absence de symétrie, en comparant les nombres {2^n} qui commencent par {123456789} et ceux qui commencent par {987654321}. En effet, le début {123456789} apparaît plus fréquemment que {987654321}. Je vous laisse le soin de multiplier par {2} jusqu’à vous en convaincre (ou jusqu’à ne plus en pouvoir et décider de faire aveuglément confiance à la théorie ergodique).
Ainsi, avec comme seule hypothèse importante que {\log_{10}(2)} est irrationnel, on peut appliquer des théorèmes aussi puissant que ceux de la théorie ergodique à des questions sur les puissances de {2}, et obtenir des résultats pas évidents avant un grand nombre d’itérations… nombre inatteignable pour quelqu’un d’autre qu’un ordinateur quantique, à cause de la vitesse de croissance d’une telle suite.

Introduction:

Le théorème dont on parlera dans cet article est un résultat concernant la théorie de nombre. On se pose la question suivante: donné un ensemble A d’entiers qu’est qu’on peut dire sur l’existence d’une progression arithmétique arbitrairement longue contenue dans A ?

La question peut être formulée de la manière suivante:

Pour tout k \in A existent-t-ils des entiers m,n \in \mathbb{Z} tels que m, m+n, m+2n, \dots, m+kn \in A ?

Ce problème a été explore par différents points de vues et on peut aussi l’approcher avec des résultats liés aux systèmes dynamiques (notamment dans cette exposition on utilisera le Théorème de Furstenberg). C’est une autre démonstration du fait que les résultats de la théorie des systèmes dynamiques peuvent être appliqués et utilisés des plusieurs façons et donner des résultats remarquable dans des endroits de math a priori plutôt loin du but initial pour lequel la théorie avait été developpée.

Peut être interessant de reporter une petite histoire des résultats concernants ce sujet.

Théorème[van der Waerden, 1927]

Si les ensembles A_1,\dots,A_l forment une partition de \mathbb{N}, alors l’un des ensembles A_i contient des progressions arithmétiques arbitrairement longues.

(Ce résultat aussi peut être démontré en utilisant le Théorème de Furstenberg).

En introduisant la notion de densité supérieure
d(A):=\limsup_{N\to \infty}\left( \frac{1}{2N+1}\cdot Card(A\cap \left\{ -N,\dots,N\right\}) \right) > 0
pour A partie de \mathbb{N}, on peut généraliser ce résultat (en notant que l’hypothèse de van der Waerden s’écrit \sum d(A_i) > 0) avec le

Théorème[Szemeredi, 1975]

Si d(A)>0 alors A contient des progressions arithmétiques arbitrairement longues.

Les plus récent des résultat sur ce sujet est du à Green et Tao:

Théorème[Green – Tao, 2004]

L’ensemble des nombres premieres contient des progressions arithmétiques arbitrairement longues.

Finalement, on peut enoncer une conjecture lié à ce sujet, où on a une hypothèse encore plus faible sur l’ensemble A:

Conjecture[Erdös]

Si \sum_{n\in A-\left\{0\right\}} \frac{1}{n}=\infty alors A contient des progressions arithmétiques arbitrairement longues.

La preuve du Théorème:

Le but de cet article est de prouver le Théorème de Szemeredi à partir de Théorème de Furstenberg.

On commence en reportant les énonces des deux théorèmes.

Théorème[Furstenberg]

Soit k un entier positif, (X, \chi, \mu, F) un système dynamique mesuré avec \mu(X)=1, et E\subset X une partie de mesure strictement positive. Alors il existe r > 0 tel que

\mu(E\cap F^{-r} E \cap \dots \cap F^{-kr} E) >0.

Théorème[Szemeredi]

Soit A contenue dans \mathbb{Z} une partie de densité supérieure strictement positive, c’est-à-dire telle que

\limsup_{N\to \infty}\left( \frac{1}{2N+1}\cdot Card(A\cap \left\{ -N,\dots,N\right\}) \right) > 0.

Alors pour tout k \in \mathbb{N} il existe r>0 et un entier n tel que A contient tous les entiers

n, \; n+r, \dots, \; n+kr.

Preuve(Szemeredi): L’idée est de montrer que le premier resultat implique le deuxième. On considère une partie A\subset \mathbb{Z} qui vérifie les hypothèses de Szemeredi. Soit T l’application de traslation définie par T: \mathcal{P}(\mathbb{Z})\rightarrow \mathcal{P}(\mathbb{Z}) (où \mathcal{P}(\mathbb{Z}) est l’ensemble des parties de \mathbb{Z}) avec T(E)=\left\{ n \in \mathbb{Z} \mbox{ tel que } n-1 \in E \right\}. On peut alors considérer  l’ensemble X des parties B de \mathbb{Z} telles que

Pour tout N > 0 existe n \in \mathbb{Z} tel que B\cap\left\{ -N,\dots ,N \right\} = T^{n}A\cap\left\{ -N,\dots ,N \right\}.

On a une bijection naturelle \phi : X \rightarrow \left\{0,1\right\}^{\mathbb{Z}} définie par

\phi(B):= (\epsilon_{n})_{n\in\mathbb{Z}} \; avec \; \begin{cases} \epsilon_{n} = 0 & \mbox{ si } n\notin B\; , \\ \epsilon_{n} = 1 & \mbox{ si } n\in B\; . \end{cases}

Soit alors a:=\phi(A) (donc a: \mathbb{Z}\rightarrow \left\{ 0,1\right\}).

On veut montrer que \phi (X) est l’adhérence de l’orbite de a=\phi (A) pour le décalage \sigma. On commence en observant que \phi est une semiconjugaison entre \sigma et T: B \rightarrow \left\{ 0,1 \right\} . En effet on a que si E\in B alors

\phi(T(E))=\phi(\left\{ E+1 \right\}) = (\epsilon_n)_{n\in \mathbb{Z}} ( où \left\{ E+1 \right\}:= \left\{ m\in \mathbb{Z} |\; m-1 \in E \right\}) avec

\; \begin{cases} \epsilon_{n} = 0 & \mbox{ si } n\notin \left\{ E+1\right\} \; \\ \epsilon_{n} = 1 & \mbox{ si } n\in \left\{ E+1\right\} \; \end{cases} = \begin{cases} \epsilon_{n} = 0 & \mbox{ si } n-1\notin E\; \\ \epsilon_{n} = 1 & \mbox{ si } n-1\in E \; \end{cases},

et en même temps on a que \sigma(\phi(A)) = \sigma((\epsilon_n)_{n\in \mathbb{Z}})=(\sigma(\epsilon)_n) _{n\in\mathbb{N}}

\; \begin{cases} \sigma(\epsilon)_{n} = 0 & \mbox{ si } n-1\notin E \; \\ \sigma(\epsilon)_{n} = 1 & \mbox{ si } n-1\in E \; \end{cases} .

On observe évidemment que \sigma^{n}\phi(E)=\phi (T^n (E)). On peut alors écrire que

\phi(X)=\phi(\left\{ B\subset \mathbb{Z} \; | \; \forall N>0 \; \exists n \in \mathbb{Z}, B\cap\left\{-N,\dots ,N \right\}= T^n (A)\cap \left\{-N,\dots ,N \right\} \right\}) =

= \left\{ b\in \left\{ 0,1\right\}^{\mathbb{Z}} \; | \; \forall N > 0 \; \exists \; n \; pour \; lequel \; b_k =(\sigma^n a)_k, \; k \in \left\{-N,\dots, N\right\}\right\}=

= \overline{\left\{ \sigma^n a\right\}}=\overline{O_{\sigma}(a)}

c’est-à-dire l’adhérence de l’orbite de a par le décalage \sigma.

On définit maintenant, pour tout entier positif N la mesure borélienne \mu_N sur \phi(X) définie par

\mu_N:= \frac{1}{2N+1}\sum_{n=-N}^{N} \delta_{\sigma^n a}

a=\phi(A) et \delta_x désigne la masse de Dirac au point x. On appelle E l’ensemble des éléments (\epsilon_i)_{i\in \mathbb{Z}}\in \phi(X) vérifiant \epsilon_0=1.

On observe que l’hypothèse du Théorème de Szemeredi peut être re-écrite de la manière suivante grâce à la définition précédente:

\limsup_{N\to \infty}\left( \frac{1}{2N+1}\cdot Card(A\cap \left\{ -N,\dots,N\right\}) \right) > 0\;\Leftrightarrow

\limsup_{N\to \infty} \mu_N(E) >0.

(Cette observation suit simplement de l’application de les définitions).

Si on considère maintenant la suite de mesures (\mu_N)_{N\in \mathbb{N}}\in \mathcal{M}_{\sigma}(\phi(X)), on a que par compacité de \overline{O_{\sigma}(a)}\subset \left\{ 0,1 \right\}^{\mathbb{Z}} (car il est un fermé dans un compacte), cette suite doit admettre une sous-suite convergente vers un élément qu’on notera \mu\in \mathcal{M}_{\sigma}(\phi(X)). Cette mesure \mu est une mesure de probabilité par construction.

On veut maintenant montrer qu’elle est invariante par le décalage, c’est-à-dire que \forall \; B \subset \phi(X) \mu(\sigma^{-1} B)=\mu(B). Soit \mu_{\psi(N)}\subset \mu_{N} la sous-suite extraite. On a alors que:

\mu(\sigma^{-1}B) = \lim_{\psi(N)\to\infty} \frac{1}{2\psi(N)+1}\sum_{n=-\psi(N)}^{\psi(N)} \delta_{\sigma^n a}(\sigma^{-1}B)

=\lim_{\psi(N)\to\infty} \frac{1}{2\psi(N)+1}\sum_{n=-\psi(N)}^{\psi(N)} \delta_{\sigma^{n+1} a}(B)=

\lim_{\psi(N)\to\infty} \frac{1}{2\psi(N)+1}\sum_{n=-\psi(N)+1}^{\psi(N)+1} \delta_{\sigma^n a}(B)=\mu(B).

On veut en plus montrer que \mu(E)>0. Nous avons comme hypothèse que

\lim_{k\to\infty} \sup_{N\ge k} \mu_N(E) >0\Leftrightarrow \lim_{k\to\infty} v_k=l > 0

si on a définit v_k:=\sup_{N\ge k} \mu_N(E). On en deduit que aussi \lim_{k\to\infty} v_{\phi(k)}=l > 0, donc on a forcement que v_{\phi(n)}:=\sup_{k\ge \phi(n)} u_k \ge \sup_{k\ge n} u_{\phi(k)}.

Finalement on observe qu’on peut appliquer le Théorème de Furstenberg, car la mesure \mu (dans le système (\phi(X),\mu,\sigma)) est de probabilité sur \phi(X) et on a aussi \mu(E) > 0. La thèse est alors qu’il existe un r>0 tel que \mu(E\cap\sigma^{-r}E\cap\dots\cap \sigma^{-kr}E)>0, mais cette affirmation est exactement équivalente à la thèse du Théorème de Szemeredi, grâce à la définition de E:=\left\{ (\epsilon_i)_{i\in \mathbb{Z}}\in \phi(X) \; | \;\epsilon_0=1\right\}: en effet l’ensemble E\cap\sigma^{-r}E\cap\dots\cap \sigma^{-kr}E est composé par les suites avec les composants \epsilon_0=\epsilon_r=\epsilon_{2r}=\dots=\epsilon_{kr}=1, et on a que la mesure de cet ensemble est strictement positive. On se rappelle alors de la définition donnée pour la mesure \mu, qui dépende de l’ensemble A (est la limite de \mu_n). En étant \mu(E) positive il faut que dans A il y aient les éléments de la progression arithmétique recherchée et on peut conclure la preuve.

En 1706 Lemuel Gulliver avait visité l’île fluctuante de Laputa, une terre extraordinaire, habitée par les astronomes et les mathématiciens, une terre où la science et les mathématiques étaient enracinées au point que même la nourriture était modélisée géométriquement: triangles équilatéraux de mouton, losanges de boeuf, tartes en forme de cycloïde sont seulement des exemples. Mais la géométrie du XVIIIème siècle était euclidienne, donc très pauvre et par conséquent aussi la cuisine laputienne l’était. En raison de l’isolement de Laputa, cette situation perdura jusqu’à il y a quelques années, quand un groupe de chercheurs décida de retourner à l’île, après plus de trois siècles, pour informer les habitants de la découverte de la géométrie fractale. Lors de leur arrivée, les chercheurs furent accueillis solennellement et une conférence, à laquelle toute la population de Laputa participa, fut immédiatement organisée. Voici le témoignage de l’événement.
« On commence par une famille de systémes dynamiques complexes, » dit un jeune mathématicien « donnée par

f_c(z) := z^2 + c

c \in \mathbb{C} et z est une variable complexe. Nous allons étudier le comportement des orbites de cette famille, en particulier des orbites positives, qui sont définies de la façon suivante

O^+_c(z_0) := \{f_c^n(z_0) \,|\, n \in \mathbb{N} \}

Mais pourquoi on a choisi cette famille? On remarque, tout d’abord, que \{f_c\}_{c \in \mathbb{C}} est suffisamment générale, car tout polynôme quadratique est conjugué à un unique polynôme f_c par une application h(z) = az+b avec a,b \in \mathbb{C} appropriés. Donc, ce n’est pas restrictif de considérer seulement la famille à un paramétre \{f_c\}_{c \in \mathbb{C}}. Ensuite, il sera très utile de considérer la projection stéréographique: grâce à elle, on pourra projeter le plan complexe sur la sphère \mathbb{S}^2 et on pourra penser au pôle nord N comme à un point à l’infini. De cette façon, on pourra regarder \mathbb{S}^2 comme \mathbb{C} \cup \{\infty\}, qui est aussi appelé sphère de Riemann, et l’action de f_c sur \mathbb{C} sera transformée dans une nouvelle action \tilde{f_c} sur \mathbb{S}^2, c’est à dire les orbites positives de f_c seront envoyées sur des orbites positives de \tilde{f_c} de la manière suivante: si z \in \mathbb{C} et Z = \pi^{-1}(z), alors Z \neq \infty sûrement et

\tilde{f_c}(Z) := \pi^{-1} ( f_c ( \pi(Z)))

\pi : \mathbb{S}^2 \setminus \{\infty\} \to \mathbb{C} est la projection canonique. Afin d’étudier le comportement de f_c près de \infty, il faut introduire l’application r(z) := 1/z, qui change 0 et \infty, et consid\’erer

F_c := r \circ f_c \circ r

Dans le langage des systémes dynamiques, on a évidemment une conjugaison entre f_c et F_c. Un calcul très facile nous donne que

F_c(z) = \frac{z^2}{1+cz^2}

et comme pour tout c \in \mathbb{C}, F_c(0) = 0 et F_c'(0) = 0, alors 0 est un point fixe attractif pour F_c ou, de façon équivalente, \infty est un point fixe attractif pour f_c. La définition est très simple, puisque on dit que z est un point fixe attractif pour une certaine application R si et seulement si R(z)=z et |R'(z)| < 1, mais au-delà de la définition on peut noter que l’attractivité est une notion très intuitive. En effet, l’attractivité de \infty pour f_c entraîne que les points près de \infty engendrent des orbites positives sous f_c qui échappent de chaque compact et s’approchent de \infty. En conséquence, on peut définir le bassin d’attraction de \infty comme

A_c(\infty) := \{ z_0 \in \mathbb{C} \,:\, f_c^k(z_0) \to \infty \textrm{ pour } k \to \infty\}

Évidemment, l’ensemble A_c(\infty) depend du choix de c. De plus, on remarque que cet ensemble ne peut jamais être égal à \mathbb{C}, car il y a toujours des points, dont les orbites sont bornées; en fait, f_c a toujours deux points fixes, donnés par les solutions de l’équation z^2 + c = z. Donc la frontière \partial A_c(\infty) est non vide et elle est appelée l’ensemble de Julia de f_c, notée aussi par J_c. On remarque que cet ensemble sépare les points, dont les orbites s’approchent de \infty, des points avec orbites bornées. En utilisant un langage dynamique, l’ensemble de Julia J_c est donné par l’adhérence des points périodiques répulsifs pour f_c. Afin de comprendre cet énoncé, soit z_0 un point périodique pour f_c de période k et on pose

\rho := (f_c^k)'(z_0) = \prod_{j=0}^{k-1}f_c'(f_c^j(z_0))

qui est appelé valeur propre de l’orbite de z_0. Par rapport à cette valeur, on dira que l’orbite de z_0 est attractive si |\rho| < 1, en généralisant la définition précédente de point fixe attractif, et qu’elle est répulsive si |\rho| > 1. En outre, après A_c(\infty) et J_c il y a un troisième ensemble: l’ensemble de Julia rempli, défini par

K_c := \mathbb{C} \setminus A_c(\infty)

et donné par les points dont les orbites positives sont bornées.
« Pouvez-vous nous donner des exemples d’ensembles de Julia, s’il vous plaît? » demanda un laputien.
« Bien sûr! » répondit le mathématicien. « Par exemple, si c=0 on a J_c = \{ z \,:\, |z|=1 \}, c’est à dire le cercle de rayon 1, alors que si c=-2, J_c = \{ z \,:\, \Re(z) \in [-2,2],\,\Im(z)=0 \}, i.e. un intervalle. Mais vous pouvez aussi observer les dessins suivants, qui sont beaucoup plus compliqués et montrent des ensembles de Julia remplis: ce sont de vrais fractals! Et on remarque qu’ils sont tous obtenus de la même famille de systémes dynamiques f_c, mais en choisissant différentes valeurs pour le paramètre c.

1

c = i

2

c = -0.74543 + 0.11301i

3

c = 0.27334 + 0.00742i

4

c = -0.194 + 0.6557i

5

c = -1.25

6

c = -0.11 + 0.6557i

7

c = -0.39054 – 0.58679i

8

c = -0.15652 – 1.03225i

Admirez! Ces images sont merveilleuses, parce que à des petites perturbations de c correspondent des résultats complétement différents: c’est extraordinaire! Et les valeurs exactes du paramètre c sont témoignages d’une incroyable richesse de formes. »
Tout le monde était enchanté par la beauté de ces formes.

« Le deuxième ensemble que je vous propose, » continua le mathématicien « c’est l’ensemble de Mandelbrot, découvert par Benoît Mandelbrot en 1980. Afin de comprendre l’objet le plus fascinant des mathématiques, l’objet qui donnera ordre à l’infinité chaotique des ensembles de Julia, il faut donner une caractérisation très utile: l’ensemble de Julia rempli K_c est connexe ou, sinon, un ensemble de Cantor, c’est à dire un ensemble totalement discontinu et sans point isolé. En effet, il y a un résultat plus général, dû à Fatou et Julia, qui est le suivant: soit \Omega_P l’ensemble des points critiques d’un polynôme P; alors:

  • \Omega_P \subset K_P  \Leftrightarrow  J_P est connexe;
  • \Omega_P \cap K_P = \emptyset  \Rightarrow  J_P est un ensemble de Cantor.

Dans le cas de la famille \{f_c\}_{c \in \mathbb{C}}, il y a seulement un point critique, d’où on peut déduire facilement l’énoncé précédent. Qu’est-ce que il signifie critique? Vous avez raison, j’ai oublié de le dire, mais ce n’est pas une notion difficile. Un point \omega est dit critique pour une application différentiable F si F'(\omega)=0; l’image de \omega via F, c’est à dire F(\omega), est dite valeur critique. Dans la situation précédente, 0 est l’unique point critique de f_c et c est l’unique valeur critique. Avec cette définition, on peut affirmer aussi que le comportement dynamique est dominé par le comportement des points critiques; ceci est vrai en particulier pour f_c, mais de façon plus générale aussi pour tous les polynômes et les fonctions rationnelles (quotients de polynômes). Plus tard, on va commenter cette affirmation.

9

Ensemble de Mandelbrot

Maintenant, on peut définir l’ensemble de Mandelbrot de la façon suivante

M := \{ c \in \mathbb{C} \,:\, K_c \textrm{ est connexe}\}

Après avoir introduit les nouvelles découvertes des mathématiques, on va voir leurs proprietés dynamiques, parce que les fractals ne sont pas seulement une manière extravagante de faire géométrie, mais encore leurs applications à la théorie du chaos et aux systèmes dynamiques sont nombreuses. »
Les mathématiciens de Laputa attendaient impatiemment la reprise de la conférence par leur collégue.
« Tout d’abord, » dit-il « nous avons déjà remarqué que l’ensemble de Julia J_c est toujours non vide pour tout c \in \mathbb{C}. Ensuite, il est aussi positivement invariant et fermé, donc on peut considérer le sous-système (J_c,f_c|_{J_c}); et qu’est-ce qu’on peut dire de lui? Le fait le plus important est le comportement de f_c sur J_c, qui est chaotique: ceci signifie que f_c dépend sensiblement des conditions initiales (c’est à dire deux points très proches peuvent engendrer deux orbites complétement différents), elle est topologiquement transitive (i.e. pour toutes parties ouvertes non vides U et V de J_c, il existe n \geq 0 tel que U \cap f_c^{-n}(V) \neq \emptyset) et les points périodiques sont denses en J_c. Cependant, le sous-système n’est pas forcément minimal, parce que on peut avoir des orbites périodiques. En outre, J_c est aussi borné et donc compact.
« En ce qui concerne les propriétés de l’ensemble de Mandelbrot? » interrogea un laputien.
« L’ensemble de Mandelbrot » continua le mathématicien « `contient des informations dynamiques très intéressantes, comme l’ensemble de Julia. En fait, on a déjà dit que J_c, si non connexe, est un ensemble de Cantor, mais, de façon équivalente, cette dichotomie peut être énoncé comme suit: l’orbite du point critique 0 est borné sous l’action de f_c dans le premier cas ou non borné dans le deuxième. De cette manière, le plan des paramètres est divisé en deux régions qui correspondent à comportements dynamiques qualitativement différents: l’ensemble de Mandelbrot, donné par les points c \in \mathbb{C} tels que l’orbite de 0 sous f_c est bornée, et son complémentaire. En résumant, on peut travailler sur deux plans différents: le plan dynamique et le plan des paramètres. En fixant c \in \mathbb{C}, on détermine un plan dynamique particulier, qui est séparé en deux régions par l’ensemble de Julia lui associé; on rappelle que cet ensemble est obtenu à travers l’étude des orbites sous f_c de tous les points z \in \mathbb{C}. En fixant plutôt le point z_0 = 0, c’est à dire l’unique point critique de tout polynôme quadratique f_c, le plan des paramètres est divisé en deux régions par l’ensemble de Mandelbrot. »
Les Laputiens étaient très étonnés: en un seul jour les mathématiques avaient fait un grand saut en avant.

« Comme dernière remarque, voici un programme pour dessiner une approximation de l’ensemble de Mandelbrot sur l’ordinateur que nous vous donnerons.

  • Choisissez un entier positif N, le nombre maximal d’itérations que l’ordinateur fera et aussi le nombre de couleurs dont vous aurez besoin.
  • Choisissez un nombre réel R \geq 2.
  • Si |f_c^n(0)| \leq R pour tout n \leq N, alors colorez c en noir.
  • Sinon, colorez c avec la couleur n, où n est le nombre le plus petit tel que |f_c^n(0)| > R. »

Ensuite, les autres mathématiciens continuèrent la conférence, en exposant des résultats plus détaillés et spécifiques, mais pour les Laputiens cette introduction-là était plus que suffisante, car elle leurs fournissait une variété infinie de nouveaux plats. Le temps de la cuisine euclidienne était terminé.

La conjecture d’Erdös-Turan formulée en 1936 affirme que pour toute partie A \subset \mathbb{Z} de densité supérieure strictement positive, c’est à dire telle que

d(A) = \limsup\limits_{N \to \infty} ( \frac{1}{2N+1} \sharp (A \cap \{-N,...,N\}) ) >0

et pour tout entier positif k il existe un entier r>0 et un entier n tel que A contienne tous les entiers

n,n+r,...,n+kr .

c’est à dire que A admet une progression arithmétique arbitrairement longue. Une première preuve fut donnée par E. Szemerédi en 1975 puis une seconde fut publiée en 1977 par H.Furstenberg. Nous nous intéresserons à cette dernière qui a l’avantage de reposer sur un résultat de théorie ergodique que nous admettrons (de nombreuses autres demonstrations ont depuis été données, voir par exemple le blog de T.Tao.

Commençons par quelques définitions:

Soit (X,\beta ,\mu ) un espace mesuré et T: X \rightarrow X. On dit que T préserve la mesure \mu si

\forall B \in \beta, \space \mu(T^{-1}B) = \mu(B)

Le quadruplet (X,\beta,\mu,T) est alors appelé un système dynamique mesuré.

On notera T^{-n}E l’ensemble des points de X qui arrivent dans E au temps n c’est à dire

T^{-n}E = \{x \in X | T^n x \in E \}

Admettrons à présent le théorème suivant:

Théorème: (Furstenberg) Soit k un entier positif, (X,\beta,\mu,T) un système dynamique mesuré avec \mu(X) = 1 et E \subset X une partie de mesure strictement positive. Alors il existe r>0 tel que

E \cap T^{-r}E \cap ... \cap T^{-kr}E

est de mesure strictement positive.

Ce qui signifie que l’ensemble des points de E qui reviennent dans E pour tout temps

nr, n \in \{1,...,k\} est de mesure positive.

On cherche à présent à montrer que le théorème de Furstenberg implique le théorème de Szemerédi. Pour cela, prenons une partie A de \mathbb{Z} de densité supérieure strictement positive et considérons un élément

\epsilon = (\epsilon(n))_{n\in \mathbb{Z}} \in \{0,1\}^{\mathbb{Z}}\epsilon(n)=1 \Leftrightarrow n\in A.

Munissons \{0,1\}^{\mathbb{Z}} du décalage \sigma: \left\lbrace  \begin{array}{lcl}  \{0,1\}^{\mathbb{Z}} \longrightarrow \{0,1\}^{\mathbb{Z}}\\  (\epsilon(n))_{n \in \mathbb{Z}}\mapsto (\epsilon(n+1))_{n \in \mathbb{Z}}\\    \end{array}\right.

et notons X= \overline{\{\sigma^n (\epsilon) | n\in \mathbb{Z} \}} l’adhérence de l’orbite de \epsilon pour le décalage.

En posant E=\{ \omega \in X | \omega(0)=1 \} on peut reformuler l’hypothèse du théorème de Szemerédi

d(A) = \limsup \frac{1}{2N+1} \sum\limits_{n=-N}^N \delta_{\sigma^n \epsilon}(E) >0

Or, l’espace M(X) des mesures de probabilité sur X est compact donc, la limite supérieure des mesures

\mu_N(Y)= \frac{1}{2N+1} \sum\limits_{n=-N}^N \delta_{\sigma^n \epsilon}(Y)

existe. De plus, nous pouvons remarquer qu’elle est invariante par le décalage \sigma en  effet:

\mu ( \sigma^{-1}(B)) = \limsup \frac{1}{2N+1}\sum\limits_{n=-N}^N \delta_{\sigma^{n}(\epsilon)}(\sigma^{-1}(B)) = \\  \limsup \frac{1}{2N+1} \sum \limits_{n=-N}^N \delta_{\sigma^{n+1}\epsilon}(B) =\\  \limsup \frac{1}{2N+1} \sum \limits_{n=-N-1}^{N+1} \delta_{\sigma^{n+1}\epsilon}(B) = \mu (B)

Enfin, nous voyons que E est de mesure positive

\mu(E) = \limsup \mu_N (E) \\  = \limsup \frac{1}{2N+1} \sum\limits_{n=-N}^N \delta_{\sigma^{n}\epsilon}(E)\\  =d(A) >0

Les hypothèses du théorème de Furstenberg sont donc vérifiées et on peut l’appliquer au système dynamique mesuré (X,Bor,\mu,\sigma):

Il existe r>0 , un entier k et un point

\omega \in E\cap X tel que: \forall j\in\{1,...,r\} , \sigma^{kj}(\omega) \in E \cap X.

 Puisque \omega \in E, le résultat du théorème de Furstenberg se réecrit

\omega(k)=\omega(2k)=...=\omega(kr)=1 .

De même, puisque \omega \in X, \omega est un point limite de l’ensemble des décalages de \epsilon

il existe n \in \mathbb{Z} tel que \omega(0) = \epsilon(n).

Ainsi, en appliquant un décalage au terme de droite et à celui de gauche, on obtient

\omega(k) = \sigma^k(\omega(0)) = \sigma^k(\epsilon(n)) = \epsilon (n+k) 

ce qui nous donne au final

\epsilon (n)=\epsilon (n+k)=...=\epsilon (n+kr)

donc les éléments n, n+k,...,n+kr sont tous dans A et le théorème de Szemerédi est démontré.

Dans ce théorème, l’hypothèse de positivité stricte de la densité est suffisante mais pas nécessaire. En effet, B.Green et T.Tao ont démontré en 2003 que l’ensemble des nombres premiers (dont la densité supérieure est nulle) admet des progressions arithmétiques arbitrairement longues.

Nous nous intéressons ici au groupe \mathrm{Homeo}^+(\mathbb{S}^1) des homéomorphismes du cercle préservant l’orientation, canoniquement muni d’une structure de groupe topologique complet par la distance

d(f,g)= \max \left( \|f-g\|_{\infty}, \|f^{-1}-g^{-1}\|_{\infty} \right), \ f,g \in \mathrm{Homeo}^+(\mathbb{S}^1),

\| \cdot \|_{\infty} désigne la norme infinie, définie par \| \cdot \|_{\infty} = \sup\limits_{x \in \mathbb{S}^1} | \cdot |.

La question que l’on se pose est la suivante : Si l’on se donne deux homéomorphismes arbitraires f,g \in \mathrm{Homeo}^+(\mathbb{S}^1), typiquement quelles relations peut-on attendre entre f et g ? Bien sûr, ce n’est pas une question formelle, aussi la réponse dépendra-t-elle du point de vue que l’on adoptera.

Un élément de réponse est fourni par le résultat suivant (la notion de groupe libre est définie plus bas) :

Théorème : Les couples (f,g) \in \mathrm{Homeo}^+(\mathbb{S}^1) \times \mathrm{Homeo}^+(\mathbb{S}^1) engendrant un sous-groupe libre de rang deux de \mathrm{Homeo}^+(\mathbb{S}^1) forment un G_{\delta} dense dans \mathrm{Homeo}^+(\mathbb{S}^1) \times \mathrm{Homeo}^+(\mathbb{S}^1).

Une manière de penser ce résultat est de dire que, pour presque tous les homéomorphismes f,g \in \mathrm{Homeo}^+(\mathbb{S}^1), il n’existe pas de relations non triviales entre f et g. Ici, presque tous a une interprétation topologique (en terme de densité d’un G_{\delta}, ie. d’une intersection dénombrable d’ouverts) et les relations entre les homéomorphismes sont supposées être des relations dans le groupe \mathrm{Homeo}^+(\mathbb{S}^1).

Une construction usuelle du groupe libre de rang deux, noté \mathbb{F}_2, est la suivante :

Donnons-nous deux lettres a et b, et considérons l’ensemble X des mots (de taille finie) écrits sur l’alphabet \{a,b,a^{-1},b^{-1} \}; on dira qu’un tel mot est réduit s’il ne contient pas de sous-mot de la forme aa^{-1}, a^{-1}a, bb^{-1} ou b^{-1}b. L’ensemble des mots réduits de X est alors muni d’une structure de groupe une fois muni de la loi de composition suivante : si w_1 et w_2 sont deux mots réduits de X, on définit w_1 \cdot w_2 comme le mot composé de w_1 suivi de w_2, dans lequel toute les expressions du type aa^{-1}, a^{-1}a, bb^{-1} et b^{-1}b ont été enlevées. Le groupe obtenu est le groupe libre de rang deux \mathbb{F}_2.

On dit souvent que \mathbb{F}_2 est un groupe sans relation, car un mot réduit en a et b (non vide) ne correspond jamais à l’élément neutre de \mathbb{F}_2 (le mot vide). Ainsi, le théorème précédent stipule que pour presque tous les homéomorphismes f,g \in \mathrm{Homeo}^+(\mathbb{S}^1), tous les éléments de la forme

f^{n_1} \circ g^{m_1} \circ \cdots \circ f^{n_{r}} \circ g^{m_r} \circ f^{n_{r+1}},

avec m_i,n_j \neq 0 si 1 \leq i \leq r et 2 \leq j \leq r, et n_1 +n_{r+1} \neq 0 si r=0, sont différents de l’identité.

Preuve du théorème : Rappelons qu’un espace topologique est dit de Baire si toute union dénombrable de fermés d’intérieur vide est elle-même d’intérieur vide, et que le théorème de Baire stipule que tout espace métrique complet est un espace de Baire.

Si pour tout mot réduit w \in \mathbb{F}_2, l’on note X_w l’ensemble des triplets (f,g,x) \in \mathrm{Homeo}^+(\mathbb{S}^1) \times \mathrm{Homeo}^+(\mathbb{S}^1) \times \mathbb{S}^1 vérifiant w(f,g)(x) =x, et que l’on montre que chaque X_w est un fermé d’intérieur vide, on pourra en déduire que l’ensemble des couples (f,g) \in \mathrm{Homeo}^+(\mathbb{S}^1) \times \mathrm{Homeo}^+(\mathbb{S}^1) vérifiant w(f,g)= \mathrm{Id} est un fermé d’intérieur non vide. En effet, si w(f,g)= \mathrm{Id} et si x \in \mathbb{S}^1, alors (f,g,x) \in X_w. Donc il existe f_0, g_0 et x_0 arbitrairements proches de f, g et x respectivement, tels que (f_0,g_0,x_0) \notin X_w ie. w(f_0,g_0)(x_0) \neq x_0, et en particulier w(f_0,g_0) \neq \mathrm{Id}. Dès lors, d’après le théorème de Baire, l’ensemble

\displaystyle \{ (f,g) \mid \langle f,g \rangle \not\simeq \mathbb{F}_2 \} = \bigcup\limits_{w \in \mathbb{F}_2} \{ (f,g) \mid w(f,g)= \mathrm{Id} \}

sera d’intérieur vide, et donc son complémentaire sera un G_{\delta} (ie. une intersection dénombrable d’ouverts) dense, ce qui conclura la preuve.

Raisonnons par l’absurde et donnons-nous un mot w de longueur k minimale tel que X_w soit d’intérieur non vide. Il existe donc un ouvert non vide U \subset X_w. Pour tous mots w_1,w_2 \in \mathbb{F}_2, notons

F(w_1,w_2)= \{ (f,g,x) \mid w_1(f,g)w_2(f,g)(x)=w_2(f,g)(x) \}

l’image de X_{w_1} par l’homéomorphisme (f,g,x) \mapsto (f,g,w_2(f,g)^{-1}(x)); en particulier, F(w_1,w_2) est un fermé d’intérieur vide si \mathrm{\ell g}(w_1),\mathrm{\ell g}(w_2)<k.

Comme \bigcup\limits_{\mathrm{\ell g}(w_1),\mathrm{\ell g}(w_2)<k} F(w_1,w_2) est lui-même un fermé d’intérieur vide, nous pouvons nous donner un triplet (f,g,x) \in U qui n’appartienne à aucun F(w_1,w_2) pour \mathrm{\ell g}(w_1),\mathrm{\ell g}(w_2)<k.

Notons w(f,g)=h_1 \circ \cdots \circ h_kh_i \in \{ f,f^{-1},g,g^{-1}\} (1 \leq i \leq k) puis

x_1=h_1(x), ~ \dots, ~ x_{k-1}=h_{k-1}(x_{k-2}), ~ x_k=h_k(x_{k-1}).

Remarquons d’abord que x_k=w(f,g)(x)=x puisque (f,g,x) \in X_w, puis que x_i \neq x_j dès que i \neq j. En effet, si ce n’était pas le cas, il existerait un sous-mot w_1(f,g) de w(f,g) de longueur strictement inférieure fixant un x_i, lui-même de la forme w_2(f,g)(x); on aurait alors (f,g,x) \in F(w_1,w_2), ce que nous avons exclu par hypothèse.

Pour conclure, il suffit de se donner deux homéomorphismes \tilde{f} et \tilde{g} approchant f et g respectivement de manière arbitrairement proche, et vérifiant x_1= \tilde{h}_1(x_1), ~ \dots, ~ x_{k-1}= \tilde{h}_{k-1}(x_{k-2}) mais x_k \neq \tilde{h}_k(x_{k-1}). Dès lors, (\tilde{f}, \tilde{g},x) \in U par approximation mais w(\tilde{f},\tilde{g})(x)=\tilde{h}_k(x_{k-1}) \neq x_k=x par construction, une contradiction. \square

Remarque : Il n’a pas été mentionné explicitement où la condition de minimalité sur k a été utilisée, mais cette hypothèse est primordiale, c’est elle qui permet de montrer que les x_i sont deux à deux disjoints (via le fait que les F(w_1,w_2) soient d’intérieur vide pour \ell g(w_1) \ell g(w_2)<k), condition indispensable pour la bonne définition des approximations \tilde{f} et \tilde{g} menant à la contradiction.

D’après le théorème précédent, nous savons en particulier que \mathrm{Homeo}(\mathbb{S}^1) contient de nombreux sous-groupes libres, mais en connaît-on un ? A-t-on un exemple explicite d’une paire d’homéomorphismes engendrant un groupe libre de rang deux ?

Une manière astucieuse de raisonner est de remarquer que \mathbb{S}^1 est homéomorphe à la droite projective réelle \mathbb{R}P^1, qui s’identifie à l’ensemble des droites vectorielles du plan. Dès lors, on peut faire agir naturellement le groupe des matrices inversibles, que l’on connaît bien, sur le cercle, puis mettre en évidence un sous-groupe libre en choisissant soigneusement une paire de matrices et étudier leur action sur le cercle. C’est ce qui a été fait dans le billet précédent Lemme du ping-pong : groupe libre et homéos du cercle.

Nous proposons ici une démarche légèrement différente. Nous allons considérer le cercle \mathbb{S}^1 comme le quotient \mathbb{R}/ \mathbb{Z}, et introduire le groupe des homéomorphismes linéaires par morceaux (préservant l’orientation) :

Soit f : \mathbb{R} \to \mathbb{R} un homéomorphisme. S’il existe une suite (x_i)_{i \in \mathbb{Z}} de réels vérifiant \lim\limits_{i \to \pm \infty} x_i= \pm \infty, et telle que f soit affine sur chaque intervalle [x_i,x_{i+1}], on dit que f est linéaire par morceaux. Si de plus f(x+1)=f(x)+1 pour tout x \in \mathbb{R}, alors f induit un homéomorphisme de \mathbb{S}^1 par passage au quotient; le groupe de ces homéomorphismes, toujours dits linéaires par morceaux, est noté PL_+(\mathbb{S}^1).

Considérons les deux éléments f et g de PL_+(\mathbb{S}^1) associés aux graphes suivants :

graphs

De manière explicite, nous avons

f(x)= \left\{ \begin{array}{cl} \frac{3}{2}x & \text{if} \ 0 \leq x \leq \frac{1}{3} \\ x+ \frac{1}{6} & \text{if} \ \frac{1}{3} \leq x \leq \frac{2}{3} \\ \frac{2}{3} x + \frac{1}{3} & \text{if} \ \frac{2}{3} \leq x \leq 1 \end{array} \right. \ \text{et} \ g(x)= \left\{ \begin{array}{cl} x+ \frac{2}{3} & \text{if} \ 0 \leq x \leq \frac{1}{3} \\ 3x-1 & \text{if} \ \frac{1}{3} \leq x \leq \frac{2}{3} \\ \frac{1}{3}x + \frac{1}{3} & \text{if} \ \frac{2}{3} \leq x \leq 1 \end{array} \right..

Le graphe de leur inverse est donné par les graphes :

inversegraphs

On en déduit aisément que pour tout n \in \mathbb{Z} \backslash \{-1,0,1\},

f^n \left( \left] \frac{1}{3}, \frac{2}{3} \right[ \right) \subset \left] 0,\frac{1}{3} \right[ \cup \left] \frac{2}{3},1 \right[ et g^n \left( \left] 0,\frac{1}{3} \right[ \cup \left] \frac{2}{3},1 \right[ \right) \subset \left] \frac{1}{3}, \frac{2}{3} \right[.

Ainsi, on en déduit que f^2 et g^2 engendrent un sous-groupe libre de rang deux de PL_+(\mathbb{S}^1), et donc de \mathrm{Homeo}^+(\mathbb{S}^1), grâce au lemme du ping-pong :

Lemme du ping-pong : Soit G un groupe agissant sur un ensemble S. Supposons qu’il existe x,y \in G et X,Y \subset S vérifiant :

  • X et Y sont non vides et disjoints,
  • x^n \cdot X \subset Y et y^n \cdot Y \subset X pour tout n \in \mathbb{Z} \backslash \{ 0 \}.

Alors \{x,y\} engendre un groupe libre de rang deux.

Plus d’informations sur ce lemme pourront être trouvées sur la page Wikipedia ou sur le billet mentionné plus haut  Lemme du ping-pong : groupe libre et homéos du cercle.

Circle_map

Les langues d’Arnol’d sont une illustration spectaculaire d’un principe bien connu : sur le cercle unité, l’orbite, c’est-à-dire la suite des images successives, d’un point quelconque par une rotation d’angle commensurable à \pi est périodique ; tandis que l’orbite de ce point par une rotation d’angle incommensurable à \pi est dense dans le cercle.

Cette différence de comportement entre les deux types de rotations se retrouve plus généralement au niveau de l’ensemble des homéomorphismes du cercle, c’est-à-dire des transformations du cercle sur lui-même conservant l’ordre des points : à tout homéomorphisme peut être associé un nombre de rotation, qui décrit son comportement.

Le nombre de rotation

Le concept de nombre de rotation est introduit par Henri Poincaré en 1885, dans la troisième partie de son mémoire « Sur les courbes définies par les équations différentielles ». Il s’intéresse, dans le chapitre XV de son étude, au comportement des solutions des équations différentielles sur le tore \mathbb{T}^2 = \mathbb{R}^2/\mathbb{Z}^2.

Par analogie avec l’orbite des planètes du système solaire, Poincaré impose tout d’abord que la longitude de la solution soit strictement croissante ; il considère ensuite les passages successifs de cette solution par un méridien fixé du tore, donc un cercle.

Se donnant un point de départ M_0, il appelle M_i le i-ème point passage, puis \alpha_i la longueur de l’arc (M_i,M_{i+1}). Poincaré démontre alors que le rapport

\frac{\alpha_i+\cdots +\alpha_{i+n}}{n},

équivalent à la moyenne de la distance sur le cercle entre deux images successives, tend vers une limite finie lorsque n tend vers l’infini, limite indépendante de i et de M_0. Il s’agit du nombre de rotation.

torus

Paramètres utilisés par Poincaré pour sa construction du nombre de rotation.

Afin de se familiariser plus avant avec le nombre de rotation, nous vous renvoyons à d’autres articles de ce blog, mettant en scène le duel d’un lapin et d’un escargot ou encore les tribulations des Dupondt dans le désert.

La définition actuelle du nombre de rotation pour un homéomorphisme f du cercle \mathbb{T}^1 = \mathbb{R}/\mathbb{Z} préservant l’orientation (on notera f \in \mathrm{Homeo}_+(\mathbb{T}^1)) est la suivante : considérant un relevé F de f sur  \mathbb{R} (c’est-à-dire tel que  \pi \circ F = f \circ \pi où  \pi est la projection canonique \mathbb{R} \rightarrow \mathbb{T}^1) et x dans \mathbb{R}, le nombre de rotation de f, noté \rho(f), est défini par :

\rho(f) = \lim_{n \to \infty} \frac{F^n(x)-x}{n}

limite existante et indépendante de x par Poincaré. De plus, \rho : \mathrm{Homeo}_+(\mathbb{T}^1) \rightarrow \mathbb{T}^1 est une application continue.

Ainsi, la rotation d’angle \alpha, r_\alpha : x\mapsto x+\alpha définie sur \mathbb{T}^1 a pour nombre de rotation \rho(r_\alpha) = \alphaEn fait, lorsque \rho(f) est irrationnel, tout f \in \mathrm{Homeo}_+(\mathbb{T}^1) est semi-conjugué à r_{\rho(f)}, c’est-à-dire qu’il existe une surjection h de \mathbb{T}^1 telle que h\circ f = r_{\rho(f)}\circ h ; ce résultat est encore dû à Poincaré. Cependant, f n’est pas conjugué à r_{\rho(f)}, i.e. h n’est pas un homéomorphisme, en général. Ce résultat est dû à Arnaud Denjoy en 1932.

Poincaré a ensuite classé les homéomorphismes du cercle à partir de ces propriétés. En particulier, si \rho(f) est rationnel égal à p/q, alors f possède une orbite périodique de période q, et l’ensemble des points d’accumulation de toute orbite est périodique. Si \rho(f) est irrationnel, alors soit f est conjugué à la rotation d’angle \rho(f), soit f n’a pas d’orbite périodique et l’ensemble des points d’accumulation de toute orbite est un ensemble de Cantor, i.e. une partie fermée de \mathbb{T}^1 sans point isolé et totalement discontinue, indépendant de l’orbite considérée.

La rotation r_\alpha ayant pour nombre de rotation \alpha, il est légitime de se demander comment ce nombre de rotation est modifié lorsqu’une perturbation est appliquée à la rotation.

La famille d’Arnol’d

Considérons la famille des homéomorphismes f_{\alpha,\epsilon} définis sur \mathbb{T}^1 par

f_{\alpha,\epsilon} : x \mapsto x+\alpha+\frac{\epsilon}{2\pi}\sin(2\pi x)

\alpha et \epsilon décrivent [0,1]. Notons, à \epsilon fixé, \Delta_\epsilon(\beta) = \lbrace\alpha | \rho(f_{\alpha,\epsilon}) = \beta\rbrace.

On a donc \Delta_{0}(p/q) = \lbrace p/q \rbrace pour tout rationnel p/q. Mais lorsque \epsilon augmente, \Delta_{\epsilon}(p/q) devient un intervalle non trivial !

Ainsi, pour \epsilon donné, il est facile de voir que f_{0,\epsilon} admet un point fixe, et donc \rho(f_{0,\epsilon}) = 0. L’autre extrémité de \Delta_{\epsilon}(0) est atteinte en situation de stabilité marginale, c’est-à-dire que pour un point fixe x_0 de f_{\alpha,\epsilon}, on a f'_{\alpha,\epsilon}(x_0) = 1. On en déduit que \Delta_{\epsilon}(0) = \left[0,\frac{\epsilon}{2\pi}\right[.

De même, la détermination de \Delta_{\epsilon}(p/q) pour p/q non nul revient à la résolution en \alpha, par exemple via la méthode de Newton, du système

\left\lbrace \begin{array}{lll} f_{\alpha,\epsilon}^q(x)=x+p \\ f_{\alpha,\epsilon}^{(q)}(x) = 1 \end{array} \right.

En conclusion, pour \epsilon fixé non nul, l’application \rho_{\epsilon} : \alpha \mapsto \rho(f_{\alpha,\epsilon}), croissante et valant 0 en 0 et 1 en 1, est localement constante en toute valeur rationnelle : son graphe est un escalier du diable.

Auteur : Vojta, Thomas

Graphe de \rho_{1}.

Représenté sur le pavé \alpha-\epsilon, l’ensemble \cup_{\epsilon} \Delta_{\epsilon}(p/q) est un empilement d’intervalles éclosant du singleton \lbrace p/q \rbrace, dont la forme rappelle une langue, appelée langue d’Arnol’d de p/q, du nom du découvreur en 1961 de ce phénomène, Vladimir Igorevitch Arnol’d (1937-2010).

CC0 - Ilya Voyageur

Représentation des langues d’Arnol’d pour les rationnels de dénominateur inférieur ou égal à 5.

Puisque \cup_{p/q} \Delta_{\epsilon}(p/q) est de mesure 1 pour tout \epsilon non nul, les langues d’Arnol’d recouvrent le pavé \alpha-\epsilon au sens de Lebesgue ; la langue d’Arnol’d associée à p/q est d’autant plus large que q est petit, ou encore que la position de p/q sur l’arbre de Stern-Brocot restreint à [0,1] est basse. Enfin, lorsque \epsilon>1, les langues d’Arnol’d se chevauchent : f_{\alpha,\epsilon} n’est plus un homéomorphisme, et différentes orbites présentent des nombres de rotation distincts.  Le comportement des f_{\alpha,\epsilon} devient alors chaotique.

Conclusion

L’apparition de langues d’Arnol’d est un phénomène très fréquent dans l’observation de deux oscillateurs couplés (par exemple deux circuits LC) : les deux oscillateurs sont synchronisés lorsque le rapport de leurs fréquences est rationnel. Lorsque le couplage augmente (dans notre exemple, lorsque les bobines sont rapprochées), les plages de stabilité des rapports de fréquences rationnels sont plus larges, et la synchronisation des oscillateurs est donc plus stable. De plus, la stabilité d’un rapport de fréquences donné est d’autant plus grande que sa langue d’Arnol’d est large.

[Note : pour une version équivalente mettant en scène un lapin et un escargot en lieu et place des deux bachi-bouzouks héros de cet article, on renvoie à un autre billet de ce blog, le lapin et l’escargot]

Dupond et Dupont sont perdus ! A la recherche de l’infâme cheik Bab el Ehr, ils sillonnent le désert du Khemed à bord de leur jeep. Mais égarés, les malheureux suivent désespérément des traces de pneus, dans le sable… leurs propres traces ! Et oui, voilà plusieurs heures que nos amis tournent en rond, indéfiniment, le long d’un immense cercle…ornoir29

Imaginons maintenant que, lassés par leur parcours infini, Dupond et Dupont profitent de leur mésaventure pour se livrer à une petite expérience : en vue de se préparer au prochain rallye organisé par Séraphin Lampion à Moulinsart, ils décident d’effectuer quelques statistiques, à l’aide du Cours d’Arithmétique de Brachet et Dumarqué (*), sur leur vitesse en voiture sur terrain plat. Voilà comment ils procèdent : Dupont descend, et laisse la jeep conduite par Dupond prendre un peu d’avance sur le cercle. Puis, à un moment donné, il se lance à la poursuite de la voiture.

Dupont est à pied, et évolue à vitesse constante. Ce n’est pas le cas de la voiture de Dupond ! Car ce dernier a par erreur ingurgité quelques comprimés de N14, conçus par l’odieux Professeur Müller, qui provoquent d’étonnants troubles capillaires : avec tous ces problèmes, il a bien du mal à conduire sa jeep qui avance de manière plutôt chaotique. Aussi la jeep suit-elle une certaine distribution de vitesse sur le cercle. Cette distribution est néanmoins telle que nos deux amis mettent exactement autant de temps à faire un tour du cercle : c’est-à-dire qu’une fois le premier tour effectué, ils se retrouvent dans la configuration initiale ; et que la poursuite prend exactement la même allure pour chacun des tours suivants.

I) Où l’on découvre l’existence du nombre de rotation

Au bout d’un moment, Dupont souhaite faire quelques estimations sur le retard qu’il a sur la jeep, leurs positions relatives, en particulier la possibilité qu’il a ou non de rattraper Dupond. Voyant la voiture, au loin, il se dit : « Pour rattraper Dupond, je dois d’abord me rendre à l’endroit où il est actuellement ! » Sitôt dit, sitôt fait, voilà Dupont qui arrive audit endroit. La jeep n’y est plus, elle a eu le temps d’avancer ; mais Dupont ne se décourage pas. A l’aide de sa canne, acquise au Vieux Marché, il fait une marque dans le sable à cet endroit. Puis il recommence : « A présent, je vais me rendre à l’endroit où Dupond est maintenant. » Endroit qu’une fois atteint, Dupont marque au sol. Et ainsi de suite : Dupont met une marque à l’endroit où se trouvait la jeep lorsqu’il était à la marque précédente. Bien sûr, il ne s’arrête pas à la fin de son premier tour de cercle : il ajoute les marques, inlassablement, qui éventuellement se superposent aux anciennes, ou bien, au contraire, tombent à des endroits distincts.

La distance entre deux marques tracées successivement représente donc le retard de Dupont à un moment donné. Du coup, à chaque fois qu’il fait une marque, Dupont calcule, à l’aide de techniques complexes apprises sous l’égide de l’assistant du professeur Calys, la moyenne des distances séparant deux marques qu’il a tracées successivement. Et là, quelle n’est pas sa stupéfaction : car il s’aperçoit que ces nombres convergent, je dirais même plus, tendent vers une limite finie ! Sapristi, c’est inouï ! Autrement dit, le retard moyen, calculé en les marques, converge, quand Dupont itère le processus, vers un nombre réel baptisé nombre de rotation.

Dupont n’en croit pas ses moustaches, il veut en avoir le cœur net. Sans arrêter d’avancer, il décide alors de reprendre son expérience à zéro : il met une première marque à un endroit quelconque, et recommence le processus… A nouveau, la distance moyenne entre deux marques semble converger… mais ce que Philipulus le prophète en personne n’aurait pu prédire, c’est que la limite est la même ! Et le phénomène est général : pour une distribution de vitesse de la jeep de Dupond, en quelque endroit du cercle que Dupont commence ses mesures, il obtiendra encore et toujours la même limite ; c’est-à-dire finalement : le nombre de rotation est indépendant de l’endroit où est faite la première marque.

Dupont est un fin limier, pour lui les mystères sont faits pour être résolus, Aristide Filoselle pourrait le confirmer. Comment se fait-il que le processus converge, et que la limite ne dépende pas du point de départ ? Alors sous son chapeau, il se creuse les méninges… et parvient à l’explication suivante : au fur et à mesure de l’expérience, il y a de plus en plus de marques autour du cercle ; les intervalles entre deux marques sont de plus en plus petits… mais lorsqu’une nouvelle marque tombe entre deux anciennes, alors forcément, la suivante tombera entre celles qui ont immédiatement suivies les premières. C’est-à-dire, se dit Dupont, plus l’expérience avance, plus il m’est possible de déterminer précisément la position de la marque suivante, et plus la distance entre deux marques tracées successivement est connue précisément.

II) Où Dupont aimerait rattraper Dupond

Fort de ces considérations, Dupont a l’esprit en ébullition : se pourrait-il que le nombre de rotation indique si Dupont va ou non rattraper Dupond ? Il analyse donc la situation : si dans l’expérience vient un moment où Dupont rattrape Dupond, alors, puisque le nombre de rotation est indépendant de l’endroit de la première marque, on peut le calculer en mettant cette première marque au point de rencontre des deux Dupondt. Que se passe-t-il alors ? Et bien, la marque suivante sera tracée au même endroit, et celles d’après également, et ainsi de suite ; car Dupont et Dupond se trouvant au même point, la jeep n’a pas le temps d’avancer avant que Dupont n’atteigne l’endroit où elle se trouvait auparavant ! Autrement dit, toutes les marques se superposent : la distance entre deux marques est donc nulle, et par conséquent, le nombre de rotation vaut zéro.

Réciproquement, si le nombre de rotation est nul, cela signifie que le retard moyen entre les poursuivants tend vers zéro. Dupont invoque alors un argument de compacité bien connu des exégètes pour déduire que vient nécessairement un moment où le retard est égal à zéro, c’est-à-dire précisément un moment où Dupont a rattrapé Dupond.

Ainsi, l’acclaire est faire : Dupont rattrape la jeep de Dupond si et seulement si le nombre de rotation vaut zéro.

III) Où l’on discute de la rationalité du nombre de rotation

‘Botus et mouche cousue’, certes, mais vient un moment où Dupont doit prévenir Dupond de ses découvertes afin de les affiner. Il appelle donc, dans l’immensité du désert : « …upond ! …upond ! » et une fois ce dernier arrivé, lui explique : « Recommençons l’expérience plusieurs fois. A chaque essai, tu tâcheras d’avoir une distribution de vitesse différente. Ainsi, je pourrai étudier l’allure de la poursuite en regard de la valeur du nombre de rotation de ta jeep. » Ils se mettent au travail. A chaque expérience, la jeep avance de manière différente ; Dupont, lui, progresse à pied toujours identiquement. Après quantité d’essais de ce type semble se présenter une dichotomie intéressante : la poursuite prend des allures très différentes selon que le nombre de rotation est rationnel ou non.

Prenons une configuration où le nombre de rotation est rationnel. Qu’observe alors Dupont ? Il observe qu’il existe un point du cercle pour lequel, s’il y trace la première marque, alors il y tracera l’une des marques suivantes. C’est-à-dire qu’il existe un point de départ de l’expérience qui la rende périodique ! Tonnerre de Brest ! Les marques ne seront finalement tracées qu’en un nombre fini de points du cercle.

Les deux policiers se penchent alors sur une configuration où le nombre de rotation est irrationnel. Dupont met les marques, les unes après les autres… Travail long et fastidieux qui lui rappelle le temps où il pompait inlassablement sur le Sirius du capitaine Chester. Car le procédé ne va jamais boucler : toutes les marques seront deux à deux distinctes. Et, par les moustaches de Plekszy-Gladz ! l’ensemble des marques est dense dans le cercle…

IV) Où l’on discute de l’influence de la topographie

Voilà que souffle le khamsin ! Dupond et Dupont arrêtent les expériences un instant pour se mettre à l’abri. Quand la tempête cesse enfin, ils reprennent leurs observations, mais la topographie du désert a complètement changé. De fait, l’apparition de creux et de dunes perturbe grandement l’avancée des deux compères. Il y a maintenant des zones sur le cercle où les deux Dupondt sont soumis à des variations de vitesse, identiques pour chacun d’eux. Dans cette configuration, leur position relative va changer : mettons par exemple que la jeep de Dupond arrive sur une zone à fort relief, et doive ralentir ; Dupont n’y est pas encore, et marche à fière allure : son retard sur Dupond, par rapport à la situation précédente, diminue… jusqu’à ce que lui aussi arrive dans cette zone. Et au moment où la voiture quitte la zone, elle reprend de l’avance sur Dupont qui, lui, est encore soumis au ralentissement.

Mille sabords ! Les Dupondt observent alors un phénomène des plus intéressants : pour une expérience donnée, sur terrain plat ou accidenté, le nombre de rotation reste inchangé ! Autrement dit, si l’on fixe une distribution de vitesse de la jeep, alors rajouter ou non des zones de modification de la vitesse, modification identique pour les deux poursuivants, ne change pas le nombre de rotation.

En bons scientifiques, les Dupondt se demandent : pour deux distributions de vitesse de la jeep donnant le même nombre de rotation, y a-t-il réciproquement une topographie du terrain pour la première distribution qui donnerait les positions relatives de la seconde ?

La réponse est non en général. En effet, considérons l’expérience où en tout instant, Dupont et Dupond sont au même point, avançant à vitesse identique constante. Et prenons comme seconde expérience un cas non dégénéré, où Dupont rattrape Dupond (par exemple, ils partent suffisamment proches, et la jeep va au début suffisamment lentement pour que Dupont la rattrape sans problème). Ces deux expériences donnent le même nombre de rotation, zéro. Mais modifier la topographie du désert dans la première expérience ne changera bien sûr pas les positions relatives des Dupondt ; et de fait, on n’a aucune chance d’obtenir celles de la deuxième configuration.

Mais la découverte sensationnelle que font les Dupondt est la suivante : pour un nombre de rotation irrationnel, la réponse est oui ! En particulier, si l’on prend une distribution de vitesse donnant un nombre de rotation irrationnel, alors en modifiant le relief, on peut faire en sorte que la distance entre les deux acolytes soit constante, égale à ce nombre de rotation.

V) Conclusion

Les Dupondt ne vont peut-être pas retrouver leur chemin de sitôt, mais ils ont en tout cas mis en lumière les propriétés d’un outil remarquable de dynamique sur un cercle, le nombre de rotation. Ils sont maintenant fin prêts à affronter le rallye de Lampion, à moins que leur moteur ne fasse boum, ou que toutes leurs géniales observations n’aient été le fruit… d’un mirage.

(*) Sur la nécessité d’avoir avec soi le Brachet et Dumarqué quand on parcourt le désert en voiture, voir aussi Boris Vian, L’Automne à Pékin, 1er mvt, IV.

L’étude des itérées des fonctions holomorphes a commencé au XIXe siècle et le domaine s’a été radicalement développé  au XXe siècle. Plusieurs mathématiciens ont travaillé sur la dynamique complexe, parmi eux : P. Fatou, G. Julia, H. Cremer, J.-C. Yoccoz. Aujourd’hui, c’est un domaine de recherche actuel en mathématiques.

Comme toute fonction holomorphe f peut être représentée par une série convergente de la forme

f(z) = f(z_0)+\frac{f' (z_0)}{1!}(z-z_0)+...+\frac{f^{(n)}(z_0)}{n!}(z-z_0)^n+. . .

au voisinage d’un point z_0 (par le théorème de Taylor), on s’aperçoit vite que la dynamique des polynômes joue un rôle essentiel.

Le problème de linéarisation

On considère une fonction holomorphe f qui a un point fixe en \zeta et on pose \lambda =f ' (\zeta). La question fondamentale est : Est-ce qu’il existe un changement holomorphe de variables w=h(z) avec h(\zeta)=0 tel que f(h(w))=h(\lambda w) au voisinage du point fixe \zeta ? Autrement dit, on cherche une conjugaison (locale) entre f et l’application linéaire \varphi (w)= \lambda w. Si une telle conjugaison existe on dit que f est localement linéarisable. Par conséquent, au voisinage du point fixe,  toute propriété dynamique de la fonction \varphi est transportée par h en une propriété de f ! N’oublions pas que la formule de conjugaison implique que f^k \circ h= h \circ \varphi ^k f^k et \varphi ^k sont les k-èmes itérées de  f et \varphi respectivement.

Evidemment le problème dépend de la valeur de \lambda. Ici, on s’occupera seulement d’un certain cas qui à l’époque était difficile à traiter. On considère le cas où | \lambda | = 1 et \lambda n’est pas une racine de l’unité.
Autrement dit, \lambda s’écrit comme \lambda = e^{2 \pi i \xi}\xi est un nombre réel et irrationnel.

Remarque: On s’amène ainsi au cas où la fonction \varphi (w)= \lambda w est la rotation irrationnelle. On sait que la rotation irrationnelle n’a pas des points périodiques. En conséquence, si f est linéarisable, il n’y aura pas des points périodiques au voisinage de son point fixe.

La conjecture de Kasner et le théorème de Cremer

En 1912 Edward Kasner a prétendu qu’une telle linéarisation est toujours possible (pour les valeurs de \lambda considérées comme ci-dessus). Quelques années plus tard, G. Pfeiffer et puis G. Julia ont essayé de prouver que la conjecture était fausse mais sans avoir donné des résultats précis. Finalement, en 1927, H. Cremer a réussi à donner un contrexemple en trouvant une classe de fonctions non linéarisables.

Condition de Cremer:

On dit que \xi \in \mathbb{T}^1 irrationnel satisfait la condition de Cremer (de degré d) si le nombre \lambda associé satisfait l’inégalité :

\limsup_{k \to \infty} \frac{\log \log (1/|\lambda^k-1|)}{k} >\log d

Théorème de Cremer

Soit f une fonction rationnelle (arbitraire) de degré d qui a un point fixe en \zeta avec f' (\zeta)= \lambda = e^{2 \pi i \xi} .
Si \xi satisfait la condition de Cremer pour d\geq 2, alors tout voisinage de \zeta contient une infinité d’orbites périodiques. Donc une linéarisation autour de \zeta n’est pas possible (cf. la remarque) .

On donnera ici une esquisse de la preuve en laissant les détails au lecteur.

Tout d’abord, il faut s’assurer que l’ensemble des nombres \lambda \in \mathbb{C} qui satisfont la condition de Cremer n’est pas vide, ce qui n’est pas évident. En fait, il suffit de remarquer que cet ensemble contient une intersection dénombrable d’ouverts denses: \bigcap_{k>k_0} \{\lambda \in \mathbb{C} / | \lambda ^k - 1| < e^{-d^k} \} . Donc, par le théorème de Baire, l’ensemble est dense.

1ère étape: Pour faciliter les calculs (notamment en termes de coefficients de la série de Taylor) on suppose dès maintenant que le point fixe \zeta de f est l’origine. Car en utilisant encore une fois la notion de conjugaison on peut trouver une fonction g holomorphe, bijective et définie sur le voisinage de \zeta  avec g(\zeta)=0 et on pose F=g \circ f \circ g^{-1} . La fonction g pourrait être par exemple une homographie bien choisie. Ainsi les fonctions F et f sont conjuguées et elles partagent les mêmes propriétés dynamiques. C’est-à-dire, F a un point fixe à l’origine et on remarque que F' (0)=f' (\zeta)= \lambda. Par abus de notation, on notera f au lieu de F.

2ème étape: On montrera d’abord le théorème pour le cas où f est un polynôme de degré d du type:
f(z)= z^d + ... + \lambda z . Evidemment f a un point fixe à l’origine et f' (0)= \lambda. Ensuite,on s’intéresse aux points fixes de la k-ème itérée de f , f^k = z^{d^k} + ...+ \lambda ^ k z . N’oublions pas qu’en étudiant les points fixes de f^k on étudie les points périodiques de f dont la période divise k. Les points fixes de f^k sont les racines de l’équation z^{d^k} + ... + (\lambda ^k -1)z = 0. A part la racine en zéro, le produit des autres d^k-1 racines est égal à \pm (\lambda ^k - 1) et donc on peut avoir facilement une majoration. Plus précisément, on peut dire que au moins un des points fixes non nuls, appelons-le \kappa , sera majoré : |\kappa|< |\lambda ^k -1|^ {1/(d^k -1)} . Ensuite, en utilisant la condition de Cremer on a que  |\kappa|<exp(-e^{\varepsilon k}) pour \varepsilon >0. Puis par le théorème de Taylor, on écrit f(z)=\lambda z + O(z^2) au voisinage de l’origine et  on peut choisir \delta > 0 très petit tel que |f(z)|<e^\varepsilon |z| quand |z|<\delta. En conséquence, la k-ème itérée est aussi majorée: |f^k (z)|<\delta quand |z|<e^{-\varepsilon k} \delta .  En fait,  pour k arbitrairement grand, on a |\kappa |< \delta e^{-\varepsilon k} .  Alors, pour la fonction f, on a trouvé au moins un point périodique au voisinage du point fixe dont l’orbite est incluse dans ce voisinage. Plus précisément, dans un voisinage bien choisi il y a une infinité d’orbites périodiques.

3ème étape : Pour une fonction rationnelle f, on cherche à trouver une expression de f qui nous convient. D’abord, on peut appliquer des conjugaisons par homographies afin d’écrire f comme f= \frac {P(z)}{Q(z)} P(z)= ... + \lambda z de degré au plus d-1 et Q(z)= z^d +...+ 1. Ensuite, on remarque que les points fixes de la k-ème itérée de f sont les racines de l’équation z (z^{d^k} + ... + (1-\lambda ^k)) = 0 . D’après les calculs déjà faits à la 2ème  étape on démontre le théorème.

Conclusion

Cremer a attaqué la conjecture de Kasner en démontrant ce théorème mais une question se pose: Sous quelles conditions notre fonction f pourrait être linéarisable? En 1942 C.L. Siegel a donné la réponse. On donne ici l’énoncé de son théorème:

Théorème de Siegel: Soit f fonction holomorphe qui en point fixe en \zeta et soit \lambda = e^{2 \pi i \xi}\xi nombre irrationnel.  S’il existe des constantes strictement positives C et q telles que \frac{1}{ | \lambda ^k - 1|} \leq C k^q , alors f est  localement linéarisable.

Finalement, sur le problème de linéarisation il y a des résultats plus récents donnés par J.-C. Yoccoz et R. Perez-Marco en 1988 et 1990 respectivement.

Ou comment revisiter une fable bien connue avec l’œil d’un dynamicien.

(Note : pour une version équivalente mettant en scène Dupond et Dupont en lieu et place des deux animaux héros de cet article, on renvoie à un autre billet de ce blog, Du nombre de rotation ou la mésaventure des Dupondt dans le désert )

Rien ne sert de courir ; il vaut mieux raisonner.

Peuvent l’attester le lapin et l’escargot.

Gageons, dit ce dernier, que jamais vous n’aurez

La victoire à la course. Jamais ? Êtes-vous sot ?

          Répartit l’animal léger.

          Sot ou non, je parie encore.

     Et le lapin de renchérir alors :

          Vous ne pourrez me rattraper

          Si je commence devant vous.

C’est ce que nous verrons, lui fit l’animal mou.

          Ainsi fut fait ; ils décidèrent

Que la course ferait le tour du bois voisin.

Le départ fut donné ; et les deux adversaires,

Décidés à gagner, s’élancèrent enfin.

L’escargot part, s’élance, se hâte avec lenteur ;

Le lapin, refusant de perdre son honneur

Ayant eu vent la veille de la déconvenue

De son aîné le lièvre, fait montre de prudence.

Il ne prend pas de pause, ne réduit sa cadence

Que quand son concurrent est loin et hors de vue,

De sorte que, quand l’escargot déterminé

          A terminé son tour,

Le lapin est sur lui aussi bien avancé

          Qu’au début du concours.

          Mais l’escargot insatisfait

          Garda fière figure,

          Exigea un second essai,

          Relança la gageure.

Or la seconde course fut en tous points semblable ;

Et le gastéropode, bien loin de déchanter,

Continuait tour sur tour, espérant bien gagner,

Mais répétait encor cette course immuable.

Figure 1

Situation 1

Figure 2

Situation 2

Laissons pour l’instant la morale de cette fable en suspens et résumons la situation. Au début de la course (cf. situation 1), le lapin (L) part un peu en avance sur l’escargot (E), qui doit essayer de le rattraper. La flèche symbolise le sens de la course, et le point A_0 est le point de départ de l’escargot.

A la fin de la course, les positions du lapin et de l’escargot sont les mêmes : le lapin termine de faire un tour complet exactement quand l’escargot fait de même. Nos deux protagonistes enchaînent donc directement sur une nouvelle course, qui se déroule exactement comme la première ; en d’autres termes, le mouvement de L et E est périodique. Pendant un tour, le lapin prend parfois plus d’avance sur l’escargot, parfois en perd, mais dans tous les cas reste devant ; quant à l’escargot, il avance à vitesse constante.

Situation 3

Situation 3

Intéressons-nous à présent aux états d’âme du gastéropode pendant la course. L’épreuve est exténuante pour lui ; afin de se redonner du baume au cœur, il décide d’adopter la stratégie suivante :

« Il m’est bien difficile de rattraper le lapin. Mais je le vois devant moi ; commençons par rejoindre le point où il se trouve actuellement, et avisons ensuite »

Supposons pour l’instant que l’escargot fait ce raisonnement au début de la course, dans la situation 1. Évidemment, une fois l’objectif atteint, le lapin est encore devant car il a poursuivi sa course dans l’intervalle ; mais l’escargot ne se décourage pas, baptise A_1 le point qu’il a atteint, et décide de renouveler le procédé (situation 2).

Une étape après, on est donc dans la situation 3, où l’escargot a baptisé son nouvelle objectif atteint A_2. Et l’escargot de continuer sa stratégie au long des courses successives (situation 4).

Situation 4

Situation 4

L’escargot rusé a alors l’idée de calculer la moyenne des distances séparant deux objectifs successifs A_i et A_{i+1}. A mesure que les courses se succèdent, il constate que cette sorte de « retard moyen » converge vers une certaine quantité ! Cette limite \rho est appelée nombre de rotation. Ainsi le mollusque matheux décide-t-il, faute de rattraper le lapin, d’étudier les nombreuses propriétés que semble posséder ce nombre. Prenons à présent un point de vue omniscient, et voyons ce que découvre l’escargot selon les valeurs de \rho.

« Légitimité » de \rho

On a supposé dans ce qui précède que l’escargot applique sa stratégie dès le début de la course. Or celui-ci doute soudain : et s’il avait attendu ? \rho aurait-il été différent ? Sans doute cela nuirait à l’intérêt de ce nombre.

Le gastéropode réalise alors que s’il commence sa stratégie au niveau d’un point A_i, son objectifs successifs  seront A_{i+1}, A_{i+2}, … : il marquera les mêmes points (excepté A_0, …, A_{i-1}). Or \rho, comme limite, ne dépend pas des premiers termes, donc est bien inchangé.

L’escargot envisage ensuite d’avoir commencé sa stratégie non au niveau d’un point A_i, mais entre deux d’entre eux, A_i et A_{i+1}. D’après le premier cas envisagé, il peut supposer que ces points sont A_0 et A_1. Or au vu des figures 1 et 2, quand il se trouve entre A_0 et A_1, le lapin est quant à lui quelque part entre A_1 et A_2. Et ainsi de suite : quand l’escargot atteint son premier objectif, entre A_1 et A_2, le lapin est entre A_2 et A_3, etc.  Cet « encadrement » des objectifs successifs conduit, après quelques calculs simples, au fait que le nouveau retard moyen diffère de l’ancien par une quantité tendant vers 0  : \rho ne dépend donc pas du point en lequel l’escargot entame sa stratégie.

Invariance par changement de terrain

Reprenons notre fable au début et supposons, ceteris paribus, qu’il ait plu peu avant le début de la course ; à cause de cette averse, certaines portions du terrains sont plus ou moins boueuses. Supposons à présent que ces zones boueuses handicapent exactement de la même façon le lapin et l’escargot. Malgré cette hypothèse, un observateur extérieur pourrait croire qu’un tel événement change la donne et modifie le retard moyen de l’escargot sur le lapin. Il n’en est en fait rien : on peut prouver que le nombre de rotation ρ reste inchangé.

Rationalité ou irrationalité

De façon surprenante, la rationalité ou non de \rho influence nettement la façon dont les points A_i sont répartis. Plus précisément :

–          Si \rho est rationnel (disons égal à p/q, p et q premiers entre eux), il existe certains points du parcours tels que, si l’escargot commence sa stratégie en ces points (au lieu de la commencer au départ de la course comme précédemment), alors arrive un moment où le gastéropode doit rebaptiser un point. En d’autres termes, il va se fixer comme objectif un point qu’il avait déjà pris pour objectif à un tour précédent : la suite (A_i) est périodique. De plus la période vaut q : A_i=A_{i+q} pour tout i, et le nombre de tours que l’escargot a réalisés entre A_i et A_{i+q} est p … Ainsi les points A_i sont distribués comme si au long de la course le retard de l’escargot était constant égal à p/q.

–          Si \rho est irrationnel, c’est tout le contraire qui se passe : quel que soit le moment où l’escargot amorce sa stratégie, il ne donnera jamais deux noms à un même point. Les points A_i sont même denses dans le cercle ! Cela rappelle un résultat à propos des rotations irrationnelles du cercle, dont traite un autre article de ce blog. Et c’est à juste titre : on peut prouver que, quitte à rendre certaines zones du terrain plus ou moins boueuses  à l’aide d’une averse appropriée, alors tout au long de la course le retard de l’escargot sur le lapin restera rigoureusement constant (égal à \rho).

Il faut noter que cette dernière propriété est fausse dans le cas rationnel : par exemple considérons les deux situations suivantes.

1)      Le lapin, craignant de peiner l’escargot, commence la course au même endroit que ce dernier, et reste à sa hauteur jusqu’à la fin du tour. Dans ce cas, le retard de l’escargot est constant égal à 0.

2)      Le lapin, parti en tête, est victime d’un violent coup de fatigue ; il avance alors si lentement que l’escargot finit par le rattraper. Dans ce cas, le retard de l’escargot tend vers 0.

Dans les deux cas, le nombre de rotation \rho est donc nul ; cependant, les modifications de terrain affectant de la même façon le lapin et l’escargot, elles ne changent en rien la situation du cas 1). On ne peut donc ramener le cas 2) au cas 1), par quelque averse que ce soit.

Remarque : dans l’exemple précédent, on voit que quand l’escargot rattrape le lapin, le nombre de rotation est nul. C’est en fait même équivalent : si \rho est nul, cela signifie que le retard moyen de l’escargot tend vers 0 ; mais par compacité du cercle, cela entraîne qu’il existe un point ou ce retard est nul, i.e. où l’escargot rattrape le lapin …

Morale de l’histoire :

Si un jour l’on prétend pouvoir vous rattraper

Demandez seulement si \rho est nul ou non ;

Car des deux animaux dans ces pages contés

L’on dit qu’aujourd’hui ils tournent encor en rond.

On se donne un ensemble X et une application T: X -> X que l’on voudrait étudier: il s’agit d’un système dynamique. Une façon de l’étudier est de regarder le comportement des orbites des points: étant donné x \in X, on se pose des questions sur l’ensemble des T^{n} x pour n \in \mathbb{Z}. On peut se poser des questions comme:

  • Est-ce que T admet des points fixes?
  • Des orbites finies?
  •  Est-ce qu’une orbite repasse « près » du point de départ?

On demande souvent que l’application T préserve une structure supplémentaire pour avoir un peu plus d’information pour l’étudier. On peut demander, par exemple, qu’elle soit continue ou qu’elle préserve une mesure. Dans chaque cas, on étudie la dynamique de l’application « à conjugaison près »: on s’intéresse, comme on peut le voir ici, au comportement intrinsèque du système et non pas aux détails liés au choix des coordonnés pour l’étudier. Il faut alors se restreindre pour le choix des applications par lesquelles on s’autorise à conjuguer: si T est continue, on voudrait des homéomorphismes, si elle préserve une mesure, des applications qui la préservent aussi.

Considérons le cas où T est une isométrie: elle préservera alors une distance. Voyons, sur un exemple concret, les informations que l’on peut obtenir à partir de la remarque suivante sur la conjugaison en général:

Si T et T' sont conjuguées par H (c’est-à-dire T' = H T H^{-1}) alors H envoie les orbites de T sur les orbites de T'.

En effet, puisque H est un changement de coordonnées, les itérés d’un point (les T^{n}x) seront envoyés sur les itérés de Hx, à savoir les T'^{n}(Hx).

Voyons ce que nous pouvons en tirer en appliquant ceci aux isométries de \mathbb{R}^2. Notons T_{a} la translation de vecteur a, R_{x,\alpha} la rotation de centre x et d’angle \alpha et S_{D} la symétrie par rapport à la droite D.

 transl_sd rot_sdsym_sd

Essayons d’avoir un peu de familiarité avec la conjugaison pour ces applications. On sait (ou en tout cas si on fait appel à la mémoire et aux cours du collège) que toutes les isométries de \mathbb{R}^2 sont d’un de ces types là. On peut par exemple se demander quelle isométrie on obtient par F = R_{0,\alpha}T_{(1,0)}R_{0,- \alpha}. On peut répondre de tête, à condition de savoir calculer vite ou de considérer ce que nous avions remarqué sur les orbites. L’orbite du point 0 pour T_{(1,0)} est l’ensemble des (n,0) avec n entier. En conjugant par R_{0,\alpha}, on obtient que l’orbite du point 0 pour F est l’ensemble des R_{0, \alpha}(n,0) avec n entier. L’application recherchée est alors de la translation de vecteur R_{0,\alpha}(1,0) i.e. de T_{ ( cos(\alpha) , sin(\alpha) ) }.

figure1_sd

Voici un deuxième exemple: quelle est l’isométrie G = T_{(1,0)} S_{D} T_{(-1,0)} ? Les points de D sont fixes pour S_{D} et tous les autres points ont des orbites à deux éléments. Puisqu’on conjugue par T_{(1,0)}, les points de T_{(1,0)} D sont fixes pour G et les autres auront des orbites à deux éléments. G est donc la symétrie par rapport à T_{(1,0)} D.

Conjugaison d'une symétrie par une translation

On peut ainsi classifier les isométries de \mathbb{R}^2 à conjugaison près en faisant des considérations « dynamiques ». En laissant de côté la preuve, on peut énoncer la classification suivante: Une isométrie F de \mathbb{R}^2 est conjuguée à:

  • T_{(d,0)} pour un d \in \mathbb{R}^{+} si F admet une orbite non bornée.
  • R_{(0, \alpha)} pour un \alpha \in [0,2 \pi] si F a exactement un point fixe.
  • S_{\mathbb{R}(1,0)} si F admet une droite fixe et un point avec une orbite d’ordre 2.