Page d'accueil

De la séparation de sources à l'analyse en composantes indépendantes

Historique

Les premiers travaux sur la séparation de sources datent d'une quinzaine d'années et intéressent surtout la communauté des traiteurs d signaux. Le problème consiste à estimer n signaux inconnus (les sources), supposés statistiquement indépendants à partir de p < n mélanges inconnus de ces signaux. D'un point de vue statistique, c'est donc un problème de recherche de facteurs indépendants, problème qui a été étudié notamment par Darmois. Dans le cas le plus simple, on suppose que le mélange est linéaire instantané. Si on note s (t) et x(t) les vecteurs sources et observations, respectivement, on peut alors écrire :

x(t)= A s(t),

A est une matrice dite de mélange.

Il s'agit alors d'estimer une matrice B, dite de séparation, telle que BA se réduise à une matrice diagonale, à une permutation près. De nombreuses solutions ont été proposées dans la littérature au cours des quinze dernières années pour de tels mélanges. Les méthodes mises en oeuvre pour estimer les sources exploitent l'hypothèse d'indépendance des sources. Dans le cas où l'on n'exploite pas d'hypothèse supplémentaire sur le signal, l'écriture de l'indépendance se traduit par des critères non linéaires impliquant des statistiques d'ordre supérieur à deux. Dans le cas où l'on exploite la corrélation temporelle des signaux sources (sources colorées de spectres différents), il est possible de n'utiliser que des statistiques d'ordre deux.

Les premiers travaux dans ce domaine ont été proposés par Hérault, Jutten et Ans en 1985 [ 14 ], et ont suscité l'intérêt de nombreux chercheurs en France [17 ], [ 6 ], [5 ], [ 8 ], [24 ], ... puis à l'étranger [ 35 ], [ 1 ], [34 ], .... D'un point de vue théorique, Pham et al. [ 24 ,26 ] les premiers, ont montré l'importance des fonctions score (dérivées du logarithme des densités) pour effectuer l'optimisation.

Comme on exploite essentiellement l'indépendance des sources, l'analyse en composantes indépendantes (ACI) s'introduit de façon naturelle [7 ]. Elle consiste à trouver une transformation de l'espace des observations en un espace de représentation dans lequel les composantes sont aussi indépendantes que possible. Au delà de la séparation de sources (où les signaux ont une structure temporelle), cette analyse s'applique à des données multidimensionnelles. Son intérêt a été montré expérimentalement dans le cas d'images couleurs [ 20 ]. Chaque pixel étant un point dans l'espace à 3 dimensions , une image est donc un nuage de points dans cet espace. Cependant, les facteurs et ne sont pas indépendants, en raison notamment du recouvrement fréquentiel des filtres de couleurs. L'ACI appliquée sur ces données propose un nouvel espace de représentation de l'image dans lequel les composantes sont aussi indépendantes que possible. D'un point de vue des distributions, l'ACI a tendance à dégaussianniser. Pour les images contenant plusieurs objets, l'ACI fournit des composantes indépendantes dont les distributions sont multimodales, ce qui permet de segmenter l'image par de simples seuillages.

Applications potentielles

L'ACI et la séparation de sources ont un grand intérêt pour de nombreuses applications, notamment en instrumentation multi-capteurs, en traitement de signaux biomédicaux, en radar et sonar, en sismique, et en télécommunications. Actuellement, au niveau mondial, les applications se focalisent sur trois domaines : le biomédical, l'audio, les télécommunications. Ceci a été nettement perçu lors du ``workshop'' ICA'99 au cours duquel des sessions spéciales ont été organisées sur ces applications.

Un des avantages de l'ACI et de la séparation de sources est de ne pas nécessiter la connaissance d'un signal de référence, comme c'est usuel dans les méthodes classiques de traitement du signal. De plus, il est possible de séparer des sources de distributions identiques.

En coopération avec le Laboratoire de Physique des Composants à Semi-Conducteurs (LPCS), le LIS travaille à la conception de réseaux de capteurs magnétiques faible coût/hautes performances , dans lesquels la sensibilité (indésirable) des réponses des capteurs à la température est éliminée par ACI, et non par des prouesses technologiques coûteuses.

Enfin, les méthodes de séparation dans des mélanges non linéaires sont très intéressantes pour les applications en instrumentation et en télécommunications. En effet, l'électronique introduit des non linéarités (saturations, etc) indésirables, qui peuvent être facilement compensées par traitement du signal, ce qui permettrait d'éviter la conception coûteuse de systèmes aussi linéaires que possible. Enfin, ces méthodes semblent prometteuses pour traiter des problèmes de déconvolution non linéaire, courants en sismique par exemple.

Modèles

Le premier modèle introduit en séparation de sources, qui est aussi le plus simple, est le modèle de mélange instantané, décrit dans la section historique. Ce modèle a subi beaucoup de raffinements. Dans le cas des signaux de parole par exemple, le mélange n'est pas instantané et un modèle de mélange convolutif est plus approprié. D'autre part, dans certaines applications, les mélanges ne sont pas linéaires, à cause du phénomène de saturation notamment. Une façon d'introduire la non linéarité, dans le cadre des mélanges instantanés, est d'appliquer une transformation non linéaire (inversible) sur chaque mélange (mélange post-nonlinéaire ). On peut complexifier ce schéma en cascadant plusieurs couches de mélanges linéaires suivis de transformations non linéaires (composante par composante) ..., donnant ainsi lieu à une structure semblable à un réseau de neurones. De la même façon, on peut faire suivre, dans le cas des mélanges convolutifs, une transformation non linéaire sur chaque mélange (mélange post-nonlinéaire convolutif). Enfin, on peut être amené à ajouter un terme d'erreur d'observation dans ces modèles (bruit additif ). Notons que ces erreurs peuvent être vues comme des sources, ce qui nous conduit à un problème de séparation avec beaucoup plus de sources que de capteurs. L'identification du modèle est cependant encore possible, moyennant des hypothèses supplémentaires sur les bruits (gaussiens par exemple) et/ou sur les sources.

Si l'on ignore l'aspect temporel des signaux, un procédé aveugle de séparation de sources peut être vu comme un changement de base, de sorte que les composantes relatives à la nouvelle base soient indépendantes. C'est le but de l'ACI, mais dans ce cadre, l'hypothèse d'un modèle de mélange n'est pas toujours complètement validée. Ainsi l'indépendance totale des composantes n'est pas toujours réalisable et on doit se contenter de les rendre aussi indépendantes que possible. Ce concept est très proche d'un autre concept introduit récemment en statistique : c'est la projection révélatrice (projection pursuit en Anglais). Elle consiste à chercher les directions de projection telles que les composantes projetées soient aussi anormales (non gaussiennes) que possible. Or quand on somme des variables aléatoires indépendantes, on rend le résultat plus gaussien. La méthode de projection révélatrice conduit donc à une extraction de sources, quand elles existent. Toutefois elle les extrait de façon séquentielle (la moins gaussienne en premier), tandis que l'ACI le fait de façon globale. De plus, les deux approches sont distinctes en l'absence de modèle de mélange.

On peut raffiner l'ACI, comme dans le cas du mélange instantané, pour introduire l'aspect temporel et la non linéarité. Ainsi l'ACI convolutive consiste en la recherche d'un filtre matriciel, opérant sur la suite des vecteurs observés, tel que les différents canaux en sortie du filtre soient aussi indépendants que possible. On peut également ajouter des transformations non linéaires. C'est par exemple le cas de l'ACI pré-nonlinéaire dans laquelle les composantes du vecteur d'observation subissent une transformation non linéaire avant d'être mélangées linéairement. Une autre approche est d'introduire une ACI locale dans laquelle le changement de base dépendrait des points d'intérêt.

Méthodes

La séparation aveugle doit reposer uniquement sur l'exploitation de l'indépendance mutuelle des sources. Une idée naturelle est donc d'annuler, en plus des covariances, les cumulants croisés d'ordres supérieurs. C'est la méthode des moments. Mais au lieu des fonctions polynômiales, on peut aussi bien utiliser des fonctions non linéaires quelconques des variables observées. Cette idée est apparue très tôt dans un papier de Héraut Jutten et Ans [14 ]. Par la suite Pham et Garat [ 26 ] ont bâti un cadre général de cette méthode, basé sur le principe du maximum de vraisemblance. Leur travaux ont montré que le choix de la fonction non linéaire doit être adapté à la loi de la source.

Dans le cas des signaux, l'exploitation de la dépendance avec retard entre les canaux d'observations peut être très utile. Dans le cas des mélanges instantanés, elle permet d'effectuer la séparation à l'aide uniquement des statistiques du second ordre. Dans ce cadre, une manière simple est de recourir à la modélisation autorégressive, que l'on peut alors intégrer dans une démarche de maximum de vraisemblance. Toutefois, dans le cas des mélanges convolutifs, l'exploitation de la corrélation sérielle est insuffisante, celle de la dépendance sérielle est indispensable pour pouvoir faire la séparation. Un modèle markovien semble mieux adapté pour exploiter cette dépendance sous toutes ses formes.

Les méthodes précédentes reviennent souvent à annuler certaines fonctions des paramètres du modèle et des observations appelées fonctions estimantes. Cette méthode présente toutefois un défaut majeur qui est la non unicité des solutions de cette annulation, sans parler de la difficulté algorithmique de la recherche des solutions. Une méthode alternative, basée sur un contraste, peut être préférable. Un contraste est une fonction des paramètres du modèle et des observations qui tend, quand la taille de l'échantillon tend vers l'infini, vers une fonction atteignant son minimum pour les vraies valeurs des paramètres. L'estimation de ces derniers se fait donc simplement en minimisant un tel contraste. Cette méthode est moins générale car en dérivant un contraste on obtient un système de fonctions estimantes, mais inversement un tel système ne provient pas forcément d'un contraste. Son avantage est qu'elle peut éviter le problème des solutions parasites.

La méthode des contrastes conduit naturellement à l'ACI. En effet, un contraste se construit à partir d'une mesure de dépendance entre les sources reconstituées et sa minimisation produit donc effectivement des composantes les plus indépendantes possibles selon cette mesure. Divers contrastes ont été proposés, le plus intéressant semble être celui basé sur l'information mutuelle. Ce contraste utilise l'ensemble des informations contenues dans la distribution des observations et est donc très général : il ne nécessite pas un blanchiment préalable (par exemple) et il peut être aisément étendu pour couvrir l'aspect temporel (ACI spatio-temporel, déconvolution aveugle) ou non linéaire (ACI non linéaire) du modèle. Le prix à payer est la complexité de la méthode, qui nécessite l'estimation de l'entropie de la distribution, impliquant en général l'estimation de la densité.

Devant la difficulté à utiliser l'information mutuelle, on peut envisager de la dégrader en quelque chose de plus simple. On peut par exemple exploiter le support de la distribution ou le quasi-support (contenant pas toute mais presque la totalité des probabilités). Ce support peut être estimé via les statistiques d'ordre ou par des méthodes géométriques. L'utilisation des statistiques d'ordre est une démarche nouvelle qui n'a pas été beaucoup exploitée. D'autre part le lien fort entre l'ACI et la projection révélatrice suggère de transposer les méthodes utilisées dans un domaine vers l'autre.

Algorithmes Stochastiques

Ce thème de recherche regroupe les méthodes stochastiques pour la résolution des problèmes non linéaires, qui s'appuient notamment sur l'usage des tirages de Monte-Carlo.

Motivations

Dans beaucoup d'applications en traitement du signal (dont quelques unes seront décrites dans le paragraphe applications potentielles , on est confronté à des problèmes d'estimation de paramètres qui interviennent de façon non linéaire dans les modèles considérés. Jusqu'à présent, la complexité des problèmes était contournée en séparant les traitements : méthodes approchées pour les paramètres non linéaires (par exemple Kalman étendu), suivies de méthodes classiques pour les paramètres linéaires (moindres carrés, ...). Dans ce contexte, les erreurs liées à la première étape peuvent avoir des conséquences catastrophiques (et difficilement maîtrisables) sur l'ensemble du traitement.

Le renouveau des techniques stochastiques, conforté par la puissance toujours croissante des moyens de calculs numériques, permet d'envisager des résolutions globales des problèmes rencontrés. À titre d'exemple, le groupe non linéaire du LIS réfléchit depuis une année à l'implantation particulaire d'un récepteur optimal en communications numériques. Dans le même esprit, le LMC travaille sur des problèmes d'assimilation de données où le modèle est intrinsèquement non linéaire. Les méthodes classiques de type linéarisation conduisent à des résultats décevants, alors que des approches stochastiques sont prometteuses.

Applications potentielles

Les applications auxquelles nous nous somme intéressés peuvent se formuler comme un problème d'inférence statistique selon un modèle générique

r(t) = hq (m(.))(t) + b(t),
(1)

m(.) est un signal émis, hq(.) est une fonctionnelle (non linéaire en général) qui dépend de façon non linéaire d'un paramètre vectoriel q et b(.) est un bruit additif. Notons que les signaux mis en jeu peuvent être mono- ou multi-dimensionnels.

Ce modèle très général intervient dans les problèmes suivants :

Modèles et méthodes

Les problèmes considérés concernent l'inférence statistique sur le modèle décrite au paragraphe précédent.

Les domaines d'application envisagés amènent chacun un ensemble de connaissances a priori sur le modèle. Par exemple, en télécommunications, le signal inconnu m(t) est une suite de symboles indépendants identiquement distribués, prenant des valeurs dans un alphabet discret; q peut inclure les paramètres du filtre, la phase due aux problèmes Doppler, la phase due aux problèmes de synchronisation, .... En TAO, m(t) est connu et l'inférence porte plus précisément sur q , paramètres liés à la physique du milieu océanique.

L'approche envisagée est essentiellement une approche bayésienne, cadre naturel pour la prise en compte des différentes connaissances a priori. Il est toutefois connu que les approches bayésiennes conduisent à des problèmes de calcul énormes (estimateurs, densité de probabilité). Ces difficultés peuvent être appréhendées par les techniques de simulations stochastiques, ou méthodes Monte-Carlo par Chaînes de Markov (MCMC). Ces techniques se proposent de construire des chaînes de Markov ayant comme mesure invariante la mesure de probabilité d'intérêt dans un problème d'inférence.

Le choix de la technique MCMC est gouverné par le type d'application envisagée. Par exemple, les problèmes de télécommunications appellent des implantations en-ligne (ou séquentielles) de l'inférence. En revanche, les problèmes de TAO ou de sismique peuvent être étudiés hors-ligne. De plus, l'aspect simulation pourra être également appliqué pour l'inférence sur les modèles spatio-temporels de signaux biophysiques.

D'autre part, le modèle générique peut être replacé dans un contexte non paramétrique : m( t) et r(t) sont vus alors comme des couples de mesures liées a priori par une relation inconnue que l'on cherche à approcher. Les réseaux neuronaux multicouches ont des capacités d'approximation de fonctions non linéaires largement démontrées. Toutefois, de nombreux problèmes restent à étudier, comme l'influence de la coloration des erreurs de mesure, le nombre de couches et de neurones par couches, ...



Page d'accueil