Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Institut National de Formation en Informatique (I.N.I) Oued‐Smar Alger
Direction de la Post‐Graduation et de la Recherche
Thème :
Inférence d’identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien Mémoire présenté pour obtenir le grade de MAGISTER EN IFORMATIQUE Spécialité Informatique Industrielle (II)
Par :
Tounsi bilal Proposé par : Dr. Bessalah Hamid Mr. Bengherabi Messaoud
Jury: Mr. Ait‐Aoudia Samy
Maître de Conférence (INI) Président
Mr. Guessoum Abderrezak Professeur (Blida) Examinateur Mr. Ait‐Ali Yahia Yasine Chargé de Cours (INI)
Examinateur
Mr. Bessalah Hamid Maître de Recherche (CDTA) Directeur de Mémoire Mr. Bengherabi Messaoud Chargé de Recherche (CDTA) Invité
Année Universitaire : 2007/2008
Remerciements Je tiens à remercier tout particulièrement mes encadreurs de Mémoire, Monsieur Bessalah Hamid, Ministre de la post et des technologies des informations et de la télécommunication, et Monsieur Bengherabi Messaoud, Chargé de recherche au Centre du Développement des Technologies Avancées (CDTA), pour leurs aides et conseils qu’ils m’ont apportés tout au long de ce travail Je tiens également à remercier Mr Harizi Farid et Mlle Mezai Lamia pour son aide dans la correction du mémoire. Je tiens aussi à remercier les membres de mon jury pour avoir accepter de juger mon travail.
Finalement, je tiens à remercier tout ceux qui ont contribué de près ou de loin à la finalisation de ce travail.
ii
Résumé La reconnaissance automatique du locuteur est le processus qui détermine automatiquement l’identité de celui qui parle en se basant sur ses caractéristiques vocales. Actuellement, ce type de système est largement utilisé dans plusieurs domaines, essentiellement, dans la sécurisation d’accès à des sites protégés, pour faire des transactions bancaires, ou pour répondre aux besoins d’un tribunal pour un crime ou un litige civil. Le développement fulgurant des moyens de communications vocales (Mobile, VoIP,..) a permet à un grand flux d’informations de circuler à travers les différents supports de communication. Ces informations peuvent être très utiles pour résoudre des problèmes criminalistiques. En effet, on peut facilement capturer des traces vocales, qui peuvent être analysées au moyen d’un système de reconnaissance automatique du locuteur, et par conséquent, aider le tribunal à prendre une décision.
Le travail présenté dans ce mémoire porte essentiellement sur l’identification automatique du locuteur dans le domaine criminalistique (Forensique) adapté au dialecte algérien. Malgré que cette étude concerne de plus le cas criminalistique, tous les autres types des systèmes RAL (Reconnaissance Automatique du Locuteur) ont été étudiés. La contribution majeure de ce travail se voit dans la construction d’une base de données de locuteurs algériens. Cette dernière est le résultat d’une collaboration entre le CDTA (Centre du Développement des Technologies Avancées) et la société espagnole AGNITIO. La base de données nous a permis d’effectuer plusieurs tests d’évaluation sur les différents systèmes RAL. En plus, elle peut être utilisée pour construire un modèle UBM (Universal Background Model), qui représente la distribution statistique de l’espace des vecteurs acoustiques des locuteurs algériens.
Les expériences réalisées montrent que le système d’identification forensique du locuteur est très intéressant et peut aider énormément à résoudre des problèmes criminalistiques. En effet, nous avons eu des résultats très promoteurs dans plusieurs conditions différentes. Nous avons aussi remarqué que les conditions d’enregistrement
iii
et les supports de transmission ont une grande influence sur les performances d’un système d’identification forensique du locuteur. Mots clés : Reconnaissance automatique du locuteur RAL, Identification forensique, Approche Bayesienne, Modèle de mélange de gaussiennes GMM, Vecteurs acoustiques.
iv
Sommaire
Sommaire
Remerciements ..................................................................................................... ‐ 1 ‐ Résumé ..................................................................................................................... iii Introduction générale ................................................................................................ 1 Contexte et Motivation ............................................................................................... 1 L’organisation du mémoire .................................................................................... 2
Partie I : Introduction à la reconaissance automatique du locuteur 1 Généralités sur l’identification du locuteur en criminalistique ............................... ‐ 3 ‐ 1.1 L’identification forensique du locuteur .......................................................... ‐ 5 ‐ 1.2 Les techniques utilisées dans l’identification forensique du locuteur ........... ‐ 6 ‐ 1.2.1 L’identification auditive du locuteur........................................................... - 6 1.2.2 L’identification du locuteur par l’inspection visuelle des spectrogrammes- 7 1.2.3 L’identification automatique du locuteur en criminalistique ..................... - 8 1.3 L’estimation de la puissance d’une preuve par l’approche Bayesienne ...... ‐ 11 ‐ 1.4 Conclusion ..................................................................................................... ‐ 11 ‐ 2 Etat de l’art sur la reconnaissance automatique du locuteur ............................... ‐ 13 ‐ 2.1 La reconnaissance automatique du locuteur ............................................... ‐ 13 ‐ 2.1.1 La vérification du locuteur ........................................................................ - 15 2.1.2 L’identification du locuteur....................................................................... - 16 2.1.3 Une comparaison entre l’identification et la vérification automatique du locuteur ................................................................................................................. - 16 2.1.4 Les paramètres acoustiques ..................................................................... - 19 2.1.5 La modélisation des paramètres acoustiques .......................................... - 20 2.2 Une comparaison entre l’identification forensique du locuteur et la reconnaissance automatique du locuteur ................................................................ ‐ 26 ‐ a) L’ensemble de référence .............................................................................. - 27 -
v
Sommaire b) c) 2.3
L’approche Bayesienne ................................................................................. - 28 Contrôle des échantillons ............................................................................. - 29 Conclusion ..................................................................................................... ‐ 30 ‐
3 L’interprétation Bayesienne d’une preuve scientifique ........................................ ‐ 31 ‐ 3.1 L’approche Bayesienne ................................................................................. ‐ 33 ‐ 3.1.1 Les avantages de l’approche Bayesienne ................................................. - 34 3.1.2 Les inconvénients de l’approche Bayesienne ........................................... - 34 3.2 L’approche Bayesienne appliquée aux systèmes d’identification forensique du locuteur ................................................................................................................ ‐ 35 ‐ 3.2.1 Les bases de données ............................................................................... - 36 3.2.2 L’évaluation d’un système biométrique en science forensique ............... - 37 3.2.3 L’échelle verbale du rapport de vraisemblance ....................................... - 39 3.2.4 Les méthodes d’estimation de la preuve.................................................. - 39 3.3 Conclusion ..................................................................................................... ‐ 42 ‐
Partie II : Mise en oeuvre d’un système d’identification forensique du locuteur 4 Prétraitement et extraction des paramètres acoustiques .................................... ‐ 43 ‐ 4.1 Extraction des vecteurs acoustiques ............................................................ ‐ 44 ‐ 4.2 Le prétraitement ........................................................................................... ‐ 44 ‐ 4.2.1 La préaccentuation ................................................................................... - 44 4.2.2 L’élimination du silence ............................................................................ - 45 4.3 Le fenêtrage .................................................................................................. ‐ 51 ‐ 4.4 L’extraction des paramètres ........................................................................ ‐ 52 ‐ 4.4.1 Les paramètres calculés par la prédiction linéaire ................................... - 52 4.4.2 Les paramètres calculés par l’analyse Mel‐cepstral ................................. - 57 4.4.3 Les dérives des paramètres acoustiques .................................................. - 62 4.5 Post traitement ............................................................................................. ‐ 63 ‐ 4.6 Conclusion ..................................................................................................... ‐ 63 ‐ 5 La modélisation des vecteurs acoustiques ........................................................... ‐ 64 ‐ 5.1 L’estimation du modèle GMM par l’algorithme EM ..................................... ‐ 65 ‐ 5.1.2 La phase d’apprentissage.......................................................................... - 68 5.1.3 La phase de classification ou de décision ................................................. - 73 5.2 L’estimation du modèle GMM par l’algorithme MAP .................................. ‐ 74 ‐ 5.3 Conclusion ..................................................................................................... ‐ 78 ‐
vi
Sommaire
Partie III : Tests d’évaluation et conclusions 6 Tests et résultats d’évaluation ............................................................................. ‐ 79 ‐ 6.1 La base de données ....................................................................................... ‐ 80 ‐ 6.2 L’outil d’évaluation ....................................................................................... ‐ 82 ‐ 6.3 Les résultats des tests d’évaluation .............................................................. ‐ 83 ‐ 6.3.1 L’évaluation du système d’identification du locuteur .............................. - 84 6.3.2 L’évaluation du système de vérification du locuteur ............................... - 85 6.3.3 L’évaluation du système d’identification criminalistique du locuteur ..... - 90 7 Conclusions et perspectives ................................................................................. ‐ 95 ‐ 7.1
Perspectives .................................................................................................. ‐ 98 ‐
Références ........................................................................................................................ 99 Site web. ....................................................................................................................... 103
vii
Liste des figures
Figures
Fig‐1.1 : Exemple d’un spectrogramme. ......................................................................... ‐ 9 ‐ Fig‐1.2 : Courbes de mesure de confiance .................................................................... ‐ 11 ‐ Fig‐2.1: Schéma d’un système de vérification du locuteur.......................................... ‐ 14 ‐ Fig‐2.2 : Schéma d’un système d’identification du locuteur. ...................................... ‐ 15 ‐ Fig‐2.3 : La quantification vectorielle [data]. ................................................................ ‐ 22 ‐ Fig‐2.4 : Un modèle de Markov caché [wiki]. ............................................................... ‐ 23 ‐ Fig‐2.5 : Exemple d’un réseau de neurone à deux entrées et une sortie [wiki]. .......... ‐ 24 ‐ Fig‐2.6 : Exemple d’un mélange de gaussiennes monodimensionnelle [wiki]. ............ ‐ 26 ‐ Fig‐3.1 : Exemple d’un graphique de type TipetPlot .................................................... ‐ 41 ‐ Fig‐3.2 : La méthode directe [ANIL, 05]. ....................................................................... ‐ 41 ‐ Fig‐3.3 : La méthode des scores [ANIL, 05]. .................................................................. ‐ 42 ‐ Fig‐4.1 : Les étapes principales pour l’extraction des paramètres. ............................ ‐ 44 ‐ Fig‐4.2 : Les étapes de prétraitement. .......................................................................... ‐ 44 ‐ Fig‐4.3 : Le filtre de la préaccentuation. ....................................................................... ‐ 46 ‐ Fig‐4.4: Les étapes principales pour éliminer le silence du deuxième algorithme....... ‐ 48 ‐ Fig‐4.5 : Les différentes mesures utilisées pour éliminer le silence. ............................ ‐ 49 ‐ Fig‐4.6 : Du signal s1 (n) avec silence au signal x1 (n) sans silence en utilisant la fonction VAD (n). ........................................................................................................... ‐ 50 ‐ Fig‐4.7: Les étapes du fenêtrage. .................................................................................. ‐ 51 ‐ Fig‐4.8 : Le découpage en trames. ................................................................................ ‐ 52 ‐ Fig‐4.9: Un modèle du conduit vocal. ........................................................................... ‐ 53 ‐ Fig‐4.10: Les étapes de la prédiction linéaire. .............................................................. ‐ 53 ‐ Fig‐4.11: Le modèle de production de parole avec les tubes acoustiques................... ‐ 56 ‐ Fig‐4.12 : Les étapes à suivre pour créer un cepstral réel. ........................................... ‐ 58 ‐
viii
Liste des figures
Fig‐4.13 : La transformation du Hz en Mel. .................................................................. ‐ 60 ‐ Fig‐4.14 : La répartition des filtres triangulaires sur les échelles ................................. ‐ 60 ‐ Fréquentielle et Mel. .................................................................................................... ‐ 60 ‐ Fig‐4.15 : Les étapes pour le calcul des MFCC. ............................................................. ‐ 61 ‐ Fig‐4.16 : les étapes de post traitement. ...................................................................... ‐ 63 ‐ Fig‐5.1 : Illustration de nuages acoustiques représentants l’identité d’un locuteur. .. ‐ 66 ‐ Fig‐5.2 : Illustration des classes acoustiques d’un locuteur dans un espace à 2 dimensions. ................................................................................................................... ‐ 66 ‐ Fig‐5.3 : Approximation de la distribution d’un paramètre acoustique par une combinaison de gaussiennes ........................................................................................ ‐ 67 ‐ Fig‐5.4 : Schéma de fonctionnement de l’algorithme LBG. ......................................... ‐ 72 ‐ Fig‐5.5: L’adaptation par le technique MAP. ................................................................ ‐ 75 ‐ Fig‐6.1 : L’organisation de la base de données. ............................................................ ‐ 81 ‐ Fig‐6.2 : L’outil d’évaluation.......................................................................................... ‐ 82 ‐ Fig‐6.3 : Un exemple de représentation graphique donnée par l’outil d’évaluation. .. ‐ 83 ‐ Fig‐6.4 : L’évaluation du système d’identification du locuteur. ................................... ‐ 85 ‐ Fig‐6.5 : Courbe ROC Fixe‐Vs‐Fixe. ................................................................................ ‐ 87 ‐ Fig‐6.6 : Courbe ROC Microphone‐Vs‐Microphone. ..................................................... ‐ 88 ‐ Fig‐6.7 : Courbe ROC Mobile‐Vs‐Mobile ....................................................................... ‐ 88 ‐ Fig‐6.8 : Tippet plots Fixe Vs Fixe. ................................................................................. ‐ 91 ‐ Fig‐6.9 : Tippet plots Microphone Vs Microphone. ...................................................... ‐ 92 ‐ Fig‐6.10 : Tippet plots Mobile Vs Mobile. ..................................................................... ‐ 92 ‐
ix
Liste des tableaux
Tableaux Tab‐3.1 : Quelques descriptions verbales du rapport de vraisemblance [ROSE, 02]. .. ‐ 40 ‐ Tab‐6.1 : L’ensemble de tests d’évaluation qui peuvent être effectués sur la base de données de dialecte Algérien. ...................................................................................... ‐ 80 ‐ Tab‐6.2 : Tests effectués sur le système de vérification du locuteur. .......................... ‐ 86 ‐ Tab‐6.3 : EER des différentes courbes ROC. ................................................................. ‐ 87 ‐ Tab‐6.4: Les rapports de vraisemblance des hypothèses H0 et H1. .............................. ‐ 93 ‐
x
Liste des abréviations
Abréviations DCT: Discret Cosine Transform. DTW: Dynamic Time Warping EER: Equal Error Rate. EM: Expectation Maximization. FA: False Acceptance. FBI: Federal Bureau of Investigations. FFT: Fast Fourrier Transform. FR: False Rejection. GMM: Gaussian Mixtures Models. HMM: Hidden Markov Model. LAR: Log Area Ratio. LBG: Linde, Buzo et Gray. LPCC: Linear Prediction Cepstral Coefficients. MAP: Maximum à posteriori. MFCC: Mel‐Frequencies Cepstral Coefficients. RC : Reflection Coefficients. RAL: Reconnaissance Automatique du Locuteur. ROC: Receiver Operating Characteristic UBM: Universal Background model.
xi
Introduction générale
Introduction générale 1. Contexte et Motivation Le besoin de faire identifier des locuteurs anonymes par leur voix a connu un grand développement au cours de ces dernières années. Plusieurs techniques ont été proposées pour faire cette tâche. Ces dernières peuvent être classées selon trois approches: l’approche auditive, l’approche semi‐automatique, et l’approche automatique basée sur une interprétation bayesienne de la preuve. Le problème avec les deux premières approches réside dans le fait qu’elles nécessitent toujours des interventions humaines pour identifier une personne. Cette intervention n’est pas toujours facile à faire, en effet, nous avons des problèmes qui dépendent de la langue du discours, du nombre de locuteurs à identifier, et du temps nécessaire pour faire l’identification d’un locuteur. Heureusement, avec le développement de l’informatique, des systèmes de reconnaissance automatique du locuteur sont apparus, et ont simplifié énormément la tâche de la reconnaissance du locuteur. L’avantage des systèmes RAL est qu’ils sont indépendants du texte, Indépendants de la langue du discours, et la reconnaissance du locuteur est totalement automatisée et ne nécessite aucune intervention humaine. L’objectif principal de ce travail est d’étudier et d’évaluer un système d’identification automatique du locuteur en criminalistique, en utilisant le modèle GMM (Gaussian Mixture Model), adapté au dialecte Algérien. Ce système est basé principalement sur l’approche bayesienne. Cette approche nécessite la création de plusieurs bases de données pour permettre l’estimation et l’évaluation des modèles statistiques des locuteurs. Pour atteindre cet objectif, une base de données de 40 locuteurs a été construite au sein du CDTA (Centre de Développement des Technologies Avancées) et en coopération avec la société espagnole Agnitio, qui est un leader dans la ‘Speech Technology’ et principalement dans la reconnaissance automatique du locuteur. Cette base de données a été utilisée pour construire un 1
Introduction générale
modèle UBM (Universal Backgroud Model), qui est très intéressant pour la bonne estimation des modèles statistiques des locuteurs Algériens.
2. L’organisation du mémoire
Ce mémoire se compose de sept chapitres, organisés comme suit : • Le Chapitre 1 présente des généralités sur l’identification du locuteur en criminalistique.
• Le Chapitre 2 contient une présentation des différents systèmes de reconnaissance automatique du locuteur. Une comparaison entre les systèmes de vérification et d’identification du locuteur d’une part et le système d’identification forensique du locuteur d’une autre part, a été aussi présentée.
• Le Chapitre 3 décrit en détails l’approche Bayesienne utilisée dans les systèmes d’identification de n’import qu’elle discipline forensique.
• Dans le Chapitre 4, nous avons mentionné un ensemble de paramètres acoustiques utilisés dans les systèmes RAL.
• Le Chapitre 5 présente le modèle statistique le plus utilisé dans les systèmes de reconnaissance automatique du locuteur en mode indépendant du texte, à savoir, le modèle GMM (Gaussian Mixture Model).
• Le Chapitre 6 contient l’ensemble des tests effectués et les résultats que nous avons obtenus.
• Le dernier chapitre conclue ce travail et met l’accent sur quelques problèmes qui peuvent être traités par des futurs travaux.
2
Inférence d’identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien
Partie I : La reconaissance automatique du locuteur en criminalistique
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
Généralités sur l’identification du locuteur en criminalistique La science forensique est l’utilisation des outils scientifiques pour répondre aux besoins d’un tribunal pour un crime ou un litige civil [wiki]. Les principaux domaines utilisés dans la science forensique sont : la biologie, la chimie, et la médecine. Malgré la dominance de ces dernières, il est a mentionné qu’il existe d’autres disciplines utilisées telles que : la physique, l’informatique, la géologie, et la psychologie [answers]. Par exemple, les paramètres biométriques traditionnels, tels que l’ADN et l’empreinte digitale, sont souvent utilisés dans plusieurs cas forensiques. La nature de preuve, trouvée dans la scène du crime ou collectée à partir d’opérations d’investigation, impose les méthodes ou les disciplines scientifiques nécessaires pour faire son étude. Dans ce mémoire, nous nous intéressons aux méthodes d’identification d’un enregistrement vocale. L’analyse de la voix est utilisée, pour la première fois, durant la deuxième guère mondiale pour des buts d’espionnage militaire. Son utilisation pour des investigations forensique remonte aux années 60s, elle repose sur le fait que chaque personne peut être identifiée à partir d’un échantillon de sa voix. Un suspect peut laisser des enregistrements de sa voix sur le téléphone, le VoiceMail, un répondeur ou dans un enregistreur caché, et par la suite, il peut être utilisé comme preuve [enotes]. Un système forensique
-3-
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
d’identification du locuteur est basé, principalement, sur un système de reconnaissance du locuteur, avec la prise en compte de certaines conditions et contraintes qui dépendent de la nature de cette application. Les approches les plus utilisées dans la reconnaissance du locuteur sont l’approche auditive, l’approche auditive‐instrumentale et l’approche automatique.
L’approche auditive est basée principalement sur l’écoute d’un enregistrement audio par des phonéticiens expérimentés. Les différences perçues dans les paroles sont utilisées pour estimer la mesure de similarité entre les voix. Bien que cette approche ne soit pas adéquate pour la reconnaissance du locuteur, elle est très utile pour déterminer son profil. En plus de ces différences, les locuteurs se différent entre eux par leurs rythme de paroles, par leurs intonations, et par leurs articulations.
L’approche auditive a plusieurs limites. Dans l’analyse phonétique traditionnelle, elle est utilisée pour extraire quelques paramètres d’intérêt qui sont par la suite utilisés par l’approche auditive‐instrumentale [ANIL, 05].
L’approche auditive‐instrumentale implique le mesurage acoustique de plusieurs paramètres tels que : La fréquence fondamentale, le taux d’articulation, l’énergie spectrale, les formants, etc. Les moyennes et les variances de ces paramètres sont comparées pour faire l’identification d’un locuteur. L’utilisation des spectrogrammes, pour la reconnaissance du locuteur, peut être considérée comme une autre méthode de cette approche [Bolt et al, 73] [ANIL, 05].
Le développement fulgurant de l’informatique a donné une grande contribution à la reconnaissance automatique du locuteur et a permit de faire des traitements très complexes. En effet, la grande capacité de calcul des ordinateurs a contribué à l’apparition de ce type de systèmes. Dans un système de reconnaissance automatique du locuteur, les modèles statistiques des paramètres acoustiques de la voix du locuteur sont comparés avec les paramètres acoustiques extraits de l’enregistrement audio en question.
-4-
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
Le degré de similarité entre les paramètres acoustiques extraits de l’enregistrement en question (ou la trace), et ceux extrait d’un enregistrement du suspect, représenté par son modèle statistique, est calculé pour évaluer la preuve [Dryg et al, 03]. Dans les systèmes forensiques de reconnaissance automatique du locuteur, la puissance d’une telle preuve est donnée par la probabilité d’observer les paramètres de la trace dans le modèle statistique de la voix du locuteur suspect et dans les modèles des voix d’une population potentielle [ANIL, 05].
Les systèmes de reconnaissance automatique du locuteur ont connu un grand succès durant ces dernières années. Cela est dû aux types des paramètres acoustiques utilisés qui donnent une présentation meilleure et plus complète du conduit vocal par rapport aux paramètres traditionnels. Malheureusement, l’utilisation d’un tel système dans le domaine forensique reste très limitée.
Ce déphasage peut être expliqué par le fait, de la difficulté d’expliquer au jury la signification des paramètres acoustiques, par exemple : les coefficients cepstraux, d’une part, et par le manque d’une interprétation qui relie ces coefficients (coefficients cepstraux) aux propriétés linguistiques, auditives, ou articulatoires des voix traitées, d’une autre part [Rose, 02].
1.1 L’identification forensique du locuteur
L’identification ou la reconnaissance forensique (criminalistique) du locuteur est une tâche très complexe et nécessite la compréhension de plusieurs disciplines scientifiques y compris, les linguistiques, l’acoustique, le traitement de signal et les statistiques. Avec le développement fulgurant de la téléphonie et l’utilisation de la voix humaine pour commettre des crimes, l’identification des personnes par leur voix est devenue un domaine populaire et objet d’étude de plusieurs centres de recherche dans le monde. D’après [ROSE, 02], la définition de l’identification forensique d’un locuteur est comme suit :
-5-
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
« C’est l’avis des experts dans un processus légal pour répondre à la question suivante : est‐ce que un ou plusieurs enregistrements vocaux sont générés par le même locuteur ou non ?»
Il existe plusieurs techniques utilisées dans le domaine de la reconnaissance forensique du locuteur. Dans ce que suit, nous présentons ces différentes techniques.
1.2 Les techniques utilisées dans l’identification forensique du locuteur
Dans les dernières années, plusieurs études ont été faites sur l’évolution historique de l’identification forensique du locuteur. Plusieurs auteurs ont publié des livres qui couvrent quelques techniques utilisées par des phonéticiens, des linguistes et des experts de la voix. Les techniques utilisées dans l’identification forensique du locuteur peuvent être résumées en trois classes : 1) l’identification auditive, 2) l’identification par la visualisation des spectrogrammes, et 3) l’identification automatique du locuteur. Dans ce qui suit, nous donnons une brève description à chaque technique.
1.2.1 L’identification auditive du locuteur
L’identification auditive est faite par l’écoute d’un ou de plusieurs enregistrements vocaux afin de pouvoir identifier la source de ces voix. Dans cette technique, trois résultats sont possibles :
•
L’auditeur n’est pas familiarisé avec la voix traitée, dans ce cas la source de la voix est inconnue.
•
La voix est reconnue par l’auditeur, mais ce dernier, ne peut pas l’associée à un locuteur.
•
La voix est reconnue par l’auditeur qui l’associée à un locuteur.
-6-
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
L’application de cette technique dans le domaine forensique est faite selon deux variantes, la reconnaissance naïve et la reconnaissance technique. L’identification naïve est faite par des personnes non expertes, sans l’utilisation d’aucune technique. Dans le cas usuel, cette tâche est faite par des victimes ou par des témoins. Bien que ce type de reconnaissance puisse être d’une valeur significative au tribunal, dans le cas où on ne dispose pas d’un enregistrement vocal, la fiabilité et la performance de cette méthode dépend de plusieurs paramètres, y compris, le temps écoulé depuis que le crime soit commis, la duré dans laquelle la victime a entendu la voix du criminel, etc [NOLA, 97]. En plus, la capacité de reconnaître une personne par sa voix varie largement selon les conditions de l’écoute, le nombre d’expériences, le nombre des voix inconnues, etc.
L’autre variante de l’identification auditive, à savoir, la reconnaissance technique, est faite par des experts phonétiques ou linguistiques. L’analyse de la voix est faite par l’utilisation des méthodes scientifiques qui permet, non seulement, d’expliquer l’avis de l’expert, mais aussi de pouvoir analyser cet avis par d’autres experts. Malgré que l’opinion des experts est acceptée par des tribunaux de plusieurs payés, l’identification forensique du locuteur basée uniquement sur « l’approche auditive » n’est pas acceptée par plusieurs experts dans ce domaine [MEHR, 06].
1.2.2 L’identification
du
locuteur
par
l’inspection
visuelle
des
spectrogrammes
Dans cette technique, l’examinateur commence le processus de comparaison en plaçant des pairs de spectrogrammes correspondants à la même phrase et les compare mot par mot. D’après [TOSI, 79], les paramètres les plus utilisés dans ce type de comparaison sont, les moyennes des fréquences, les pentes des formants, les inter‐ formants, et la densité de la puissance nasale. L’analyse spectrographique a été largement utilisée et acceptée dans les Etats Unies, des payés de l’Europe, et d’autre payés pendant les années 1960s et 1970s. Cependant, cette technique a été abandonnée dans quelques
-7-
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
payés tel que l’Allemagne et les Etats Unies pour plusieurs raisons. Parmi ces raisons, nous pouvons citer : •
La supposition principale dans l’analyse spectrographique est que les variabilités inter‐locuteur d’un modèle spectrographique, pour des mêmes paroles, sont très grandes de celles d’intra‐locuteur. Cette supposition n’était pas évidente après l’analyse spectrographique de plusieurs paroles des mêmes et des différents locuteurs [FREN, 94].
•
Il n’est pas clair de signaler légalement une similarité ou une différence significative entre des spectrogrammes. En plus, la décision dépend principalement des compétences de l’examinateur [KUNZ, 95].
•
L’analyse spectrographique a donnée des performances moins que celles de l’analyse auditive [KUNZ, 95] [NOLA, 83].
Pour ces raisons, plusieurs chercheurs ont pensé que le nom « empreinte vocale » est une appellation impropre en le comparant par « l’empreinte digitale ». La différence la plus significative est la rigidité de l’empreinte digitale par rapport à la flexibilité des échantillons vocaux. De plus, la plus part des chercheurs pensent que l’utilisation de l’analyse spectrographique n’est qu’une transformation d’une comparaison auditive en une comparaison visuelle.
En résumé, l’interprétation des spectrogrammes n’est pas une technique adéquate pour un système d’identification forensique du locuteur [MEHR, 06].
1.2.3 L’identification automatique du locuteur en criminalistique
Deux méthodes ont été utilisées pour faire une identification automatique du locuteur en criminalistique, la première est basée sur une approche bayesienne, tandis que la deuxième est basée sur l’utilisation d’intervalle de confiance. Dans la section suivante, nous donnons une brève description des deux approches.
-8-
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
Fig‐1.1 : Exemple d’un spectrogramme.
• L’identification forensique du locuteur par l’approche Bayesienne
Le théorème de Bayes est parmi les facteurs les plus importants dans l’évolution historique des systèmes d’identification forensique du locuteur. L’utilisation des rapports de vraisemblances a aidé les experts à quantifier et interpréter la puissance d’une preuve scientifique dans le domaine forensique. Comme il a été mentionné par [AITK, 95], dans la science forensique, l’identité de la source d’une preuve ne peut pas être connue avec certitude, et par conséquent, elle doit être inférée ou déduite. Le processus d’inférence dans un contexte forensique, peut être vu comme étant un processus de réduction d’une population initiale à un groupe restreint ou éventuellement à une seule personne [MEUW, 01]. Dans l’approche bayesienne, le rapport de vraisemblance est le rapport entre deux probabilités conditionnelles, sous deux hypothèses concurrentes, d’une même preuve. Les deux hypothèses sont les suivantes [ANIL, 07] :
•
H0 : Le suspect est la source de l’enregistrement vocal.
•
H1 : L’origine de l’enregistrement vocal n’est pas le locuteur suspect. -9-
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
Il est à mentionner que le rapport de vraisemblance n’est pas un test d’une hypothèse sur un ensemble de données, mais plutôt, un moyen de comparaison de deux hypothèses compétitives. Par exemple, si nous avons un rapport de vraisemblance de 10, alors il est dix fois possible d’avoir la preuve sous l’hypothèse H0 que sous l’hypothèse H1 [EVET, 95].
Parmi les raisons pour lesquelles l’approche Bayesienne est adéquate pour l’évaluation et l’interprétation d’une preuve forensique, [ROSE, 02] a cité: •
C’est une théorie logique démontrée et ne contient aucun doute.
•
Elle dirige le tribunal, les jurés et principalement les experts à considérer la
probabilité conditionnelle de la preuve sous deux hypothèses concurrentes [AITK, 95]. •
Elle clarifie et sépare les rôles du juge et des experts forensiques.
•
Elle assiste les experts dans l’évaluation de la valeur d’une preuve scientifique et la présenter sous forme d’une vraisemblance.
•
C’est une très bonne méthode pour combiner des nouvelles preuves.
Pour ces raisons, nous avons choisi cette approche pour être l’objet d’étude de ce mémoire. Elle sera étudiée en détails dans le troisième chapitre.
• L’identification forensique du locuteur par intervalle de confiance
Dans cette technique, une mesure de confiance est calculée pour supporter une des hypothèses H0 ou H1 définies plus haut. Les mesures de confiance sont utilisées pour décider de rejeter ou d’accepter une hypothèse de reconnaissance. La prise de décision s’appuie sur un test du rapport de vraisemblance. Cette technique est développée au sein du FBI (Federal Bureau of Investigation) par Nakazone en 2002 [NAKA, 01].
- 10 -
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
Elle est très semblable à la première méthode car elles sont, toutes les deux, basées sur l’utilisation des rapports de vraisemblances.
Les scores
0.06
0.04 Probabilité
Faux Score Vrai Score Test Score
0.02
0 ‐1
‐0.5
0
0.5
1
1.5
2
Probabilité de mesure de confiance
1
0.8
P(Ht|x)
0.6 0.4
Courbe de confiance Test Score Valeur de confiance
0.2
0 ‐1
‐0.5
0
0.5 GMM Scores
1
Fig‐1.2 : Courbes de mesure de confiance
1.5
2
1.3 L’estimation de la puissance d’une preuve par l’approche Bayesienne
Identifier une personne par l’analyse de sa voix est une tâche très difficile. Cela est dû à la variabilité des caractéristiques vocales, non seulement pour des locuteurs différents, mais aussi pour le locuteur à identifier. Dans la réalité, les caractéristiques vocales d’un locuteur montrent des variations moins importantes pour le même locuteur par apport à une population potentielle, en comparant les mêmes caractéristiques vocales.
Dans les systèmes forensique d’identification automatique du locuteur, le problème principal réside dans la difficulté de trouver une formule de vraisemblance qui prend en - 11 -
Chapitre1
Généralités sur l’identification du locuteur en criminalistique
compte ces variabilités et être facilement explicable à un jury. L’approche Baysienne permet de donner une interprétation d’une preuve. Cette interprétation doit être faite avec une plateforme de circonstances. Pour interpréter une preuve, il faut considérer au moins deux propositions [Evet, 98].
Au lieu de calculer la vraisemblance pour une seule hypothèse (ex : la trace est produite par le locuteur suspect), l’expert doit examiner la vraisemblance de la preuve avec au moins une autre hypothèse (ex : la trace n’est pas produite par le locuteur suspect). Le rapport des vraisemblances entre ces hypothèses peut être vu comme étant un rapport de similarité de la trace entre le locuteur suspect et une population potentielle [ANIL, 05]. Dans les chapitres suivants, nous étudierons en détails cette approche, en donnant ces avantages ainsi que ces limites.
1.4 Conclusion
Dans ce chapitre, nous avons étudié l’identification forensique du locuteur en mentionnant toutes les techniques utilisées actuellement. Plusieurs approches ont été proposées dans ce domaine, mais la technique d’identification automatique semble d’être la plus performante. L’approche Bayesienne, qui est la base théorique de ce type de système, est la clé du succès des systèmes d’identification automatique du locuteur en criminalistique. En effet, la puissance de cette technique réside dans le fait quelle sépare totalement les rôles des juristes et des experts scientifiques dans l’évaluation de la preuve, et permet de quantifier et d’interpréter la puissance de cette preuve.
- 12 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
Etat de l’art sur la reconnaissance automatique du locuteur La reconnaissance automatique du locuteur par leur voix est une tâche très complexe et nécessite la prise en compte de plusieurs paramètres. Le type d’application pour lequel cette reconnaissance est faite, impose l’utilisation des méthodes bien définies pour avoir des résultats significatifs. Il y’a plusieurs types de systèmes de reconnaissance automatique du locuteur. L’objectif principal de ce chapitre est de bien présenter les différents types des systèmes RAL, et la relation existante entre ces types et l’identification forensique du locuteur.
2.1 La reconnaissance automatique du locuteur
La reconnaissance automatique du locuteur est le processus qui identifie automatiquement celui qui parle en se basant sur des informations individuelles incluses dans le signal de paroles. Cette technique permet d’utiliser la voix pour identifier ou contrôler l’accès à certains services tels que l’accès aux réseaux ou sites protégés, contrôle de sécurité [RODR, 02] et en particulier dans les applications judiciaires.
- 13 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
Les systèmes RAL ont pour mission de décoller l'information portée par le signal vocal. On classe également les systèmes RAL comme suit : •
En reconnaissance du locuteur, on fait la différence entre la vérification et l'identification du locuteur, selon que le problème est de vérifier que la voix analysée correspond bien à la personne qui est censée de la produire, ou qu'il s'agit de déterminer qui, parmi un nombre fini et préétabli de locuteurs, a produit le signal analysé. Voir la figure Fig‐2.1 et la figure Fig‐2.2.
•
On sépare reconnaissance du locuteur dépendante du texte, reconnaissance avec texte dicté, et reconnaissance indépendante du texte. Dans le premier cas, la phrase à prononcer est fixée dès la conception du système; elle est fixée lors du test dans le deuxième cas, et n'est pas précisée dans le troisième cas.
Signal D’entrée
Extraction des paramètres
Similitude
Modèle de référence [locuteur #N]
Locuteur ID ( #N)
Décision
Seuil
Résultat de la Verification accept/Reject
Fig‐2.1: Schéma d’un système de vérification du locuteur.
Un système de reconnaissance automatique du locuteur est composé de trois étapes importantes. La première étape est l’extraction des vecteurs acoustiques, qui représentent les données pertinentes à l’apprentissage des systèmes RAL, la deuxième étape est la modélisation des vecteurs acoustiques obtenus dans l’étape précédente et la dernière étape est l’étape de décision. - 14 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
Similitude
Signal D’entrée
Modèle de référence [locuteur #1] Extraction des Sélection du paramètres maximum Résultat de Modèle de L’identification référence [locuteur #N] Similitude Fig‐2.2 : Schéma d’un système d’identification du locuteur.
• • •
2.1.1 La vérification du locuteur
La vérification du locuteur est le processus qui prend la décision d’accepter ou de rejeter l’identité d’un locuteur susceptible d’être la source d’un enregistrement vocal. C’est une tâche de discrimination. La discrimination entre l’enregistrement vocal en question et le locuteur suspect dépend d’un seuil. Une discrimination est interprétée comme une rejection tandis qu’une non‐discrimination est interprétée comme une acceptation.
Le concept d’identité dans ce type de système ne correspond pas à la définition de l’individualisation en science forensique. Si le seuil de décision n’est pas bien choisi, la conclusion d’identification est inadéquate et erronée [DRYG, 00].
- 15 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
Par conséquent, la vérification du locuteur est insuffisante dans le domaine forensique. En effet, elle force les experts scientifiques d’adopter un rôle et de prendre des décisions qui sont incombées par le tribunal [CHAM, 00].
2.1.2 L’identification du locuteur
L’identification du locuteur est le processus de détermination de celui susceptible de produire un enregistrement vocal. C’est une tâche de classification. En criminalistique, la classification ne peut pas être réalisée dans un ensemble fermé de locuteurs (Identification en ensemble fermé). En plus, il n’est pas juste de prendre seulement l’identité du bon candidat, sans fournir la preuve obtenue pour les autres, non nécessairement ceux de l’ensemble fermé d’identification.
Par conséquent, la classification doit être faite dans un ensemble ouvert de locuteurs (Identification en ensemble ouvert), mais une telle plateforme à besoin d’une étape de décision finale, basée sur un seuil, et souffre des mêmes problèmes que ceux de la tâche de vérification [CHAM, 00].
2.1.3 Une comparaison entre l’identification et la vérification automatique du locuteur
Il est clair que les deux systèmes de reconnaissance automatique du locuteur, à savoir, l’identification et la vérification, ont une tâche commune qui est la comparaison d’une voix connue avec une autre non connue pour répondre à la question suivante : est ce que les deux voix sont produites par le même locuteur? Malgré que le but des deux systèmes est le même (trouver la source d’une voix), ces derniers présentent des grandes différences. La distinction la plus importante concerne les propriétés de l’ensemble de référence des locuteurs, elle est faite selon que, premièrement, l’ensemble est fermé ou ouvert, deuxièmement, l’ensemble est connu ou inconnu [ROSE, 00].
- 16 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
a) L’identification à ensemble fermé ou ouvert
Dans les systèmes d’identification du locuteur, l’ensemble de référence des locuteurs peut être de deux types : fermé ou ouvert. Dans un ensemble fermé, on suppose que la voix traitée est produite par l’un des locuteurs de l’ensemble de référence. Par contre, dans un ensemble ouvert, on ne sait pas si le propriétaire de la voix traitée appartient à l’ensemble de référence ou non. Il est très important de faire cette distinction. L’identification à ensemble fermé est plus simple que celle à ensemble ouvert. Comme on sait que la voix provient de l’un des locuteurs de référence, l’identification se fait comme suit :
•
Calculer la distance entre la voix traitée et chaque locuteur de l’ensemble de référence.
•
Choisir le locuteur qui a la distance la plus petite.
Dans l’identification à ensemble ouvert, on ne peut pas dire que le locuteur qui a la distance la plus petite est la source de la voix traitée. On doit avoir un seuil prédéfini d’une façon que le locuteur qui a une distance inférieur au seuil sera considéré comme étant la source de la voix traitée.
Les deux types d’identification définis plus haut peuvent apparaître dans un cas forensique. Bien que le dernier (l’identification à ensemble ouvert) est le plus fréquent car on ne sait pas si la personne coupable est dans l’ensemble des suspects ou non. La distinction entre ces deux types d’identification est très importante dans le cas forensique.
b) L’ensemble connu et l’ensemble inconnu
La distinction entre l’ensemble fermé et l’ensemble ouvert n’a aucun sens dans un système de vérification du locuteur. Dans ce dernier, on suppose que les identités à proclamer appartiennent à l’ensemble de référence des locuteurs. Cependant, il y a une
- 17 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
autre propriété de l’ensemble de référence qui est : connu ou inconnu. Dans la vérification traditionnelle l’ensemble de référence est connu, il peut être les employés d’une entreprise, les clients d’une banque ou en général l’identité de toutes personnes qui doivent être vérifiées de temps en temps. Dans le cas forensique, cette propriété n’est pas vérifiée car la voix traitée appartient à un ensemble inconnu.
c) Nombre de comparaisons
Le nombre de comparaisons faites lors d’une tâche d’identification ou de vérification se diffère selon cette tâche. La vérification du locuteur nécessite une seule comparaison entre l’identité proclamée et la voix traitée. Dans l’identification du locuteur, la comparaison apparaît itérativement entre la voix traitée et chaque locuteur de l’ensemble de référence.
d) Le type de décision
Dans l’identification du locuteur, deux types de décision sont possibles: soit que la voix traitée est bien identifiée, soit qu’elle ne l’est pas. La vérification du locuteur est plus compliquée, car nous avons quatre types de décisions. La décision peut être correcte dans deux cas : l’identité proclamée est bien celle de la voix traité et le locuteur est accepté, ou l’identité proclamée n’est pas celle de la voix traitée et locuteur est rejeté. Elle peut être incorrecte dans deux cas : l’identité proclamée est bien celle de la voix traité et le locuteur est rejeté, ou l’identité proclamée n’est pas celle de la voix traitée et locuteur est accepté.
e) L’évaluation des performances
Pour l’identification du locuteur, une seule figure peut représenter ces performances. D’une manière générale, on trace l’erreur donnée sous forme d’un pourcentage. Par exemple, un système d’identification du locuteur peut avoir un pourcentage d’erreur de 2% sur un corpus d’évaluation.
- 18 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
Pour la vérification du locuteur, le processus est plus compliqué. Pour évaluer les performances d’un système de vérification, nous avons besoin de tracer deux figures. Une figure pour représenter le nombre de fausse acceptation, c.‐à‐d. le nombre de fois où le système accepte des imposteurs. L’autre figure représente le nombre de faux rejets, c.‐à.‐ d. Le nombre de fois où le système rejette des locuteurs qui existent dans l’ensemble de référence [ROSE, 00].
f) La relation entre la taille de l’ensemble de référence et la performance
La tâche d’identification du locuteur nécessite (n+1) comparaisons pour un ensemble de n locuteurs (Pour décider si la voix traitée est produite par l’un de n locuteurs, ou qu’il n’est pas produite par aucun d’eux). Par conséquent, la performance du système d’identification du locuteur se dégrade en augmentant le nombre de locuteurs de l’ensemble de référence. Dans la vérification du locuteur, ce problème ne figure pas car cette tâche nécessite une seule comparaison binaire entre l’identité proclamée et la source vocale. Par conséquent, la performance d’un système de vérification du locuteur est indépendante du nombre de locuteurs qui existent dans l’ensemble de référence.
2.1.4 Les paramètres acoustiques
L’extraction des paramètres acoustiques est une étape très importante dans un système de reconnaissance automatique du locuteur. Le type de paramètres utilisés a un grand effet sur la performance du système. Dans le cas idéal, les paramètres acoustiques utilisés dans un système de reconnaissance automatique du locuteur doivent satisfaire les contraintes suivantes [WOLF, 72] :
•
Ils doivent avoir une faible intra‐variabilité et une forte inter‐variabilité. Si la variation d’un paramètre pour un locuteur est égale ou plus grande de celle du même paramètre pour les autres locuteurs, alors ce paramètre n’est pas utile pour un système de reconnaissance automatique du locuteur. Plus que - 19 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
le rapport entre la variabilité intra‐locuteur et la variabilité inter‐locuteur pour un paramètre acoustique est grand, plus que ce dernier est plus pertinent aux systèmes RAL.
•
Ils Doivent être stable par rapport au temps. La voix d’un individu subit des variations à court terme qui dépendent de son état émotionnel, stress, fatigue, etc. Et des variations à long terme telles que : l’âge, l’état sanitaire, etc. Dans la pratique, il est difficile de trouver des paramètres qui ont une stabilité à court et à long terme.
•
Ils Doivent être difficile a déguisés ou a imités. Un paramètre qui peut être masqué ou changé par un locuteur n’est pas un bon choix pour un système de reconnaissance automatique du locuteur.
•
Ils Doivent être robustes à la transmission et au bruit. C’est une contrainte très importante car le support de transmission ainsi que le bruit de l’environnement d’enregistrement, influent la qualité d’un signal vocal.
•
Ils Doivent être facile à extraire et doivent apparaître fréquemment dans le signal vocal.
Ils existent plusieurs types de paramètres acoustiques utilisés par les systèmes de reconnaissance automatique du locuteur. [ROSE, 00] présente une classification des ces paramètres en quatre classes. Nous avons présenté quelques paramètres acoustiques dans le quatrième chapitre.
2.1.5 La modélisation des paramètres acoustiques
Dans un système de reconnaissance automatique du locuteur, les paramètres acoustiques sont utilisés pour estimer un modèle, qui peut être statistique ou basé sur le calcul d’une distance euclidienne. Un modèle idéal doit satisfaire les contraintes suivantes [BLOU, 02]: - 20 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
•
Il doit nécessiter le plus faible espace de stockage possible.
•
Il doit avoir une méthode d’estimation la moins complexe possible.
•
Il doit permettre une décision rapide lors de la phase de test.
•
Il doit être le plus robuste possible aux variations intra‐locuteur.
•
Il doit permettre la meilleure séparation des locuteurs entres eux.
•
Il doit avoir la représentation la plus complète possible des paramètres acoustiques des locuteurs.
Il existe plusieurs méthodes de modélisation utilisées dans les systèmes de reconnaissance automatique du locuteur. Nous pouvons distinguer deux grandes familles de modèles. La première famille que nous avons considérée correspond aux méthodes basées sur le calcul d’une distance euclidienne entre les vecteurs acoustiques extraits d’un signal de parole et d’autres représentant le locuteur.
La seconde famille correspond aux méthodes basées sur une représentation statistique du locuteur dans l’espace de paramètres acoustique. Notre travail est basé sur ce type de méthode, et plus précisément, sur le modèle de mélange de gaussiennes GMM, qui sera étudié en détails dans le cinquième chapitre. Par la suite, nous présentons quelques méthodes de modélisation qui existe dans la littérature en commençant par :
a) L’alignement temporel dynamique (DTW‐Dynamic Time Warping)
L’alignement temporel dynamique (DTW [CAMB, 97] [ARIY, 99]) est un modèle
basé sur le calcul d’une distance entre deux vecteurs. Principalement, il fait la comparaison d’une séquence de M (X1,…, XM) vecteurs avec une autre séquence de N (X1,…, XN) vecteurs par le calcul de la distance accumulée entre ces deux séquences. Si les deux séquences sont identiques alors le chemin entre eux est diagonal, et par conséquent, la distance qui les sépare est minimale. Cette méthode est utilisée souvent dans les systèmes de reconnaissance automatique du locuteur dépendante de texte. Cependant, dans un cas forensique, elle reste très peu utilisée, bien qu’elle soit utile pour la comparaison des voix qui contiennent les mêmes paroles [ANIL, 07]. - 21 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
b) La quantification vectorielle
La quantification vectorielle partitionne l’espace des vecteurs acoustiques en des partitions non chevauchées tel que, chaque vecteur d’une partition donnée est représenté par le vecteur moyen de cette dernière. La génération du dictionnaire est donnée par la recherche d’un partitionnement qui minimise la distorsion moyenne des données d’apprentissage (les paramètres acoustiques). L’ensemble des clusters obtenus est appelé le dictionnaire des vecteurs, qui représente un seul locuteur [GABR, 95] [SAETA, 00]. Dans les applications qui nécessitent une optimisation de l’espace de stockage, la quantification vectorielle est très utile, car la taille du dictionnaire des vecteurs est très petite. Lors de la phase de test, on fait la comparaison des trames extraites d’un signal vocal avec le dictionnaire des vecteurs. Cette comparaison est faite en calculant la distance qui sépare les trames en entrée avec les centres des partitions. La distance mesure le degré de similarité entre la voix de test et le modèle d’un locuteur. Cependant, cette méthode élimine beaucoup d’information sur les locuteurs et elle nécessite des paroles très longues pour avoir des informations statistiques stables.
Fig‐2.3 : La quantification vectorielle [data]. - 22 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
c) Le model de Markov caché (HMM‐ Hiden Markov Model) Un modèle de Markov caché (MMC) ‐‐ en anglais Hidden Markov Models (HMM) (ou plus correctement, mais moins employé automate de Markov à états cachés) est un modèle statistique dans lequel le système modélisé est supposé être un processus Markovien de paramètres inconnus. Les modèles de Markov cachés sont massivement utilisés notamment en reconnaissance de formes, en intelligence artificielle ou encore en traitement automatique du langage naturel. Les modèles de Markov cachés résultent de l’association d’un ensemble de fonctions de densités de probabilité (ou distribution de probabilité) et d’une chaîne de Markov [RABI, 93]. Les fonctions de densités de probabilité donnent les probabilités sur l’ensemble des observations acoustiques et la chaîne de Markov sert de support aux distributions. Un modèle de Markov peut être défini par un automate probabiliste d’états finis [JOUV, 88].
Fig‐2.4 : Un modèle de Markov caché [wiki].
Le modèle de Markov caché est très utile pour la reconnaissance de la parole. Il est aussi utile pour les systèmes de reconnaissance automatique du locuteur dépendante de texte. Cependant, due à la complexité de son apprentissage, d’autres méthodes ont été utilisées et qui ont donné de meilleurs résultats, en particulier, dans les systèmes de reconnaissance automatique du locuteur indépendante du texte.
- 23 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
d) Les réseaux de neurones
Un réseau de neurones (ou Artificial Neural Network en anglais) [BENN, 95] [KLEV, 97] [BIMB, 04], est un modèle de calcul dont la conception est très schématiquement inspirée du fonctionnement de vrais neurones (humains ou non). Les réseaux de neurones sont généralement optimisés par des méthodes d’apprentissage de type statistique. Ils sont classés d’une part dans la famille des applications statistiques, et d’autre part dans la famille des méthodes de l’intelligence artificielle .
Le perceptron multicouche (Multilayer perceptron‐ MLP) est un réseau de neurone très utilisé qui est composé d’une couche en entrée, une ou plusieurs couches cachées et une couche en sortie. Le MLP peut être construit pour estimer les probabilités postérieures des différentes classes. Le MLP calcul la probabilité P(qk|xn) pour que le vecteur xn appartient à la classe qk. Pour un groupe de N locuteurs, un système de reconnaissance automatique du locuteur basé sur un MLP peut être construit comme suit : à l’entrée du MLP, nous avons les vecteurs acoustiques du locuteur i, et à la sortie nous avons un vecteur de taille N dont le i iéme élément est étiqueté par 1, et tous les autres éléments sont étiquetés par 0 [ANIL, 07].
Fig‐2.5 : Exemple d’un réseau de neurone à deux entrées et une sortie [wiki].
Le modèle MLP nécessite la connaissance des probabilités préalables, à savoir,
P(qk) et P(xk), pour estimer P(qk|xn) qui n’est pas toujours possible dans un cas forensique. - 24 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
e) Le modèle de mélanges de gaussiennes (Gaussians Mixture Model‐ GMM)
C’est le modèle le plus utilisé dans la reconnaissance automatique du locuteur
indépendante du texte. Il a été objet de plusieurs études et a montré de très bonne performance sur plusieurs types de systèmes RAL [REYN, 94] [REYN, 95] [DING, 02].
Dans ce type de modèle, on considère que les vecteurs acoustiques d’un locuteur
suivent une densité de probabilité multidimensionnelle composée de plusieurs densités gaussiennes. La somme pondérée de ces densités gaussiennes représente le modèle d’un locuteur. Notre travail est basé principalement sur l’utilisation de ce modèle pour l’étude d’un système forensique de reconnaissance automatique du locuteur. L’avantage de ce type de modèle se récapitule dans ce qui suit :
•
L’utilisation
d’un
mélange
de
plusieurs
densités
gaussiennes
multidimensionnelles a permet de donner une très bonne représentation des vecteurs acoustiques. Il est à noter que les vecteurs acoustiques suivent des densités de probabilité très complexes. La connaissance de la forme multidimensionnelle d’une densité gaussienne a simplifié beaucoup l’apprentissage de ce type de modèle.
•
L’utilisation du modèle GMM permet d’estimer fidèlement des densités de probabilités aléatoires telles que celle des vecteurs acoustiques.
•
Le temps d’apprentissage et relativement petit par rapport à d’autre modèle tel que le modèle HMM.
Nous avons consacré tout un chapitre pour étudier en détails ce modèle et présenté toutes les étapes qui le composent.
- 25 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
Fig‐2.6 : Exemple d’un mélange de gaussiennes monodimensionnelle [wiki].
2.2 Une comparaison entre l’identification forensique du locuteur et la reconnaissance automatique du locuteur
La relation entre l’identification forensique du locuteur et les deux tâches de la reconnaissance automatique du locuteur, à savoir, l’identification et la vérification du locuteur, a été étudiée par plusieurs chercheurs [NOLA, 83][KUNZ, 94][BROE, 95]. Le point commun entre l’identification forensique du locuteur, d’une part, et l’identification ou la vérification du locuteur, d’une autre part, est la comparaison d’un ensemble d’échantillons vocaux connu avec un autre ensemble inconnu pour savoir s’ils sont produit par un même locuteur ou non [ROSE, 02].
Souvent, on pense que le processus d’identification ou de vérification du locuteur correspond à celui de l’identification forensique. Par exemple, si on dispose d’un
- 26 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
enregistrement vocal et un ensemble de suspects, on peut faire une identification du locuteur en supposant que l’un des suspects est la source de la voix traitée, qui en général, peu probable. Dans la réalité, on ne sait pas si la source de l’enregistrement en question est dans l’ensemble des suspects.
En parallèle, on peut aussi faire confondre l’identification forensique avec la vérification du locuteur. Par exemple, quand la police proclame que l’enregistrement vocal vient d’un seul suspect. En effet, on peut dire que le processus de comparaison des paramètres acoustiques dans l’identification forensique du locuteur et le même que la vérification. Alors pour quoi dit on identification et non pas vérification ? Cela d’après [NOLA, 83] est due à des raisons indirectes, par exemple, la non coopération du suspect, la possibilité déguisement est aussi fortement probable dans un cas forensique.
Malgré que l’identification forensique du locuteur d’une part et l’identification et la vérification de locuteur d’une autre part, ont un grand point en commun qui les rassemblent, à savoir, la comparaison d’une voix inconnue avec une autre connue pour trouver sa source, ils existent plusieurs différences entre ces deux types d’applications qui seront présentées par la suite.
a) L’ensemble de référence
La différence majeure entre l’identification ou la vérification automatique du locuteur et l’identification forensique du locuteur est que « dans la vérification et l’identification l’ensemble des locuteurs de référence est connu, et par conséquent, leurs propriétés acoustiques est aussi connus » [ROSE, 02]. Nous avons mentionné plus haut que pour faire la discrimination entre des échantillons d’un même locuteur et ceux des autres locuteurs, nous avons besoin d’un seuil (Identification en ensemble fermé, et la vérification). Comme nous avons une idée sur l’ensemble de référence des locuteurs, nous pouvons facilement estimer le seuil le plus optimal, et aussi le mettre à jour pour minimiser les changements à long et à court termes.
- 27 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
Dans le cas forensique, cela n’est pas toujours évident car on ne sait pas l’ensemble de référence des locuteurs ou des suspects. La construction de cet ensemble dépend des circonstances du crime. Par exemple, si l’hypothèse de la défense du suspect est que la voix en question n’est pas de la personne accusée mais d’une autre avec une voix similaire alors, l’ensemble de référence doit contenir tous les locuteurs avec une voix similaire à celle de l’accusé.
b) L’approche Bayesienne
L’autre grande différence entre l’identification forensique du locuteur d’une part et l’identification et la vérification du locuteur d’une autre part, résulte de l’impératif de l’approche Bayesienne en science forensique. L’identification et la vérification du locuteur visent une réponse catégorique à l’hypothèse qui suppose que le suspect est la source de la voix traitée. Dans le cas forensique, le but est de donner un rapport de vraisemblance entre deux hypothèses complémentaires. Deux points importants sont à mentionner [ROSE, 02] : •
La catégorisation. L’identification et la vérification du locuteur nécessitent une décision catégorique à la question suivante : les échantillons en question et ceux de références sont ils du même locuteur ou non? Une telle réponse peut être problématique dans l’identification forensique, pour les raisons illustrées dans l’identification en ensemble fermé et dans l’identification en ensemble ouvert. Rappelons que la comparaison en ensemble fermé est là où on sait que la source de la voix traitée est dans l’ensemble de référence. En d’autre terme, l’un des suspects est la source de l’enregistrement en question. Par exemple, supposant qu’on a une voix Q à identifier qui peut être de l’un des deux suspects S1 et S2. La comparaison est faite par rapport au paramètre P1. La différence en P1 entre Q et S1 est plus petite que celle entre Q et S2, et par conséquent, dans une identification en ensemble fermé, cela veut dire que S1 est la source de la voix traitée. Par contre, dans
- 28 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
l’approche Bayesienne le rapport de vraisemblance est le suivant :
La probabilite d ' observer P1 dans Q sup posant le locuteur est S1 . Si la La probabilite d ' observer P1 dans Q sup posant le locuteur n' est pas S1 probabilité d’observer le paramètre P1 dans Q sachant S1 est 0.75, et la probabilité d’observer le paramètre P1 dans Q sachant S2 est 0.42, alors le rapport de vraisemblance pour P1 est 0.75/0.42 = 1.8. Donc, il est 1.8 fois plus probable d’observer les valeurs de P1 si le locuteur est S1 que S2.
•
Le seuil. Comme nous l’avons déjà mentionné, pour prendre une décision dans l’identification et la vérification du locuteur, nous avons besoin d’un seuil. Cela n’est pas le cas dans l’identification forensique du locuteur. Dans le cas forensique, nous avons une probabilité de coïncidence entre la voix en question et l’un des locuteurs de référence, qui est (la probabilité) toujours supérieur à zéro. Par conséquent, nous ne pouvons pas conclure qu’un suspect est identifié ou vérifié.
c) Contrôle des échantillons
Une autre différence entre l’identification/la vérification du locuteur et l’identification forensique du locuteur est le degré de contrôle qui peut être exercé sur les échantillons à comparer. Un niveau de contrôle élevé va permettre un niveau de comparaison élevé, qui conduit à une reconnaissance efficace. Par exemple, dans la vérification du locuteur, il y a un contrôle total sur l’ensemble de référence qui est stocké et utilisé comme modèle dans le système de vérification. De plus, nous avons aussi un degré de contrôle très élevé lors de la phase de test car les locuteurs veulent qu’ils soient identifiés correctement.
Dans l’identification forensique du locuteur, un très petit contrôle est possible sur les échantillons en question. Ces derniers peuvent être un appel téléphonique, un enregistrement vocal lors d’un vol armé, ou un déguisement de voix. Le manque de
- 29 -
Chapitre 2
Etat de l’art sur la reconnaissance automatique du locuteur
contrôle pose plusieurs difficultés lors de la phase d’identification, et par conséquent, influent énormément la performance de ce type de systèmes.
2.3 Conclusion
Dans ce chapitre, nous avons présenté les différents types des systèmes de reconnaissance automatique du locuteur, à savoir, l’identification et la vérification automatique du locuteur. En criminalistique, identifier une personne par sa voix est une tâche très importante. En exploitant les avantages des systèmes RAL, nous pouvons concevoir des systèmes d’identification forensique du locuteur très performant. Dans les chapitres suivants, nous étudierons les différents modules qui composent un système forensique d’identification du locuteur en commençant par la présentation de l’approche bayesienne.
- 30 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
L’interprétation
Bayesienne
d’une
preuve scientifique Les approches les plus utilisées pour interpréter une preuve scientifique sont l’approche Bayesienne et l’approche Frequentist [ANIL, 05]. La différence principale entre ces deux approches est que l’approche Bayesienne étudie la probabilité des hypothèses tandis que l’approche Frequentist étudie la probabilité des données. L’exemple suivant montre cette différence, pour calculer la probabilité qu’elle pleuvra le lendemain, dans l’approche Bayesienne, cette probabilité est calculée en tenant compte d’autres informations telles que les données météorologiques, la couleur du ciel, etc. Par contre, l’approche Frequentist s’intéresse seulement à la proportion des jours dont lesquels il a plu durant les dernières années dans cette période d’étude [ANIL, 05].
Dans l’approche Frequentist, une référence statistique, basée sur le test d’une seule hypothèse, est utilisée. Cette hypothèse est définie comme suit : « l’échantillon appartient à un certain ensemble de données », et elle est comparée à une hypothèse nulle qui suppose que les données sont apparues par chance. L’interprétation d’une preuve par l’approche Frequentist est faite en trois étapes [ANIL, 05]:
- 31 -
Chapitre 3
•
L’interprétation Bayesienne d’une preuve forensique
Calculer la différence entre les deux échantillons. Si la différence n’est pas significative (à un certain niveau de signification arbitraire), alors on décide que les deux échantillons son semblable.
•
Si les deux échantillons sont similaires, alors on calcule la probabilité d’avoir cette similarité par chance. i.e. qu’elle est la probabilité d’avoir le résultat qui suppose que les deux échantillons sont de la même source, si on les (les deux échantillons) choisit aléatoirement d’une population donnée.
•
La formulation et l’expression de la conclusion qui dit si les deux échantillons sont de la même source ou non. Dans cette étape, on utilise un seuil pour évaluer la puissance de la preuve.
Le problème majeur de l’approche Frequentist est que les experts forensiques doivent estimer les probabilités préalables qui sont souvent données par convention. Autres problèmes tels que : le critère de similarité (comment déterminer le critère de similarité), la surévaluation d’une preuve (seulement par ce que un échantillon a satisfait un test significatif, la probabilité d’obtenir cette valeur est supposé égale 1), et plusieurs d’autres problèmes qui sont présentés en détails par [ANIL, 05].
L’approche bayesienne (Likelihood‐Ratio, LR) a été établie comme une base théorique de n’importe qu’elle discipline forensique [EVET, 98] [CHAMP, 00] [AITK, 00]. Par exemple, il y’a huit groupes de travail (DNA, Fibres, Empreinte digitale, Arme à feu, Ecriture, Peinture et verre, Voix..) dans l’ENFSI (European Network of Forensic Science Institutes) qui s’occupent de l’individualisation de la source d’une preuve scientifique. Tous ces groupes ont étudié, ou sont en train d’étudier l’approche bayesienne pour avoir des solutions et des procédures communes [MEUW, 01]. Dans ce petit chapitre, nous avons étudié en détails l’approche bayesienne en présentant la procédure générale utilisée pour évaluer une preuve scientifique. - 32 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
3.1 L’approche Bayesienne
Dans l’approche Bayesienne, l’interprétation d’une preuve scientifique doit être faite en considérant au moins deux hypothèses concurrentes [EVET, 98]. Au lieu de considérer une seule hypothèse, « l’échantillon en question vient du personne suspect », l’expert forensique doit considérer la probabilité d’avoir la preuve en donnant au moins une autre hypothèse compétitive, par exemple, « l’échantillon en question vient d’une autre personne », et par la suite, évaluer la puissance de cette preuve sous ces deux hypothèses. Le théorème de Bayes montre comment combiner des nouvelles données avec des connaissances préalables pour donner des probabilités postérieures à des problèmes juridiques.
Dans ce cadre bayesien, les rôles des experts et des juges sont clairement séparés, car le tribunal veut savoir la probabilité de la proposition (C), (« le suspect à commis le crime»), en donnant les circonstances du cas (I) et les observations faite par les experts (E) [GONZ, 05]. Cette probabilité est donnée par la formule suivante :
O(C E, I) =
Pr (E C , I)
( ).O(C I) (3.1)
Pr E C , I
Exprimée en mots, la probabilité postérieure = le rapport de la vraisemblance * la probabilité préalable, où la probabilité préalable concerne le tribunal (des informations relatives au cas) et le rapport de vraisemblance est donné par les experts forensiques. Le rapport de vraisemblance mesure la puissance d’une preuve scientifique sous une hypothèse donnée. Par exemple, supposons que nous avons les valeurs suivantes:
( )
Pr (E C ,I) = 0.8 , Pr E C ,I = 0.1 donc LR = 0.8/0.1 = 8, alors il est huit fois plus probable
d’avoir la preuve sous l’hypothèse C que sous l’hypothèse C .
- 33 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
3.1.1 Les avantages de l’approche Bayesienne
Dans cette section, nous avons présenté, en détails, les principaux avantages de l’approche Bayesienne. Parmi ces avantages nous avons [ROSE, 00] :
a) Théoriquement Confirmée
L’approche Bayesienne a plusieurs avantages, par exemple, son applicabilité à plusieurs problèmes d’inférence, sa cohérence mathématique, et le plus important est qu’elle fonctionne dans plusieurs cas pratiques. Il a été montré que dans la plupart des cas, le LR (Likelihood Ratio) est supérieur à 1 si les données sont de la même source et il est inférieur à 1 dans le cas contraire. Cette supposition est valide pour plusieurs domaines d’identification forensique tels que l’ADN, le verre, et même pour l’identification du locuteur.
b) La combinaison de preuves
Un autre facteur très important de cette approche est qu’elle rend la combinaison de preuves de différentes sources plus simple. Par conséquent, si deux échantillons de voix sont comparés en respectant deux paramètres acoustiques différents, et on a trouvé qu’ils différent significativement dans un paramètre mais pas dans l’autre, alors ce n’est pas évident d’interpréter ce résultat. Par contre, l’approche Bayesienne permet de combiner la preuve à partir de plusieurs sources en multipliant leurs rapports de vraisemblance LRs.
3.1.2 Les inconvénients de l’approche Bayesienne
Sans doute, la source des critiques de l’approche bayesienne vient de la notion de probabilité préalable qui est par nature indéterminée. L’autre objection concerne la complexité de cette approche mathématiquement et logiquement. Ces inconvénients sont brièvement présentés.
- 34 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
a) L’indétermination des probabilités préalables
Dans l’approche Bayesienne, l’estimation des probabilités préalables est très nécessaire pour déterminer la probabilité d’une hypothèse. Dans la plus part des cas réels, les probabilités préalables ne sont pas connues. Par conséquent, en faisant plusieurs investigations différentes, on peut avoir plusieurs estimations des ces probabilités, et par la suite, les probabilités postérieures peuvent être aussi différentes. Cependant, les experts forensiques ne sont pas concernés par l’estimation des probabilités préalables, ils s’intéressent de plus par le calcul du rapport de vraisemblance. Il est aussi à noter que la plus part des publications, qui utilisent l’approche Bayesienne pour comparer des échantillons de données, utilisent simplement le rapport de vraisemblance LR sans aucune probabilité préalable [ROSE, 02].
b) La complexité
Un autre critique rencontré très souvent concerne la complexité mathématique et logique de l’inférence Bayesienne qui rend son explication au tribunal très difficile. Cependant, dans le cas réel, le tribunal n’a pas vraiment besoin de comprendre la théorie mathématique de cette approche, c’est pour cela qu’on a besoin des experts forensiques. De plus, la logique derrière cette approche n’est pas toujours difficile à comprendre, sur tout, dans le cas où la formulation des résultats est, par exemple, sous la forme suivante : « Il est dix fois plus probable d’avoir cette preuve sous l’hypothèse H0 que sous l’hypothèse H1 ».
3.2 L’approche
Bayesienne
appliquée
aux
systèmes
d’identification forensique du locuteur
La structure principale du calcul de la preuve ainsi que son emplacement dans le processus général de Reconnaissance/Interprétation est illustrée par la figure Fig‐3.1.
- 35 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
Dans le cas d’un enregistrement vocal, la preuve n’est pas dans les paroles enregistrées mais dans le degré de similarité entre les paramètres extraits de la trace et ceux extraits d’un enregistrement vocal du locuteur suspect, représentés par son modèle statistique. Les paramètres du locuteur suspect sont représentés par un modèle de mélange de gaussiennes (Gaussian Mixture Model, GMM).
Le processus de calcul du rapport de vraisemblance se compose de deux phases. La première phase consiste à modéliser plusieurs paramètres acoustiques en utilisant le modèle GMM. La deuxième phase transforme les données en une projection univariable basée sur la modélisation des scores de similarité. Le model GMM n’est pas utilisé seulement pour calculer la preuve en comparant la trace avec le GMM du locuteur suspect, mais aussi utilisé pour produire les données nécessaires pour modéliser la variabilité intra‐locuteur du locuteur suspect et la variabilité inter‐locuteurs de la population potentielle des locuteurs qui peuvent produire l’enregistrement en question [ANDR, 00]. L’interprétation de la preuve consiste à calculer le rapport de vraisemblance
en utilisant les densités de probabilités des variabilités et la valeur numérique de la preuve.
3.2.1 Les bases de données
Les informations fournies par l’analyse d’une trace mènent à spécifier une population de référence initiale. Cette population contient les locuteurs les plus similaires à celui qui a produit l’enregistrement en question. En intégrant les investigations de la police, on peut se baser sur un locuteur de cette population, qui est le locuteur suspect. La méthode présentée précédemment nécessite trois bases de données pour le calcul et l’interprétation de la preuve : la base de données de la population potentielle (P), la base de données de référence du locuteur suspect (R) et la base de données de contrôle du locuteur suspect (C).
- 36 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
La base de données de la population potentielle (P) permet d’évaluer la variabilité inter‐locuteurs en utilisant la trace vocale. Cela veut dire, le calcul de la distribution des scores de similarité par la comparaison de la trace avec les modèles des locuteurs (GMMs) de la base de données de la population potentielle.
La base de données de référence du locuteur suspect (R) est enregistrée avec le
locuteur suspect pour modéliser ces paramètres acoustiques par un modèle de mélange de gaussiennes GMM. Dans ce cas, les paroles sont produites de la même façon que celles de la base de données (P). En suite, le modèle GMM obtenu est utilisé pour calculer la valeur de la preuve en comparant la trace par rapport à ce modèle. La base de données de contrôle du locuteur suspect (C) est enregistrée avec le locuteur suspect pour évaluer la variabilité intra‐locuteur. Le contenu de la base (C) doit être équivalent à la trace en termes de quantité et de type de paroles.
3.2.2 L’évaluation d’un système biométrique en science forensique
Pour évaluer les performances des systèmes qui donnent leurs résultats sous formes de valeurs LR, on doit faire plusieurs expériences. Les résultats de ses expériences seront représentés sous forme d’un graphe, nommé, Tippet polt. Ce genre de représentation est utilisé dans toutes les disciplines forensiques. Ce graphe représente la proportion des cas où la valeur de LR est supérieure à x. On trace deux courbes, une pour l’hypothèse « le model appartient au suspect» dont laquelle le système donne des valeurs élevées de LR (LR>>1), et l’autre pour l’hypothèse « le model n’appartient pas au suspect» dont laquelle le système donne des petites LR (LR<<1). A toutes valeurs de x, chaque courbe montre la proportion des cas où LR est supérieure à x. Donc, plus la séparation entre les courbes est importante, plus la puissance de discrimination est élevée et la performance du système est bonne [GONZ, 05].
- 37 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
Le rapport de vraisemblance (LR)
Numérateur du rapport de vraisemblance
Dénominateur du rapport de vraisemblance
Modélisation de la variabilité inter‐locuteurs
Modélisation de la variabilité intra‐locuteurs
Modélisation de la variabilité inter‐locuteurs
Modélisation de la variabilité intra‐locuteurs Preuve (E)
Les scores de similarité Analyse comparative
Paramètres
Extraction des paramètres
La base de contrôle du locuteur soupçonné
Les scores de similarité Analyse comparative
Analyse comparative
Le model du locuteur soupçonné
Paramètres
Les models des locuteurs potentiels
Extraction des parameters et modélisation
Extraction des paramètres
Extraction des parameters et modélisation
La base de référence du locuteur soupçonné
Trace
La base de la population potentielle
Fig‐3.1 : Le processus général de calcul et d’interprétation de la preuve [ANDR, 00].
- 38 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
Fig‐3.2 : Exemple d’un graphique de type TipetPlot.
3.2.3 L’échelle verbale du rapport de vraisemblance
Le rapport de vraisemblance LR estime la puissance d’une preuve par une valeur numérique. Cette valeur numérique n’est pas facilement interprétable par le tribunal, par conséquent, une échelle verbale a été proposée pour remédier à ce problème. Par exemple, une valeur LR=8 peut être transformée verbalement comme suit : « Une preuve limité de l’hypothèse en question ». Le tableau Tab 3.1 illustre les différentes interprétations.
3.2.4 Les méthodes d’estimation de la preuve
Dans les systèmes de reconnaissance automatique du locuteur, les vecteurs acoustiques, qui représentent l’identité d’un locuteur, sont modélisés en utilisant des méthodes statistiques. Par la suite, on utilise ce modèle pour estimer la vraisemblance d’observer ces vecteurs acoustiques. L’estimation du rapport de vraisemblance peut être faite dans deux niveaux différents. Au niveau des vecteurs acoustiques tels que MFCC et
- 39 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
LPCC, ou au niveau des scores de chaque hypothèses. La première méthode est appelée la
méthode directe et la deuxième est appelée la méthode des scores. Dans ce qui suit, nous donnerons une petite description de chacune de ces méthodes.
Rapport de vraisemblance
Description verbale équivalente
>10 000
Preuve très puissante pour l’hypothèse…
1000 à 10 000
Preuve puissante pour l’hypothèse…
100 à 1000
Preuve moyennement puissante pour l’hypothèse…
10 à 100
Preuve modérée pour l’hypothèse…
1 à 10
Preuve limitée pour l’hypothèse…
1 à 0.1
Preuve limitée contre l’hypothèse…
0.1 à 0.01
Preuve modérée contre l’hypothèse…
00.1 à 0.001
Preuve moyennement puissante contre l’hypothèse…
0.001 à 0.0001
Preuve puissante contre l’hypothèse…
<0.0001
Preuve très puissante contre l’hypothèse…
Tab‐3.1 : Quelques descriptions verbales du rapport de vraisemblance [ROSE, 02].
a) La méthode directe
Dans cette méthode, le rapport de vraisemblance est défini comme étant la probabilité relative d’observer les paramètres acoustiques extraits de la trace dans le modèle du locuteur suspect et dans les modèles de chaque locuteur de la population potentielle. La méthode directe nécessite l’utilisation de deux bases de données : la base de données de référence du locuteur suspect (R) et la base de données de la population potentielle (P). Le calcul du rapport de vraisemblance pour une trace donnée ce fait comme suit :
- 40 -
Chapitre 3 •
L’interprétation Bayesienne d’une preuve forensique
Les paramètres acoustiques extraits de la trace sont comparés avec les modèles statistiques du locuteur suspect (Crès en utilisant la base de données R), pour obtenir la valeur de la preuve (E).
•
La trace est comparée avec les modèles statistiques de tous les locuteurs dans la population potentielle (P).
Mathématiquement, le LR dans la méthode directe est le rapport entre la vraisemblance moyenne des vecteurs acoustiques, extraits de la trace, par rapport aux modèles statistiques du locuteur suspect, et la vraisemblance moyenne des mêmes vecteurs acoustiques par rapport aux modèles statistiques des locuteurs de la population potentielle. La méthode directe est très utile dans le cas où les enregistrements vocaux de locuteurs suspects ne sont pas suffisamment très longs, et sont insuffisantes pour extraire les deux bases de données du locuteur suspect, à savoir, la base de données de référence et la base de données de contrôle [ANIL, 05].
Distribution multivariantes des vecteurs acoustiques
Rapport de vraisemblance (Méthode directe) Comparaison basée sur un modèle GMM du locuteur suspect.
Fig‐3.3 : La méthode directe [ANIL, 05].
b) La méthode des scores
Dans la méthode des scores, le rapport de vraisemblance LR est défini comme
étant la probabilité relative d’observer le score E dans la distribution des scores qui représente la variabilité de la voix du locuteur suspect (intra‐variabilité), et la distribution des scores de la variabilité des voix de la population potentielle par rapport à la trace.
- 41 -
Chapitre 3
L’interprétation Bayesienne d’une preuve forensique
Distribution multivariantes des vecteurs
Rapport de vraisemblance (Méthode des scores)
Distribution des scores univariable
Densité de probabilité gaussienne.
Comparaison basée sur un modèle GMM du locuteur
Fig‐3.4 : La méthode des scores [ANIL, 05].
3.3 Conclusion
En général, l’approche Bayesienne est applicable à n’importe qu’elle discipline forensique. Son avantage principal est d’exprimer le degré de similitude entre deux échantillons différents (ADN, Voix, Verre,..) sous forme d’un rapport de vraisemblance. L’autre avantage est qu’elle sépare clairement les rôles des experts scientifiques et les juges par les concepts des probabilités préalables, qui sont à la charge des investigations policières, et le rapport de vraisemblance qui est à la charge des experts forensiques. Malgré qu’elle a été critiquée très souvent à cause de l’indétermination des probabilités préalables, elle a connu un très grand succès avec des systèmes qui utilise seulement des rapports de vraisemblance pour faire l’identification forensique.
- 42 -
Inférence d’identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien
Partie II : Mise en oeuvre d’un système d’identification forensique du locuteur
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
Prétraitement et extraction paramètres acoustiques
des
Le signal de parole présente des variations entre les individus, ce qui permet de les différencier entre eux. Plusieurs problèmes peuvent être rencontrés à cause des variations intra‐locuteur: ‐ Des variations pour le même locuteur qui prononce plusieurs fois le même énoncé. Par conséquent, un locuteur ne peut pas reproduire le même énoncé. ‐ Des variations liées à l’état pathologique et émotionnel (fatigue, rhume, stress...) ‐ Des variations proviennent en particulier du vieillissement de l’individu.
Il y a d’autres problèmes qui peuvent intervenir, par exemple les locuteurs qui changent volontairement leur voix ou qui imitent un autre locuteur. Le choix des bons paramètres est une tâche très importante car les performances du système de reconnaissance automatique du locuteur dépendent essentiellement au type de paramètres choisi. Dans ce qui suit, nous avons présenté les principaux types de paramètres utilisés dans le domaine de la reconnaissance automatique du locuteur.
- 43 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
4.1 Extraction des vecteurs acoustiques
Presque la plus part des informations qui peuvent être extraites d’un signal de paroles se trouvent dans la bande fréquentielle 200Hz‐8KHz. Les étapes principales pour extraire les vecteurs acoustiques sont : le prétraitement, le fenêtrage, l’extraction de paramètres, le post‐traitement. La figure Fig‐4.1 regroupe ces étapes. x(n) x1 (n) pre‐ traitement
Fenêtrage
Extraction de paramètres
post‐ traitement
f x (n; m)
Fig‐4.1 : Les étapes principales pour l’extraction des paramètres.
A partir d’un signal vocal échantillonné x(n) , on peut trouver les vecteurs de paramètres f x (n; m) , dont m=0,1,…, M‐1 et n=0,1,…, N‐1, i.e. M vecteurs de taille N. par la suite, les étapes précédentes seront décrites en détail.
4.2 Le prétraitement
C’est la première étape du processus du calcul des vecteurs acoustiques. L’objectif du prétraitement est de modifier le signal de parole, x(n) , pour qu’il soit plus convenable à l’étapes de l’extraction de paramètres. Les opérations de prétraitement (élimination de bruit, préaccentuation et l’élimination de silence) peuvent être vues dans la figure Fig‐4.2. x(n) sˆ(n) s 1 (n) x1 (n) Elimination de Pre‐ Elimination de bruit
accentuation
silence
Fig‐4.2 : Les étapes de prétraitement.
4.2.1 La préaccentuation
Le spectre d’un signal de parole a une décroissance globale de l'énergie. Pour compenser cette décroissance, on effectue une préaccentuation en utilisant un filtre
- 44 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
passe‐haut. Le filtre le plus utilisé est le filtre à réponse impulsionnelle finie décrit ci‐ dessous: H(z) = 1 − 0.95z − 1 (4.1)
La réponse de ce filtre peut être vue dans la figure Fig‐4.3. Le filtre dans le domaine temporel est h(n) = {1,−0.95} et le filtrage dans le domaine temporel donnera le nouveau signal s1 (n) : M− 1
∑
S1 (n) =
^
h (k) s (n − k)
k=0
(4.2)
4.2.2 L’élimination du silence
L’élimination des zones de silence qui existent dans un signal de parole est une tâche très importante. Cette tâche semble relativement triviale, mais elle présente quelques difficultés dans la pratique. Les mesures les plus utilisées pour trouver et éliminer le silence sont : l’énergie du signal, la puissance du signal et le rapport de passage par zéro. Pour un signal de parole s1 (n) ces mesures sont calculées comme suit :
Es (m) =
1
Ps (m) = 1
Z (m ) = 1 s 1
L
m
∑
m
∑ s12 (n) (4.3)
n =m −L + 1 m
2 1 s 1 (n) (4.4) L n=m −L + 1
∑
sgn( s 1 (n )) − sgn( s 1 (n − 1 )) (4.5)
n=m −L +1
⎧ + 1 , s 1 (n) ≥ 0 Où : sgn( s 1 (n)) = ⎨ (4.6) ⎩ − 1 , s 1 (n) < 0
Il est à noter que l’index pour ces fonctions est m et pas n, car ces mesures ne sont pas calculées pour chaque échantillon. L’énergie s’accroît quand le signal s1 (n)
- 45 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
contient de la parole et c’est le cas aussi pour la puissance. Le rapport de passage par zéro donne une mesure du nombre de fois où le signal s1 (n) change de signe. Ce rapport est en général plus grand dans les régions non voisées.
Magnitude (dB)
10 0 -10 -20 -30
0
0.1
0.2
0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency (×π rad/sample)
0.9
1
0
0.1
0.2
0.3 0.4 0.5 0.6 0.7 0.8 Normalized Frequency (×π rad/sample)
0.9
1
Phase (degrees)
80 60 40 20 0
Fig‐4.3 : Le filtre de la préaccentuation.
Ces mesures auront besoin des indicateurs pour prendre la décision du moment où la parole commence et le moment où elle se termine. Pour trouver ces indicateurs, on a besoin d’information concernant le bruit. Cela est faite en supposant que les 5 premières trames sont des bruits. Avec cette supposition la moyenne et la variance de la mesure W seront calculées, telle que W est définie comme suit :
W s (m ) = Ps (m ).( 1 − Z s (m )). S c (4.7) 1 1 1
A l’usage de cette fonction, la puissance et le rapport de passage par zéro sont pris en compte. Sc est un facteur utilisé pour annuler les petites valeurs. Dans une application typique Sc = 1000 . L’indicateur pour cette fonction peut être calculé comme suit : t w = µ w + αδ w (4.8)
- 46 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
µ w et δ w sont respectivement la moyenne et la variance de Ws 1 (m) calculée pour les cinq premiers trames. Le terme α est une constante qui dépend des caractéristiques du signal. Après quelques tests, l’approximation ci‐dessous de α donnera de bons résultats pour l’élimination du silence avec plusieurs niveaux de bruit.
α = 0 . 2 . δ
− 08 W
(4.9)
La fonction d’élimination du silence, VAD (m) peut être définie comme suit :
⎧⎪1, Ws (m) ≥ t w 1 VAD (m) = ⎨ (4.10) 0 , W ⎪⎩ s 1 (m) < t w
Avec la fonction VAD (n) le calcul de x1 (n) est simplement s1 (n) quand VAD(n) est à un. Après l’étape de prétraitement, le signal x1 (n) est préparé pour l’étape suivante : Voir la figure Fig‐4.5 et la figure Fig‐4.6.
Notons qu’il y a un autre algorithme d’élimination du silence basé sur l’énergie de
signal et le rapport de passage par zéro. Cet algorithme est défini comme suit :
•
Segmenter le signal audio en trames chevauchées et calculer le log‐énergie et le ZCR (Zero Crossing Rate) pour chaque trame.
•
Commencer à partir de la trame avec le plus grand log‐énergie et descendre vers la gauche jusqu’à trouver une trame dont le log‐énergie soit inférieur à un seuil ITU. Cela fixe le point gauche N1 . Refaire la même procédure pour déterminer le point droit N2 en montant vers la droite.
•
Faire une correction aux points N1 et N2 en utilisant le ZCR, à partir de N1 jusqu’à
N1 + 25 , calculer le nombre de trames dont le ZCR soit supérieur à un seuil IZCT.
- 47 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
S’il est inférieur à 2, pas de correction, sinon on change N1 par le numéro de la première trame qui dépasse le IZCT. La même procédure est faite pour corriger N2 .
Notons que les seuils ITU et IZCT qui représentent respectivement une moyenne d’énergie et un nombre de passage par zéro pour un bruit, peuvent être calculés en supposant que les premières 100 ms du signal sont du bruit.
Il est clair que cet algorithme ne détecte que les points frontières d’une seule parole, cependant, nous pouvons l’adapter facilement pour un signal audio contenant plusieurs paroles. La figure Fig‐4.4 résume cet algorithme.
Le signal audio
Découper le signal audio en trames chevauchées
Trouver les frontières d’une parole
Corriger les frontières trouver dans l’étape précédente
Fig‐4.4: Les étapes principales pour éliminer le silence du deuxième algorithme.
- 48 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
0.3
0.4
0.2
0.3
0.1
E s 1 (m )
S 1 (n )
0.2
0
-0.1
0.1
0
1
2
3
4
5
6
7 4
x 10
0
1.5
0.5
P s 1 (m )
W s 1 (m )
300
400
500
100
200
300
400
500
100
200
x 10
1.5
0 0
100
200
300
400
1
0.5
0
50
0
0.2
0.6
0.4
0.2
Z s 1 (m )
0.15
V A D (m )
200
1
0.8
100 -3
W(m) tw
1
0
0.1
0.05
0 0
100
200
300
400
500
0
0
300
t Fig‐4.5 : Les différentes mesures utilisées pour éliminer le silence.
- 49 -
400
500
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
0.12 0.1 0.08 0.06 0.04
s1 (n)
0.02 0 -0.02 -0.04 -0.06 -0.08
0
1
2
3
t
4
5
6
7 4
x 10
0.15
0.1
0.05
x1 (n) 0
-0.05
-0.1
0
2000
4000
6000
8000 10000 12000 14000 16000 18000
t
Fig‐4.6 : Du signal s1 (n) avec silence au signal x1 (n) sans silence en utilisant la fonction
VAD (n).
- 50 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
4.3 Le fenêtrage
L’étape suivante consiste à découper x1 (n) en trames et d’appliquer une fenêtre pour chacune d’elles. Voir la figure Fig‐4.7.
x1 (k ; m) x 2 ( k ; m) x1 (n) Segmentation Fenêtrage
Fig‐4.7: Les étapes du fenêtrage.
Chaque trame est de longueur de K échantillons, tel que les trames adjacentes sont séparées par P échantillons, voir la figure Fig‐4.8.
Ensuite, on applique une fenêtre à chaque trame pour réduire la discontinuité à la fin de chacune d’elles. La fenêtre la plus utilisée est la fenêtre de Hamming, elle est définie comme suit : w(k) = 0.54 − 0.46 cos (
2 πk ) K−1
(4.11) P }
{ { { {
x1(n)
K
- 51 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques Fig‐4.8 : Le découpage en trames.
4.4 L’extraction des paramètres
L’extraction de paramètres est une étape très importante. Les performances d’un système d’identification forensique du locuteur dépendent essentiellement de la qualité des paramètres choisis. La plus part des systèmes RAL utilisent les mel frequency cepstral coefficients (MFCC) et Linear Prediction Cepstrum Coefficients (LPCC) [PRAV, 01] et ceci pour les raisons suivantes :
•
Ces mesures fournissent un bon modèle de signal de paroles, cela est particulièrement vrai dans des régions quasi stationnaires du signal de paroles.
•
Ces mesures ont un modèle analytique soluble.
•
Des expériences ont montré que ces mesures donnent de bons résultats dans les applications de reconnaissance automatique du locuteur.
Autres mesures à rajouter aux vecteurs de paramètres sont l’énergie et les premières et deuxièmes dérivées des coefficients.
4.4.1 Les paramètres calculés par la prédiction linéaire
L’idée principale de la prédiction linéaire est d’extraire les paramètres caractéristiques du conduit vocal. Un modèle du conduit vocal peut être vu dans la figure
Fig‐4.9. Etant donné un échantillon à l’instant n, s(n) peut être représentée par une combinaison linéaire des p derniers échantillons du signal de paroles comme suit :
s(n) = b0u(n) + a1s(n − 1) + a2s(n − 2) + ..... + aps(n − p) (4.12) u (n) H(z)
b0
- 52 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques Fig‐4.9: Un modèle du conduit vocal.
Où u (n) est un signal d’excitation normalisé, b0 est le gain du signal d’excitation et les coefficients a
0
, a 1 ,..., a p sont les poids des échantillons précédents. Tous ces
coefficients sont supposés constants dans toute la trame d’analyse. En d’autres termes, on peut exprimer s(n) par sa transformée en Z comme suit : S(z) = b0U(z) +
p
∑ a i S(z)z
−i
i=1
(4.13) La fonction du transfert est définie comme suit :
S(z) = U(z)
H(z) =
b0 1−
p
∑ aiz
−i
i =1
(4.14) Le calcul des coefficients est appliqué quand le signal de paroles est supposé stationnaire, x2 (k; m) sont les trames du signal de paroles quand ce dernier est stationnaire. Le calcul de ces coefficients pour chaque trame peut être fait par différentes manières en utilisant la méthode d’auto‐corrélation, la méthode de covariance ou la méthode de Levinson‐Durbin. Dans ce qui suit, nous étudierons la méthode de Levinson‐ Durbin. Les étapes de la prédiction linéaire peuvent être vues dans la figure Fig‐4.10. x2 (k; m) r (p; m) Levinson‐Durbin b autocorrélation x 2 x 2
0
, a 0 , a 1 ,..., a p
Fig‐4.10: Les étapes de la prédiction linéaire. En résumé, le problème principal du codage prédictif linéaire est de déterminer directement, à partir d’un signal de paroles, un ensemble de coefficients { a i } de sorte que l’erreur quadratique moyenne de prédiction E n soit minimisée dans la fenêtre d’analyse.
- 53 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques p
en = s(n) − ~s (n) = s(n) −
∑ a k s(n − k)
k =1
(4.15)
En =
∑ e n (m)
2
(4.16)
m
En plus des coefficients LPC a i , nous analysons encore d’autres coefficients qui se relient directement aux a i : Les coefficients PARCOR. La définition des coefficients PARCOR est présentée ci‐dessous.
Comme il a été mentionné plus haut, il y a une relation très proche entre les coefficients LPC a i et les coefficients PARCOR k i . En effet, les k i sont ceux qui se forment à travers du processus de la détermination des a i .
Supposons que rn (p) soit la valeur de la fonction d’auto‐corrélation de la trame n
en pieme ordre. L’algorithme Levinson‐Durbin fournit une méthode efficace afin de résoudre le système des équations suivant :
rn (1) ⎡ rn (0) ⎢ r (1) rn (0) ⎢ n ... ⎢ ... ⎢ ⎣rn (p − 1) rn (p − 2)
... rn (p − 1)⎤ ⎡ a1 ⎤ ⎡rn (1)⎤ ⎢ ⎥ ... rn (p − 2)⎥ ⎢ a ⎥ ⎢rn (2)⎥ ⎥ ⎥ 2 =⎢ ⎢ ⎥ ⎢ ... ⎥ (4.17) ... ... ⎥ ... ⎥ ⎥⎢ ⎥ ⎢ ... rn (0) ⎦ ⎢⎣ ap ⎥⎦ ⎣rn (p)⎦
Ces p équations sont déduites à partir des conditions de minimisation de E n :
∂En = 0 , i = 1 , 2 ,..., p (4.18) ∂ai
La matrice des valeurs d’auto‐corrélation est une matrice Toeplitz. En effet, elle est
symétrique et tous les éléments sur chaque diagonale principale sont identiques. L’algorithme récursif Levinson‐Durbin se développe comme suit [HAYK, 86] :
- 54 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
E (0 ) = r (0 ) ⎧⎪ ⎨ r (i) − ⎪ ki = ⎩
⎫⎪ i− 1 a j r ( i − j )⎬ ⎪⎭ j= 1
i− 1
∑
E (i − 1 ) , k = 1 , p
a (ii) = k i
(4.19)
a ij = a (ji − 1 ) − k i a ii −− 1j , j = 1 , i − 1 E ( i) = (1 − k 2i )E ( i − 1 )
Notons qu’à partir des coefficients a
0
, a 1 ,..., a p , on peut déduire d’autres
coefficients qui sont :
•
LPCC (Linear Prediction Cepstral Coefficients )
•
LAR (Log Area Ratio)
•
RC (Reflection Coefficients)
a) LPCC (Linear Prediction Cepstral Coefficients )
L’un des ensembles de paramètres les plus importants que nous pouvons déduire en profitant des coefficients a i sont les coefficients cepstraux LPCC en utilisant la procédure récursive suivante [MAKH, 75] :
c 0 = r (0 ) c m = a m +
cm =
m −1⎛
⎞ ⎜ k ⎟c a ,1 ≤ m ≤ p k m −k m ⎝ ⎠ k=1
∑
m −1⎛
⎞ ⎜ k ⎟c a ,m > p k m −k m ⎝ ⎠ k=1
∑
(4.20)
b) LAR (Log Area Ratio)
- 55 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
Les coefficients LAR (Log Area Ratio) sont dérivés à partir des coefficients LPC, le modèle LPC qui caractérise le conduit vocal d’une personne, peut être transformé en autres coefficients appelés LAR. Dans l’analyse LAR, le conduit vocal d’une personne est modélisé comme un tube acoustique non uniforme, formé de P tubes cylindriques et uniformes avec plusieurs zones transversales [JOSE, 97]. La glotte connectée au premier tube n’a pas de zone, par contre les lèvres connectées au dernier tube ont une zone infinie, comme il est illustré par la figure Fig‐4.11.
Conduit vocal
Glotte
A1
A2
A3
A44 A
A5
Lèvres
Fig‐4.11: Le modèle de production de parole avec les tubes acoustiques.
Les coefficients LAR sont calculés par le logarithme du rapport entre la zone transversale de chacun des deux tubes connectés, le nombre de tubes cylindriques dans le modèle est égal au nombre de coefficient LAR plus un. La relation entre les coefficients LAR et les coefficients LPC est donnée par la formule suivante :
⎛1+ α ⎞ ⎟⎟ , A p + 1 = 1 (4.21) ⎠
⎞
⎛ A
i ⎟ i = log ⎜⎜ LAR i = log ⎜⎜ ⎟ ⎝ 1 − αi ⎝ A i+ 1 ⎠
Avec αi est le i eme coefficient de parcours [JOSE, 97] : α
i
= a (i i ) , 1 ≤ i ≤ p (4.22)
- 56 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
c) Coefficients de réflexion
Les coefficients de réflexion sont les coefficients de parcours obtenus dans
l’analyse LPC.
4.4.2 Les paramètres calculés par l’analyse Mel‐cepstral
Au lieu d’utiliser la prédiction linéaire, une autre méthode très utilisée dans l’extraction des paramètres acoustiques d’un locuteur, à savoir, l’analyse mel‐cepstral. Cette méthode se compose de deux parties : le calcul cepstral et une méthode nommée échelle Mel.
a) La notion de cepstral
La méthode de cepstral est un moyen de trouver le filtre de conduit vocal H(z). Le principe de cette méthode est de transformer une combinaison non linéaire des signaux (convolution) en une combinaison linéaire. Le signal de parole s ( n ) peut être vu comme le résultat d’une convolution entre u ( n ) et h ( n ) : s ( n ) = b
0
. u ( n ) * h ( n )
(4.23)
Où * est l’opérateur de convolution. Dans le domaine fréquentiel : S ( z ) = b
0
. U ( z ). H ( z )
(4.24)
Comme l’excitation, U ( z ) , et le conduit vocal, H ( z ) , sont combinés multiplicativement, alors il est difficile de les séparer. On applique la fonction log sur
S(z) , on obtient l’équation suivante :
log( S ( z )) = log( b 0 .U ( z ). H ( z )) = log( b 0 U ( z )) + log( H ( z )) (4.25)
- 57 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
Pour éviter de prendre le logarithme des nombres complexes, on calcule
l’amplitude de
S ( z ) , cela est la définition d’un cepstral réel. Les étapes à suivre pour
créer un cepstral réel peuvent être vues dans la figure Fig‐4.12.
S ( z ) cn(n) s (n ) log| S(z) |= Cn (z) Z{s(n)} Log|S(z)| Z −1{C n ( z )} Fig‐4.12 : Les étapes à suivre pour créer un cepstral réel.
Il est à noter que le cepstral réel est une séquence paire par rapport à n, car
log| S(z) |= Cn (z) est réelle et paire. Ces propriétés permettent d’appliquer l’inverse de la transformation en cosinus au C s (z) pour déterminer c s (n) . A ce moment, on a déterminé
ch (n) , qui est le cepstral du filtre du conduit vocal.
Pour extraire le cepstral du conduit vocal, on peut appliquer un liftre passe‐bas au
c s (n) . Le liftrage est un filtrage dans le domaine cepstral. Une manière simple pour faire
ceci est de diminuer quelques coefficients cepstraux situées à la fin. Cela est faite comme suit :
⎧1, n = 0 ,1,..., L − 1 l1 (n) = ⎨ (4.26) ⎩0 , n > L − 1
Telle que la longueur L est choisi pour extraire c h (n) ; un autre liftre est défini comme suit :
πn ⎧ L −1 sin ( ), n = 0 ,1,...,L − 1 ⎪1 + l2 (n) = ⎨ 2 L −1 ⎪⎩0 , n > L − 1 (4.27)
Enfin, le cepstrum du conduit vocal, c h (n) , peut être calculé par :
c h (n ) ≈ c s (n ). l 2 (n ) (4.28)
b) L’échelle Mel - 58 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
Des études psychophysiques ont montré que la perception humaine des fréquences contenues dans un signal de parole ne suit pas une échelle linéaire. Par conséquent, on fait correspondre à chaque fréquence F, mesurée en Hz, une valeur Fmel mesurée en Mel, tel que : Fmel = 2595 . log 10 (1 +
FHz ) 700
(4.29) Cette transformation non linéaire peut être vue dans la figure Fig‐4.13.
Pour appliquer l’échelle Mel au cepstral, un bank de K filtres de bande passante triangulaire est appliqué à S(z) . L'utilisation de cette unité n'est pas encore suffisante. Pour avoir une largeur de bande relative qui reste constante, le bank de filtres Mel est construit à partir de filtres triangulaires positionnés uniformément sur l'échelle Mel donc non uniformément sur l'échelle fréquentielle. Cette répartition est illustrée dans la figure
Fig‐4.14.
- 59 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
8500 8000 7500 7000
Fmel
6500 6000 5500 5000 4500 4000 3500 2000
4000
6000
8000 10000 Fhertz
12000
14000
16000
Fig‐4.13 : La transformation du Hz en Mel.
m
m 1
m 1
k
Hertz
m k
Mel
Fig‐4.14 : La répartition des filtres triangulaires sur les échelles Fréquentielle et Mel. - 60 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
c) L’extraction des paramètres MFCC
Toutes les étapes d’extraction des coefficients mel‐Cepstral à partir d’une trame
de paroles seront décrites dans cette section. Les étapes de cette opération sont illustrées par la figure Fig‐4.15. x2 (k ; m) X 2 (k ; m) X 2 (n; m) N‐point X 2 (n; m) DFT
Banc de filtre Mel
mk log( m k ) Lifter IDCT ch (n; m) cs (n; m) log( m k )
Fig‐4.15 : Les étapes pour le calcul des MFCC.
La première étape consiste à calculer la transformée de Fourrier rapide (TFR), qui
est définie comme suit :
X n =
N−1
∑ xke
− 2 π kn / N
, n = 0 ,1 ,2 ,...., N − 1
k=0
(4.30)
La TFR est de longueur N = 2 i pour chaque trame du signal de paroles. Ensuite, on
calcul l’amplitude et on la fait passer par les filtres Mel. Les coefficients Mel‐Cepstraux sont donc la somme des résultats de filtrage. Cela peut être décrit par la formule suivante: mk =
N− 1
k (n) (4.31) ∑| X2 (n;m) | Hmel
n= 0
Où Hmel k (n) est un filtre triangulaire. Après le calcul des coefficients Mel‐Cepstraux, on prend le logarithme et l’inverse de la transformation en cosinus discrète comme illustrée par la formule suivante:
- 61 -
Chapitre 4
c s (n; m) =
Prétraitement et extraction des paramètres acoustiques K −1
∑ αk .log (mk ) cos ⎛⎜⎝
k=0
π(2n + 1)k ⎞ ⎟ , n = 0 ,1,..., N − 1 (4.32) 2K ⎠
Où
⎧ 1 ⎪α 0 = N ⎪ ⎨ (4.33) 2 ⎪α = ,1 ≤ k ≤ N − 1 ⎪⎩ k N
N valeurs de chaque trame sont extraites. La longueur du liftrage, L, doit être choisie pour éliminer le pitch. Un bon choix est L =
2 N . Cela peut être décrit par : 3
L −1 ⎛ ch (n; m) = c s (n; m).⎜ 1 + sin 2 ⎝
⎛ πn ⎞ ⎞ ⎜ ⎟ ⎟ ,n = 0 ,1,..., L − 1 (4.34) ⎝ L − 1 ⎠⎠
Il est à noter que cette opération élimine quelques coefficients Mel‐Cesptraux parmi les derniers. Après cette étape, les valeurs des coefficients Mel‐Cesptraux sont calculées.
4.4.3 Les dérives des paramètres acoustiques
Il est très important d’avoir une information temporelle concernant les coefficients dérivés de la prédiction linéaire ou de l’analyse cepstral. Pour cela, on peut calculer les coefficients de vitesse et les coefficients d’accélération qui correspondent respectivement aux première et deuxième dérivées des coefficients acoustiques. Une manière directe d’avoir la première dérivée des coefficients acoustiques est définie comme suit :
∆ch (n; m) = c h (n; m + 1) − ch (n; m) (4.35)
La deuxième dérivée peut être obtenue en appliquant l’équation (4.35) deux fois sur les paramètres ch (n; m) . Cette approximation contient beaucoup de bruit et pour remédier à ce problème, on fait recours à d’autre méthode telle que l’approximation polynomiale, etc.
- 62 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
4.5 Post traitement
La tâche finale du processus d’extraction des paramètres acoustiques est le post‐ traitement. Deux étapes sont incluses pour avoir les vecteurs de paramètres finaux. Ces étapes peuvent être vues dans la figure Fig‐4.16. x3 (n; m) x3' (n; m) f x (n; m) Pondération
Normalisation
Fig‐4.16 : les étapes de post traitement.
Après le choix des paramètres, ces derniers peuvent être pondérés par une
fonction de pondération pour donner à certains paramètres une influence plus grande que les autres. '
x3(n;m) = x3 (n;m).w(n),n = 0,1,...,N − 1 (4.36)
L’étape suivante est la normalisation, cela veut dire que les vecteurs de paramètres sont normalisés pour avoir une moyenne nulle, le vecteur moyen, nommé
fµˆ (n) , peut être calculé comme suit : fµˆ (n) =
M
1 M m= 0
∑ x 3 (n;m) (4.37) ,
Pour normaliser les vecteurs de paramètres, les opérations suivantes sont appliquées :
fx (n; m) = x3, (n; m) − fµˆ (n) (4.38)
4.6 Conclusion
L’extraction des paramètres acoustiques est une étape très importante dans les systèmes de reconnaissance automatique du locuteur. Son but essentiel est d’extraire les
- 63 -
Chapitre 4
Prétraitement et extraction des paramètres acoustiques
données pertinentes à l’étape de modélisation statistique, et minimise ainsi les données redondantes et le bruit qui se présentent dans les signaux vocaux. Plusieurs expériences ont montré que les paramètres LPCC et MFCC donnent de meilleures performances aux systèmes d’identification ou de vérification du locuteur. Il est à noter qu’il existe d’autre paramètres acoustiques qui ne sont pas étudiés dans ce chapitre tels que : les paramètres PLP, RASTA, RASTA‐PLP, etc. mais dans notre travail, nous nous intéressons de plus par les paramètres MFCC et LPCC.
- 64 -
Chapitre 5
La modélisation des vecteurs acoustiques
La
modélisation
des
vecteurs
acoustiques
Dans ce chapitre, nous avons présenté un module très important de la
reconnaissance automatique du locuteur, en général, et dans les systèmes d’identification forenisque du locuteur, en particulier. Comme nous l’avons déjà mentionné dans les chapitres précédents, le processus de calcul du rapport de vraisemblance nécessite une étape très importante qui est l’étape de modélisation statistiques des paramètres (ou vecteurs) acoustiques, extraits du locuteur suspect ou des locuteurs de la population potentielle. Un modèle, qui représente fidèlement la distribution des paramètres acoustiques, a une grande influence sur les performances d’un système d’identification forensique du locuteur. En effet, plusieurs méthodes de modélisation statistique ont été utilisées et chacune d’elle présente des avantages et des inconvénients. D’après plusieurs études faites par plusieurs chercheurs, il apparaît que le modèle de mélange de gaussiennes est le plus adapté à la reconnaissance automatique du locuteur indépendante de texte. Ces bons résultats peuvent s’expliquer par certaines de ses propriétés intrinsèques, telles que [BLOU, 02] :
- 64 -
Chapitre 5
•
La modélisation des vecteurs acoustiques
La segmentation implicite des vecteurs acoustiques en K classes de son dans l’espace des paramètres. Chacune d’elle possède sa probabilité d’occurrence a priori mais la modélisation ne donne aucune information sur leur dynamique. Cette propriété semble raisonnablement adaptée à la RAL en mode indépendant du texte.
•
La possibilité de modéliser un processus stochastique sans être théoriquement limité par sa complexité en augmentant le nombre de composantes du mélange.
L’autre élément qui permet d’expliquer le succès des GMM est l’existence d’un outil
très puissant pour l’estimation des paramètres qui leur sont associés : l’algorithme Expectation‐Maximisation (EM). La mise en œuvre de cet algorithme, et plus particulièrement l’estimation des différents paramètres qui composent un modèle GMM, constitue l’objet principal de ce chapitre.
5.1 L’estimation du modèle GMM par l’algorithme EM L’utilisation des GMMs pour la modélisation des vecteurs acoustiques a été initiée par les travaux de thèse de Douglas Reynolds [REYL, 95]. Cette approche a donné, depuis plus de 10 ans, les meilleures performances pour les systèmes de reconnaissance du locuteur en mode indépendant du texte basés sur l’approche probabiliste. La plupart des systèmes actuels utilisent une modélisation des locuteurs au moyen d’un modèle GMM
[MBEN, 04]. L’idée principale de ce type de modélisation est d’utiliser une combinaison linéaire de densités de probabilités gaussiennes multidimensionnelles pour représenter une distribution de probabilité aléatoire très complexe. Le modèle GMM est une segmentation en plusieurs classes des paramètres acoustiques représentants l’identité d’un locuteur. Cette méthode comprend deux phases principales [MORR, 05] [RENY, 95]:
Une phase d’apprentissage sur un ensemble de fichiers audio qui représentent les différents locuteurs du système.
- 65 -
Chapitre 5
La modélisation des vecteurs acoustiques
Une phase d’identification qu’un son quelconque est produit par un locuteur bien déterminé.
Fig‐5.1 : Illustration de nuages acoustiques représentants l’identité d’un locuteur.
Le résultat de la phase d’apprentissage est un modèle statistique des paramètres acoustiques d’un locuteur représenté par une source vocale. La répétition des paramètres acoustiques d’une classe de son est modélisée par une somme pondérée de fonctions de probabilités gaussiennes.
Fig‐5.2 : Illustration des classes acoustiques d’un locuteur dans un espace à 2 dimensions. - 66 -
Chapitre 5
La modélisation des vecteurs acoustiques
Fig‐5.3 : Approximation de la distribution d’un paramètre acoustique par une combinaison de gaussiennes
L’estimation de la vraisemblance d’un vecteur acoustique est effectuée en utilisant une base de distributions multi‐gaussiennes, en d’autre terme, la distribution d’observation d’une classe est modélise par une somme pondérée de M distributions gaussiennes [RENY, 95]. Cette modélisation nous amène à considérer que les vecteurs acoustiques (étudiés dans le chapitre précèdent) sont des réalisations de variables r aléatoires mutuellement indépendantes de densité de probabilité b i ( x ) gaussienne.
r La modélisation de la distribution d’observations p(x | θ ) est donnée par la formule (5.1) qui est une somme pondérée par les coefficients πi des distributions r gaussiennes b i ( x ) .
p ( xr | θ )
=
M
∑
i= 1
r π ib i ( x )
(5.1) Où :
•
r x est un vecteur aléatoire de dimension d qui représente un vecteur acoustique.
•
r b i ( x ) , i =1,2,…, M sont les densités de probabilités gaussiennes qui composent
le modèle.
•
r πi , i =1,2,…, M, sont les poids des densités b i ( x ) .
- 67 -
Chapitre 5
La modélisation des vecteurs acoustiques
r Chaque densité de probabilité b i ( x ) est définie par :
(
1
b (xr) = i
(2 π)
d
2
∑i
1
2
⎧ 1 r r exp ⎨ − x − µ i ⎩ 2
)' ∑ (xr − µr i ) −1
i
T
⎫ ⎬ ⎭
(5.2) Tel que :
µi est le vecteur moyen et ∑i est la matrice de covariance. Les poids πi vérifient la contrainte donnée par la formule suivante : M
∑
i= 1
π i = 1 (5.3)
Ce modèle statistique est composé par des vecteurs moyens µi , des matrices de r covariances ∑i et des coefficients πi de toutes les densités de probabilités b i ( x ) . Ces paramètres sont représentés par la notation suivante :
θ =
{π i , µr i , ∑ i }, i
= 1 ,..., M (5.4)
Durant la phase d’apprentissage les vecteurs acoustiques d’une même classe (même locuteur) sont exploités pour avoir les paramètres du modèle, à savoir, le poids de chacune des M gaussiennes, le vecteur acoustique moyen et la matrice de covariance de r toutes les densités b i ( x ) . Le vecteur acoustique moyen et la matrice de covariance sont respectivement la moyenne et l’écart type dans le cas d’une distribution gaussienne monodimensionnelle.
5.1.1 La phase d’apprentissage
Dans cette phase, on estime les paramètres des gaussiennes qui composent un modèle GMM en se basant sur les vecteurs acoustiques déterminés dans l’étape d’extraction de paramètres. L’apprentissage se fait en deux étapes: La première étape est l’initialisation des paramètres du modèle en utilisant l’algorithme K‐moyennes (K‐means) ou l’algorithme LBG, la deuxième étape est l’optimisation des paramètres obtenus dans - 68 -
Chapitre 5
La modélisation des vecteurs acoustiques
la première étape en utilisant l’algorithme EM (Expectation Maximisation) [DEMP, 77] [BILM, 97].
a) Algorithme des K‐moyennes
L’algorithme des K‐moyennes consiste à faire la répartition des vecteurs acoustiques xi d’une classe (locuteur) en N sous‐ensemble disjoints caractérisés par un centroide. Le résultat de cette répartition est appelé dictionnaire. L’algorithme des K‐ moyennes n’est que localement optimal, par conséquent, il est influencé par ses conditions initiales. L’algorithme des K‐moyennes est défini comme suit :
•
La première étape est l’initialisation du dictionnaire, il existe plusieurs méthodes d’initialisation, nous pouvons citer :
‐ L’initialisation aléatoire : Le dictionnaire le plus simple est celui qui contient les L premiers vecteurs de la suite d’apprentissage, où ces L vecteurs sont extraits aléatoirement de cette suite. Ces vecteurs peuvent bien sûr ne pas être du tout des représentants de la suite d’apprentissage, et dans ce cas, on aboutit à des résultats très médiocres.
‐ L’algorithme à seuil : Au lieu de prendre L vecteurs aléatoirement, on fixe une distance minimale entre les éléments du dictionnaire initial. Cette méthode permet d’obtenir une meilleure représentativité que dans le cas précédent.
•
La deuxième étape consiste à appliquer deux règles, définies ci‐dessous, tant qu’il y’a une amélioration importante de la distorsion moyenne donnée par la formule suivante: N
D m
r r 1 = d( x k , Cent ( x k )) (5.5) N k =1
∑
r r Cent (xk ) est le centroide de la région où xk est affecté. r r d ( xk , C i ) est la distance euclidienne entre les vecteurs xk et Ci .
- 69 -
Chapitre 5
La modélisation des vecteurs acoustiques
Les deux règles sont définies comme suit : ‐ La règle de centroide : Cette règle exige que tous les centroides soient les moyennes des vecteurs acoustiques des régions représentées par ces centroide. Cela peut être formulé comme suit:
1 C i = Ni
Ni
∑
k=1
r x k (5.6)
‐ La règle de plus proche voisin : Le vecteur xrk est affecté à la région i si la
distance euclidienne entre ce vecteur et le centroide de cette région est minimale. La formule suivante décrit explicitement cette règle. Kr r region ( x ) = i , C = min ( d ( x k , C j )) (5.7) k i j= 1
K est le nombre de régions. C i est le centroide de la i teme région. r r d ( xk , C i ) est la distance euclidienne entre les vecteurs xk et C i .
Une autre variante de l’algorithme K‐moyennes est l’algorithme LBG [LIND, 80] [BILM, 97]. L’algorithme LBG, est l’algorithme itératif utilisé pour la création d’un dictionnaire optimal basé sur des vecteurs d’apprentissage.
Nous donnons ici une description sommaire de l’algorithme LBG permettant de construire un dictionnaire optimal :
1.
On initialise le dictionnaire, par exemple, par le vecteur moyen de toute la base d’apprentissage.
2.
Connaissant ce dictionnaire, on étiquette chaque vecteur de base d’apprentissage par le numéro de son plus proche voisin. On détermine la partition optimale (la règle de plus proche voisin).
- 70 -
Chapitre 5
La modélisation des vecteurs acoustiques
3.
A partir de tous les vecteurs étiquetés par le même numéro, on en déduit un nouveau représentant par un calcul de la moyenne (la règle de centroide).
4.
Si le nombre de centroides désirés n’est pas atteint, on applique une technique de « Spliting », celle‐ci consiste à découper chaque centroide Ci en deux nouveaux vecteurs C i + ε et C i − ε (ε étant un vecteur de perturbation), avant d’appliquer au nouveau dictionnaire obtenu les itérations 2 et 3.
On arrête cet algorithme si on atteint le nombre de centroides désirés pour représenter les vecteurs acoustiques. La figure Fig‐5.4 suivante donne le schéma de fonctionnement de l’algorithme LBG.
b) Optimisation des paramètres par l’algorithme EM
Après la phase d’initialisation des paramètres du modèle GMM, en utilisant l’algorithme K‐means, ces derniers doivent être optimisés au moyen d’un algorithme de type EM (Expectation‐Maximazation). L’idée principale de l’algorithme EM est, en commençant par les paramètres initiaux θ du modèle, on estime les nouveaux paramètres θ , telle que la vraisemblance du nouveau modèle soit supérieur ou égale à la vraisemblance du modèle initial. En d’autre terme, p(X | θ) ≥ p(X | θ) ou X est la séquence des vecteurs d’apprentissage et p(X | θ) est définie comme suit : p(X | θ) =
T
r
∏ p(xt | θ) (5.8) t =1
Les paramètres du nouveau modèle seront les paramètres initiaux de l’itération suivante de l’algorithme EM, ce processus est répété plusieurs fois jusqu’à atteindre un seuil de convergence.
Dans chaque itération de l’algorithme EM, les formules données ci‐dessous sont utilisées. A cet effet, l’augmentation de la vraisemblance est garantie. Les formules sont définies comme suit : - 71 -
Chapitre 5
La modélisation des vecteurs acoustiques
π
1 = T
( k )*
T
∑
t=1
r p ( i | x t , θ ) (5.9)
Dictionnaire initial
Séquence d’apprentissage
Spliting
Plus proche voisin
La règle de centroide
Nombre de centroides atteints
Non
Oui Fin Fig‐5.4 : Schéma de fonctionnement de l’algorithme LBG. T
r µ
∑ ( k )*
=
t=1 T
∑
r r p (i | x t , θ ) x t
t=1
r p (i | x t , θ )
(5.10)
- 72 -
Chapitre 5
La modélisation des vecteurs acoustiques T
∑ (k )* =
∑ p(i | xr t , θ)( xr t − µr (k )* )( xr t − µr (k )* ) T t=1
T
∑ p(i | xr t , θ)
(5.11)
t=1
La probabilité antérieure de la ieme classe est donnée par la formule suivante: r π ib i ( x ) r p ( i | x t , θ ) = (5.12) M r π k b k (x)
∑
k=1
5.1.2 La phase de classification ou de décision
Dans La phase de classification (la sélection du locuteur le plus probable), on a un groupe de L locuteurs G = {1,2 ,..., L} , qui sont représentés, respectivement, par les modèles GMM : θ1 , θ2 ,..., θL . Dans une identification du locuteur, l’objective est de trouver le modèle du locuteur qui à le maximum de vraisemblance pour une séquence d’observations données. Formellement, cela peut être écrit comme suit :
Lˆ = arg max Pr( θk | X) = arg max 1 ≤k ≤L
1≤k ≤L
p( X | θk ) Pr(θk ) (5.13) p(X)
Supposons que tous les locuteurs ont la même probabilité (i.e. Pr(θk ) =
1 ) et que L
p(X) est la même pour tous ces derniers, la formule de classification se simplifie comme suit :
Lˆ = arg max p (X | θk ) (5.14) 1 ≤k ≤L
En utilisant le logarithme et l’indépendance entre les observations, la formule précédente peut être écrite comme suit :
T
∑ log 1 ≤k ≤L
Lˆ = arg max
t =1
- 73 -
r p(x t | θk ) (5.15)
Chapitre 5
La modélisation des vecteurs acoustiques
r Où p(x t | θk ) est donnée par la formule (5.1). Pour chaque modèle θk , on doit calculer la quantité p(X | θk ) =
T
r
∑ log p(x t | θk ) , t =1
r Où p(x t | θk ) est donnée par la formule (5.1). Cette opération nécessite beaucoup de
calcul car elle contient un nombre important d’opérations d’exponentiations, de multiplications, et de divisions, qui alourdissent le calcul. Une optimisation peut être donnée en calculant quelques facteurs avant l’utilisation de l’algorithme EM, par exemple :
Cm =
πi d 2
1
(2 π ) ∑m 2 (5.16)
δm (n) =
−1
2 2 ∑m [n]
Cela réduit le nombre de multiplications et de divisions et minimise le temps du calcul global.
5.2 L’estimation du modèle GMM par l’algorithme MAP
Une autre technique, qui peut être utilisée pour estimer un modèle GMM, est la technique maximum à posteriori (MAP) [REYL, 00]. L’idée principale de cette méthode est en démarrant d’un modèle universel qui représente théoriquement l’ensemble de paramètres acoustiques d’une population donnée, on adapte ce dernier par les paramètres acoustiques d’un locuteur pour avoir son modèle GMM. Cette technique est utilisée essentiellement pour estimer le modèle du non‐locuteur (ou l’imposteur) dans les systèmes de vérification automatique du locuteur. Elle est aussi très utile dans le cas où on ne dispose pas beaucoup de données d’apprentissage pour estimer un modèle GMM. Généralement, dans le cas forensique, on ne dispose pas des données suffisantes pour estimer le modèle GMM du locuteur suspect. Par conséquent, l’utilisation de la technique MAP peut améliorer énormément les performances d’un système d’identification
- 74 -
Chapitre 5
La modélisation des vecteurs acoustiques
forensique du locuteur. Pour pouvoir utiliser cette technique, on doit disposer d’un modèle universel nommé UBM (Universal Background Model). L’estimation de ce modèle est faite par l’algorithme EM décrit plus haut.
Tout comme l’algorithme EM, l’adaptation MAP comporte deux étapes de traitement [NEIB, 01]. La première étape est le calcul des paramètres statistiques de la base de données d’apprentissages par rapport au modèle UBM. Ces paramètres sont le poids, le moment d’ordre 1 et d’ordre 2 de chaque gaussienne d’un modèle temporaire. Contrairement à l’approche EM, dans la seconde étape de l’adaptation, les nouveaux paramètres, estimés dans la première étape, sont combinés avec les paramètres du modèle UBM en utilisant des coefficients de pondération qui dépendent des données d’apprentissage.
Fig‐5.5: L’adaptation par le technique MAP.
Les coefficients de pondération varient en fonction des données d’apprentissage, de telle sorte que : les composantes gaussiennes comportant une grande quantité de - 75 -
Chapitre 5
La modélisation des vecteurs acoustiques
données du locuteur sont fortement pondérées dans l’estimation des paramètres finaux du modèle, et les gaussiennes avec une petite quantité de données d’apprentissage sont faiblement pondérées (ce sont les gaussiennes du modèle UBM qui l’emporte), voir Fig‐ 5.5.
Les détails des explications données ci‐dessus sont montrés dans les formules r r suivantes. Etant donné le modèle UBM et les vecteurs d’apprentissage Y = {x1 ,..., x T } provenant du locuteur, nous déterminons d’abord ‘le poids’ de chaque vecteur par rapport à chaque gaussienne du modèle UBM [REYL, 00]:
wk Ptk =
(2 π)d / 2 ∑k M
1 /2
r ⎡ 1 r ⎤ exp ⎢ − (x t − µk )T ∑k−1 (x t − µk )⎥ ⎣ 2 ⎦
r ⎡ 1 r ⎤ exp ⎢ − (x t − µk′ )T ∑k−′1 (x t − µk′ )⎥ 1 /2 d/2 ⎣ 2 ⎦ ∑k ′ k ′ =1 (2 π)
∑
wk′
(5.17)
r On utilise Ptk (t indice du vecteur, k indice de la gaussienne) et x t pour calculer les
paramètres statistiques décrits ci‐dessus :
T
nk =
∑ Ptk
Ek (Y) =
r 1 Ptk x t ni t =1
t =1
(5.18)
T
∑
(5.19) Ek (Y²) =
1 T r Ptk x t ² ni t =1
∑
- 76 -
(5.20)
Chapitre 5
La modélisation des vecteurs acoustiques
Ces nouveaux paramètres sont utilisés pour créer les paramètres du modèle final en mettant à jour les paramètres du modèle UBM. Les paramètres du modèle final sont calculés comme suit :
[
w
w
m
m
]
ˆ k = αk nk T + (1 − αk )wk γ w (5.21)
ˆ k = αk Ek (Y) + (1 − αk )µk µ (5.22)
r2
ˆ = α E (Y²) + (1 − α )(Σ + µ ) − µ Σ k k k k k k k 2
v
v
2
2
(5.23) v Les coefficients d’adaptation [ αkw , αm k , αk ] servent pour la pondération entre les
anciens et les nouveaux paramètres: poids, moyennes et covariances respectivement. Le facteur γ est calculé après que tous les poids aient été adaptés pour assurer que leur somme soit égale à 1. Notons que pour chacune des gaussiennes et pour chacun des paramètres, un coefficient, est utilisé dans les équations précédentes. Il est défini par :
nk
ρ
αk =
nk + r ρ
(5.24) Où r ρ est un facteur de confiance (relevance factor), fixé pour chaque paramètre ρ . Cependant l’équation (5.21) d’adaptation du poids ne découle pas de l’estimation MAP des paramètres. L’équation basée sur l’estimation MAP du poids est :
ˆ k = (r w
w
+ nk ) (T + Kr w )
(5.25) K étant le nombre de gaussiennes. L’utilisation de cette équation engendrerait une perte de performance comparée à l’utilisation de l’équation (5.21) [REYL, 00]. - 77 -
Chapitre 5
La modélisation des vecteurs acoustiques
Des expériences portées sur l’effet des valeurs des facteurs de confiance ont montré qu’un seul facteur de confiance pour tous les coefficients de pondération v ( αkw = αm k = αk = nk nk + r ) n'entraîne pas de perte de performance pour le système, et que
ces performances ne changent pas lorsque r ∈ [8 − 16 ] [REYL, 00]. L’estimation par l’adaptation MAP du modèle locuteur n’adapte pas forcement toutes les composantes gaussiennes du modèle UBM (car l’adaptation dépend des données d’apprentissage), cette information s’avère utile lors du calcul du rapport de vraisemblance dans la phase de test mais aussi lors du stockage du modèle dans la base de données (car seuls les paramètres des gaussiennes adaptées seront stockés).
5.3 Conclusion
Le modèle GMM est la technique la plus adaptée et la plus utilisée dans les systèmes de reconnaissance automatique du locuteur en mode indépendant du texte, afin de modéliser statistiquement une distribution des vecteurs acoustiques d’un locuteur. Cela est dû à plusieurs raisons qui ont été décrites plus haut, dans ce chapitre et dans le chapitre 2, mais la raison la plus importante s’avère dans sa capacité extraordinaire d’estimer des densités de probabilités aléatoires très complexes d’une manière très fidèle et sous forme d’une combinaison linéaire de densités gaussiennes. Le choix de la méthode d’estimation d’un modèle GMM dépend essentiellement des quantités de données que nous disposons en termes de vecteurs acoustiques. Si nous avons un nombre insuffisant de vecteurs acoustiques, qui est le cas le plus probable dans les applications forensiques, la technique MAP est la plus adaptée pour estimer un modèle GMM car elle démarre à partir d’un modèle UBM qui représente un espace très large de paramètres acoustiques. L’algorithme EM est aussi très utile dans le cas où nous disposons suffisamment de données qui représentent l’identité du locuteur.
- 78 -
Chapitre 5
La modélisation des vecteurs acoustiques
- 79 -
Inférence d’identité dans le domaine forensique en utilisant un système de reconnaissance automatique du locuteur adapté au dialecte Algérien
Partie III : Tests d’évaluation et conclusions
Chapitre 6
Tests et résultats d’évaluation
Tests et résultats d’évaluation Dans ce chapitre, nous avons présenté les différents résultats de l’ensemble de tests d’évaluation que nous avons effectués sur une base de données de dialecte Algérien. Les résultats sont organisés en trois catégories. La première catégorie regroupe les différents résultats que nous avons obtenus en faisons un ensemble de tests d’évaluation sur le système d’identification du locuteur. La deuxième catégorie regroupe les résultats obtenus à partir du système de vérification du locuteur et la dernière catégorie encapsule ceux (les résultats) obtenus à travers un ensemble de tests d’évaluation effectués sur le système d’identification criminalistique du locuteur. Le tableau Tab‐6.1 représente les différents tests d’évaluation qui peuvent être effectués.
Pour pouvoir effectuer les tests d’évaluation mentionnés plus haut, nous avons développé un software d’évaluation qui a permis de tester les différents systèmes que nous avons étudiés, une présentation détaillée de cet outil est donnée dans la suite de ce chapitre.
La base de données utilisée lors des tests contient des dialectes de différentes régions algériennes. Cette diversité a permet d’avoir une très bonne représentation de - 79 -
Chapitre 6
Tests et résultats d’évaluation
l’espace des vecteurs acoustique. Par la suite, nous présentons le processus de création de cette base de données ainsi que les différents éléments qui la composent.
Système d’identification du Système de vérification du Système locuteur
locuteur
d’identification
criminalistique du locuteur
Mobile
●
●
●
●
●
●
●
●
●
Fixe
●
●
●
●
●
●
●
●
●
Micro
●
●
●
●
●
●
●
●
●
Mobile
Fixe
Micro
Mobile
Fixe
Micro
Mobile
Fixe
Micro
Tab‐6.1 : L’ensemble de tests d’évaluation qui peuvent être effectués sur la base de données de dialecte Algérien.
L’ensemble de tests représentés par des points rouges représentent les cas où nous avons une discordance (un mismatch) entre les fichiers WAV utilisés lors de la phase d’apprentissage, et ceux utilisés dans la phase du test, c.‐à‐d., les fichiers d’apprentissage et ceux des tests ne sont pas de la même catégorie. Dans notre étude, on s’intéresse seulement aux cas où on n’a pas des discordances .
6.1 La base de données
La base de données utilisée lors du test contient des dialectes de différentes régions algériennes. Elle a été construite par le Centre du Développement des Technologies Avancées CDTA en coopération avec la société espagnole Agnitio (http:\\www.agnitio.es), qui est un leader mondial dans la Speech Technologie et ses applications.
La base de données contient 39 locuteurs choisit à partir de l’ensemble de personnels du CDTA. Le critère de choix de ces locuteurs vise à couvrir les différents dialectes qui existent en Algérie. Les conditions d’enregistrement sont très proches de la réalité, et les enregistrements vocaux n’ont été obéis à aucun traitement.
- 80 -
Chapitre 6
Tests et résultats d’évaluation
Pour chaque locuteur, nous avons crée trois enregistrement vocaux. Un enregistrement en utilisant le microphone, un autre en utilisant le réseau téléphonique fixe, et un dernier en utilisant le réseau GSM. Chacun d’eux contient environ 3 minutes de paroles spontanées.
A partir de ces enregistrements, nous avons crée deux sous ensemble de fichiers vocaux. Pour chaque type d’enregistrement (Microphone, Mobile, et Fixe), nous avons construit un ensemble d’apprentissage et un ensemble de test. La figure Fig‐6.1 illustre l’organisation de la base de données.
Base de données
Mobile
Apprentissage
Microphone
Fixe
Test
Apprentissage
Test
Apprentissage
Test
Fig‐6.1 : L’organisation de la base de données. - 81 -
Chapitre 6
Tests et résultats d’évaluation
6.2 L’outil d’évaluation
Comme nous l’avons mentionné plus haut, nous avons développé un software d’évaluation des systèmes de reconnaissance automatique du locuteur. Cet outil permet de tester les trois types de systèmes étudiés, à savoir, l’identification, la vérification, et l’identification criminalistique d’un locuteur.
Il offre aussi un moyen très flexible pour évaluer les différents blocs qui composent de tels systèmes, et cela par le biais du choix des différents paramètres utilisés lors de la phase d’apprentissage et celle du test.
Fig‐6.2 : L’outil d’évaluation.
L’autre avantage de cet outil est qu’il offre un moyen de représentation graphique des résultats de l’identification criminalistique du locuteur. Cela nous a permet de bien
- 82 -
Chapitre 6
Tests et résultats d’évaluation
comprendre le processus d’identification et de donnée des interprétations aux résultats aux obtenus.
6.3 Les résultats des tests d’évaluation
Dans cette section, nous présentons les résultats des différents tests d’évaluation que nous avons effectués sur l’ensemble des systèmes étudiés, à savoir, le système d’identification, le système de vérification, et le système d’identification criminalistique du locuteur. Chacun de ces systèmes a ces propres caractéristiques, et par conséquent, nous avons définie un protocole de tests pour chacun d’eux.
Fig‐6.3 : Un exemple de représentation graphique donnée par l’outil d’évaluation.
Le type de résultat est aussi un facteur variable pour chaque système. Pour le système d’identification du locuteur, le résultat est donné sous format d’un pourcentage des personnes correctement identifiées. Les résultats du système de vérification du locuteur sont donnés sous format d’un graphique ROC (Receiver Operating Characteristic), qui donne une représentation graphique de la fausse acceptation en fonction du faux rejet. En fin, le système d’identification criminalistique du locuteur est - 83 -
Chapitre 6
Tests et résultats d’évaluation
évalué en utilisant une courbe de type TippetPlot, présenté dans le chapitre 2, qui donne la proportion des cas où le rapport de vraisemblance est supérieur à une valeur donnée.
6.3.1 L’évaluation du système d’identification du locuteur
Pour chacun des 39 locuteurs de la base de données, on a crée trois modèles GMM d’ordre différent (16, 32, 64 gaussiennes) dans chaque catégorie d’enregistrement (Mobile, Fixe, Microphone). La durée des fichiers d’apprentissage est environ de deux minutes. Pour les fichiers tests, la durée est entre 6 et 10 secondes. Les modèles GMMs sont entraînés par une matrice de vecteurs MFCC de dimension 21, c.‐à‐d., 21 paramètres MFCC dans chaque vecteur de la matrice d’apprentissage. Les vecteurs MFCCs sont extraits en appliquant un fenêtrage de Hamming où la longueur de la fenêtre est 256 et avec un facteur de chevauchement de 50%. Nous avons aussi procédé à l’élimination du silence en utilisant l’algorithme VAD.
Nous avons effectué 39 tests, un test pour chaque locuteur. A travers ces tests, nous avons vu l’effet de l’ordre du modèle GMM sur la performance globale du système d’identification du locuteur. Les résultats obtenus sont présentés par le graphique illustré ci‐dessous.
Nous remarquons qu’en augmentant l’ordre du modèle GMM nous avons eu une amélioration de la performance du système d’identification du locuteur pour les deux catégories Mobile et Fixe. Cependant, cette remarque n’est pas valable dans la catégorie Micro. En effet, nous avons eu une dégradation de performance. Cela peut être interprété comme suit :
L’augmentation de l’ordre du modèle GMM a surentraîné ce dernier, c.‐à‐d., représenter des données qui n’existe pas dans l’espace de vecteurs acoustiques de la catégorie en question.
Dans le cas pratique, l’ordre du modèle GMM est choisi en fonction de données que nous avons disposées. Par exemple, la duré d’un enregistrement vocal utilisé lors de la - 84 -
Chapitre 6
Tests et résultats d’évaluation
phase d’apprentissage joue un rôle très important pour la détermination de l’ordre du modèle GMM. En plus, le nombre de locuteurs intervenant dans un fichier audio a aussi une grande importance. En effet, les paramètres acoustiques extraits à partir d’un enregistrement vocal, qui contient l’intervention de plusieurs locuteurs, seront dispersés dans plusieurs régions de l’espace de vecteurs acoustiques. D’ici, nous remarquons clairement la nécessité de couvrir ces différentes régions en augmentant l’ordre du modèle GMM. 105 100
16 GMM 32 GMM 64 GMM
%
95 90 85 80 Mobile
Fixe
Micro
Fig‐6.4 : L’évaluation du système d’identification du locuteur.
6.3.2 L’évaluation du système de vérification du locuteur
L’évaluation d’un système de vérification du locuteur est faite à travers la courbe ROC, qui donne une présentation graphique de la fausse acceptation en fonction du faux rejet. Elle permet aussi de donner une estimation du facteur EER (Equal Error Rate), qui est défini comme étant le point dont lequel la fausse acceptation est égale au faux rejet. Plus que le EER est petit plus que la performance du système est bonne. Dans notre travail, nous avons fait 12 tests différents, c.‐à.‐d, 12 courbes ROC, 4 courbes pour chaque catégorie. Nous avons trois catégories différentes : Mobile, Fixe, et Microphone. Pour
- 85 -
Chapitre 6
Tests et résultats d’évaluation
chaque catégorie, nous traçons quatre courbes différentes comme le montre le tableau
Tab‐6.2.
Concernant les tests effectués, nous avons pris les mêmes modèles GMM utilisés dans l’évaluation du système d’identification du locuteur, en leur ajoutant, un modèle GMM d’ordre 128 pour chaque locuteur de chaque catégorie.
Le système de vérification du locuteur
Mobile
●
●
●
●
Fixe
●
●
●
●
Micro
●
●
●
●
16
32
64
128
L’ordre du modèle GMM
Tab‐6.2 : Tests effectués sur le système de vérification du locuteur.
Nous avons aussi entraîné des modèles UBM d’ordres 128, 256, et 512. Le modèle UBM est utilisé lors de la phase de décision (La vérification), il représente la distribution des imposteurs qui peuvent utiliser le système. L’UBM est construit en utilisant la concaténation d’un ensemble de fichier WAV avec une durée total d’environ une heure. Il est à mentionner que plus que le modèle UBM est représentatif de la distribution des imposteurs, c.‐à‐d., représentent une grande partie des caractéristiques vocales de ces derniers, plus que la performance du système de vérification du locuteur est bonne. L’autre avantage de l’UBM se présente dans le cas où nous avons peu de données pour la phase d’apprentissage. En effet, L’UBM est utilisé comme une initialisation du modèle entraîné et il est adapté en utilisant la méthode MAP pour représenter la distribution des vecteurs acoustiques d’un client. Dans ce qui suit, nous présenterons les différentes courbes ROC obtenues après la phase des tests :
- 86 -
Chapitre 6
Tests et résultats d’évaluation
Fig‐6.5 : Courbe ROC Fixe‐Vs‐Fixe.
Le tableau Tab‐6.3 récapitule les résultats des trois courbes ROC: Equal Error Rate EER
Mobile
2%
1%
0.7%
1%
Fixe
0.4%
0.4%
0.2%
0.1%
Micro
6%
7%
8%
6%
16
32
64
128
L’ordre du modèle GMM
Tab‐6.3 : EER des différentes courbes ROC.
- 87 -
Chapitre 6
Tests et résultats d’évaluation
Fig‐6.6 : Courbe ROC Microphone‐Vs‐Microphone.
Fig‐6.7 : Courbe ROC Mobile‐Vs‐Mobile - 88 -
Chapitre 6
Tests et résultats d’évaluation
La lecture des données représentées sur les graphiques illustrés ci‐dessus doit se faire de la manière suivante: plus une courbe est proche du point origine (0,0), plus le taux de fausse acceptation et le taux de faux rejet sont bas et donc meilleure est la performance du système. Les points d’intersections entre la diagonale tracée sur le graphique et les courbes représentées donnent les taux d’égale erreur, relatifs à l’expérience de chaque courbe.
En observant les résultats obtenus, nous pouvons constater que les performances
du système sont nettement meilleures lorsque les conditions d’enregistrement sont similaires. Cependant, même en conditions similaires, le réseau de transmission a un grand effet sur les performances du système. En effet, ces dernières sont meilleures lorsque nous utilisons le réseau fixe, le ERR est d’environ de 0.1% alors qu’il est de 1% pour le réseau mobile, et il est de 6% dans le cas des enregistrements pris par un microphone.
Nous remarquons aussi que nous avons obtenu les plus mauvais EER dans le cas
où le support de transmission est un microphone. Ceci est dû au niveau de bruit contenu dans les enregistrements qui est très élevés par rapport aux deux autres supports, à savoir, le réseau mobile, et le réseau fixe. Dans la pratique, nous pouvons procéder à une minimisation du niveau de bruit lors des phases d’apprentissage et de test. Cela peut améliorer considérablement la performance du système. L’autre problème qui peut être rencontré est celui de la discordance des conditions d’enregistrement. En effet, la discordance peut chuter considérablement les performances du système. Cependant, ils existent plusieurs techniques de normalisations qui peuvent remédier à ce problème.
En bref, Les résultats obtenus lors de l’évaluation des performances du système de vérification du locuteur montrent que le canal de transmission du signal de parole influence la performance du système. Ainsi, l’élément "conditions d’enregistrement" doit être pris en considération lorsque des comparaisons sont effectuées. Non seulement il s’agit de déterminer si les conditions d’enregistrement sont similaires ou différentes mais également à quel type de réseau nous avons a affaire. - 89 -
Chapitre 6
Tests et résultats d’évaluation
6.3.3 L’évaluation du système d’identification criminalistique du locuteur
Dans cette section, nous présenterons les tests effectués ainsi que les résultats obtenus dans le cas d’identification criminalistique (forensique) du locuteur. Nous avons utilisé l’approche bayesienne, décrite plus haut, pour calculer le rapport de vraisemblance entre les deux hypothèses concurrentes H0 et H1. Nous avons fait recours à la méthode des scores pour estimer l’intra‐variabilité des locuteurs.
H0 signifie que le suspect est l’origine de l’enregistrement en question, tandis que H1 signifie qu’un autre locuteur, appartenant à la population potentielle est la source de l’enregistrement en question.
La base de données utilisée contient 39 locuteurs. Pour chaque locuteur nous
avons créé quatre modèles GMM pour calculer l’intra‐variabilité des suspects, et un autre modèle GMM pour calculer la preuve. Nous avons fait 39 tests où l’hypothèse H0 est vraie et 39 * 38 = 1482 tests où l’hypothèse H1 est vraie. Pour chaque modèle GMM de référence, nous avons calculé deux scores, ce qui signifie que nous avons 8 scores pour estimer l’intra‐variabilité des locuteurs. Concernant la population potentielle, à chaque fois que nous choisissons un locuteur comme suspect, nous considérons automatiquement les 38 autres locuteurs comme population potentielle.
La représentation des résultats obtenus pour les rapports de vraisemblance calculés s’est faite sous la forme d’un Tippett plot [MEUW, 01]. Ceux‐ci font figurer sur l’axe des abscisses, gradué de manière logarithmique croissante, les valeurs de rapport de vraisemblance. L’axe des ordonnées est gradué de 0 à 1 et représente la probabilité que la valeur du LR soit supérieure ou égale à la valeur indiquée en abscisse.
Sur le graphique, deux courbes sont représentées. La première modélise les cas ou H0 est vérifiée et la seconde ceux ou H1 l’est. Les clés pour lire le graphique sont les suivantes :
- 90 -
Chapitre 6
•
Tests et résultats d’évaluation
Plus la séparation entre les courbes est grande, plus les performances du système sont meilleures. Idéalement, la courbe H1 vérifiée devrait se trouver entièrement à 0
gauche du point d’abscisse 10 (LR = 1) et la courbe H0 vérifiée à droite de ce même point.
• La distance entre le point d’intersection de H0 vérifiée et le sommet du graphique et le point d’intersection de H1 vérifiée avec la base du graphique doit être la plus courte possible pour une bonne performance du système.
Les résultats montrent que, dans le cas où les conditions d’enregistrements sont similaires, i.e. FixeVsFixe, MobileVsMobile, et MicrophoneVsMicrophone, la séparation entre les courbes est bonne. Il apparaît également que la probabilité que la valeur du rapport de vraisemblance soit supérieure à 1, dans les cas où H1 est vérifiée, est très faible, ce qui signifie que le système est performant. La probabilité d’obtenir une valeur de rapport de vraisemblance inférieure à 1, dans les cas où H0 est vérifiée, n’est pas nulle non plus et survient dans environ 15% des cas dans la catégorie Fixe, et 25% pour les deux autres catégories (Mobile et Microphone).
Fig‐6.8 : Tippet plots Fixe Vs Fixe. - 91 -
Chapitre 6
Tests et résultats d’évaluation
Fig‐6.9 : Tippet plots Microphone Vs Microphone.
Fig‐6.10 : Tippet plots Mobile Vs Mobile.
- 92 -
Chapitre 6
Tests et résultats d’évaluation
Ainsi, la valeur du rapport de vraisemblance sera supérieure à 1 dans 4% des cas où H1 est vérifiée pour les trois catégories. Dans le cas où H0 est vérifiée, le rapport de vraisemblance est supérieur à 1 dans 85% des cas pour la catégorie fixe, et dans 75% des cas pour les deux autres. Inversement, le rapport de vraisemblance est inférieur à 1 dans 96% pour H1 vérifiée dans les trois catégories. Il apparaît donc que le risque d’obtenir un faux positif (acceptation de la source commune de deux échantillons provenant de locuteurs différents) est plus faible que le risque d’obtenir un faux négatif (Rejet de la source commune de deux échantillons alors qu’ils proviennent du même locuteur).
En observant ces résultats, nous pouvons déduire qu’il est plus probable de rejeter un suspect qui est l’origine de la trace en question que d’accepter un suspect qui n’est pas l’origine de cette trace.
H0 Vérifiée
H1 Vérifiée
LR > 1
LR < 1
LR > 1
LR < 1
Mobile
75%
25%
4%
96%
Fixe
85%
15%
4%
96%
Micro
75%
25%
4%
96%
Tab‐6.4: Les rapports de vraisemblance des hypothèses H0 et H1.
La performance d’un système d’identification criminalistique du locuteur est fortement dépendante des données utilisées lors de la phase d’apprentissage et la phase des tests. En effet, la durée des fichiers tests (traces) joue un rôle très important dans l’évaluation de ce type de système. Plus la durée des traces est grande, plus les performances du système sont meilleures.
Dans la pratique, nous devons préparer le maximum de données concernant les suspects ainsi que la population potentielle avant de procéder à l’identification criminalistique. Nous devons aussi signaler que la population potentielle doit être la plus - 93 -
Chapitre 6
Tests et résultats d’évaluation
similaire possible aux personnes suspectes, en termes d’âge, sexe, région, langue, etc. Si par exemple, le suspect est une femme alors la population potentielle ne doit contenir que des femmes. Cette restriction est faite pour que le résultat d’identification soit le plus significatif possible.
La discordance entre les modèles des suspects et les traces est aussi un problème très important. Pour avoir de bons résultats, il faut que les enregistrements vocaux utilisés dans la base de données de Contrôle, dans la base de données de référence, ainsi que dans la base de données de la population potentielle soient enregistrés dans des conditions d’enregistrement similaires. Si, pour une raison ou une autre, nous n’avons pas garanti cette condition, nous pouvons faire recoure à des méthodes de normalisation des scores, qui peuvent améliorer énormément la performance du système.
La recherche dans le domaine de la reconnaissance automatique du locuteur devrait donc viser le développement d’applications qui permettrait une meilleure extraction des paramètres caractéristiques de la voix et leur modélisation, tout en réduisant les influences des systèmes de codages et de transmission des réseaux téléphoniques. Ainsi, les taux de faux positifs et de faux négatifs pourraient être réduits et une meilleure séparation des valeurs des rapports de vraisemblance, dans les cas où chacune des hypothèses est vérifiée, serait obtenue.
- 94 -
Chapitre 7
Conclusions et perspectives
Conclusions et perspectives
L’objectif principal du sujet abordé dans ce présent mémoire est d’étudier et évaluer les différents types des systèmes de reconnaissance automatique du locuteur adaptés à un dialecte Algérien, et principalement dans le domaine criminalistique. Comme il a été montré par plusieurs travaux, la langue a un grand effet sur les performances d’un système RAL. Cela peut être vu comme un grand inconvénient de la reconnaissance automatique du locuteur, cependant, ce résultat s’avère très logique. En effet, chaque langue a ses propres caractéristiques distinctives qui se voient dans la grande variation des espaces de paramètres acoustiques entre chaque langue.
Pour pouvoir faire cette étude, nous avons construit une base de données de dialecte Algérien. La construction de cette dernière a été faite en coopération avec la société espagnole Agnitio, qui est un leader dans les systèmes RAL et qui a plusieurs produits commercialisés dans ce domaine. Cette base de données nous a permets de faire plusieurs tests d’évaluation sur les différents types des systèmes RAL. En plus, nous avons créé un modèle UBM (Universal Background Model) qui représente la distribution des
- 95 -
Chapitre 7
Conclusions et perspectives
paramètres acoustiques des locuteurs algériens. Il permet aussi de construire des modèles GMM, plus représentatifs des vecteurs acoustiques, en utilisant la méthode MAP (Maximum a posteriori). Cette dernière est très intéressante dans le cas où nous ne disposons pas suffisamment de données pour faire l’apprentissage des modèles GMM.
Comme il a été mentionné plus haut, le développement d’un système d’identification criminalistique du locuteur a pris une grande part de cette étude. Cette dominance peut être expliquée par le fait de notre vouloir de créer une plateforme de programmation qui peut être utilisée pour développer un système réel d’identification criminalistique du locuteur.
L’approche Bayesienne, qui est l’élément le plus important de l’identification forensique du locuteur, a été aussi étudiée en détails. Cette approche offre un moyen très puissant qui permet d’analyser une preuve scientifique et d’estimer sa puissance. L’idée principale de cette approche est d’exprimer le résultat d’identification sous forme d’un rapport de vraisemblance LR entre deux hypothèses concurrentes. Le rapport LR est combiné avec la probabilité antérieure, calculée à partir d’opérations d’investigations et en analysant les circonstances du cas en question, pour avoir la probabilité postérieure. Cette dernière sera adressée au juge qui peut, par la suite, faire son jugement. Malgré que l’approche Bayesienne a été souvent critiquée par le fait de sa complexité d’une part et de l’absence d’une méthode d’estimation de la probabilité antérieure d’une autre part, elle reste très utilisée dans plusieurs disciplines forensiques et elle a donné de très bonnes performances.
L’autre point important qui doit être figuré concerne les conditions d’enregistrement. A travers cette étude, nous avons constaté que les conditions d’enregistrement ont un grand effet sur la performance des systèmes d’identification forensique du locuteur. En effet, le niveau du bruit, le support d’enregistrement, et l’état du locuteur peuvent chuter considérablement les performances d’un système d’identification forensique du locuteur. Par exemple, une diminution de la performance
- 96 -
Chapitre 7
Conclusions et perspectives
du système est observée pour les enregistrements provenant de téléphones cellulaires par rapport aux enregistrements provenant de téléphones fixes. Cette diminution s’explique par la qualité moindre du signal transmis. En effet, le système de codage GSM réduit la quantité de données transmises. Comme moins de données sont transmises par les réseaux cellulaires comparativement au réseau public commuté, moins de données caractéristiques de la voix du locuteur se retrouvent à la sortie du signal. La technique de modélisation GMM a été profondément étudiée dans ce travail. A travers les expériences que nous avons effectuées, nous pouvons dire que le modèle GMM est très puissant et peut représenter des distributions aléatoires très complexes d’une manière très fidèle. Le bon choix de l’ordre du modèle GMM est très important. En effet, si nous choisissons un petit ordre, nous pouvons avoir une grande perte de données et par conséquent, une dégradation de performance. Dans le cas inverse, si nous choisissons un grand ordre, nous pouvons avoir le problème de sur‐apprentissage du modèle GMM, c.‐à‐d., présenter des données qui n’existent pas dans l’espace de paramètres acoustiques du locuteur en question. Par exemple, l’ordre d’un modèle UBM doit être suffisamment grand pour représenter l’ensemble des vecteurs acoustiques d’une population donnée, dans la pratique il peut aller jusqu’à 2048 gaussiennes et il est déterminé en fonction du nombre des locuteurs ainsi que la durée des enregistrements utilisés lors de la phase d’apprentissage du modèle. Cependant, plusieurs expériences ont montré qu’un modèle GMM composé de 16 ou 32 gaussiennes est largement suffisant pour représenter la distribution des vecteurs acoustiques d’un seul locuteur.
Le mismatch (discordance), entre les données utilisées lors de la phase d’apprentissage et celles utilisées lors de la phase de test, est aussi un point vital dans les systèmes RAL. Pour remédier à ce problème, plusieurs techniques de normalisations peuvent être utilisées. Ces dernières, peuvent être appliquées dans plusieurs niveaux différents. Nous avons des normalisations appliquées au niveau des échantillons pour minimiser le bruit, des normalisations appliquées au niveau des paramètres acoustiques pour réduire la variabilité des vecteurs acoustiques, d’un même locuteur, extraits à partir
- 97 -
Chapitre 7
Conclusions et perspectives
des sources vocales enregistrées dans des conditions différentes, des normalisations appliquées au niveau d’apprentissage d’un modèle GMM, et en dernier, des normalisations appliquées au niveau des scores d’identification. L’utilisation de ces différentes normalisations peut améliorer considérablement les performances d’un système d’identification criminalistique du locuteur.
7.1 Perspectives
La reconnaissance automatique du locuteur est en plein développement, et elle comporte plusieurs axes de recherche qui peuvent être explorés dans des futurs travaux. Parmi ces axes, nous pouvons mentionner :
•
L’étude du mismatch entre les différents facteurs qui peuvent avoir un effet sur le signal de parole tels que : le support de transmission, les conditions d’enregistrement, la langue, etc. lors de la phase d’apprentissage du modèle GMM et celle de décision,
•
L’utilisation des paramètres acoustiques qui minimise l’effet de discordance tels que les paramètres PLP (Perceptual Linear Predictive) et les paramètres RASTA‐ PLP.
•
L’utilisation de la méthode MAP (Maximum à posteriori) pour estimer un modèle GMM en adaptant un modèle UBM. Cette méthode est très intéressante dans le cas où nous ne disposons pas suffisamment de données lors de la phase d’apprentissage. Elle permet aussi de faire le Fast Scoring, c.‐à‐d., utiliser les 5 premières gaussiennes pour calculer la vraisemblance.
•
Les systèmes RAL sont très coûteux en terme de temps d’exécution. En exploitant les architectures parallèles disponibles dans les PC modernes, nous proposons de définir des algorithmes parallèles qui permettent de minimiser le temps d’exécution, et de concevoir des systèmes RAL en temps réel.
- 98 -
Références
Références [AITK, 00] C.G.C. Aitken. Statistical Interpretation of Evidence/Bayesian Analysis, Encyclopedia of Forensic Sciences, Academic Press, pages 717‐724, 2000.
[AITK, 95] C.G.C., Aitken, “Statistics and the Evaluation of Evidence for Forensic Scientists”, John Wiley & Sons, 1995.
[ANDR, 00] D.Andrzej, D.Meuwly,A.Alexander, « Statistical Methods and Bayesian Interpretation of Evidence in Forensic Automatic Speaker Recognition», Speech Processing Group, The Forensic Science Service.
[ANIL, 05] Anil Alexander.“Forensic automatic speaker recognition using Bayesian interpretation and statistical compensation for mismatched conditions”. Thèse Doctorat. Ecole Polytechnique Fédérale de Lausanne. 2005.
[ARIY, 99] Ariyaeeinia, A.M, Sivakumaran, P., Pawlewski, M., Loomes, M.J, ‘Dynamic weighting of the Distortion Sequence in Text‐Independent Speaker Verification’, Eurospeech’99, pp.967‐970, 1999.
[BENN, 95] Y.Bennany, P.Gallinari., ‘Neural Networks for Discrimination and Modelization of Speakers’, Speech Communications, vol. 17, pp. 159‐175, 1995. [BILM, 97] J. Bilmes. “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models” Report, University of Berkeley, ICSI‐TR‐97‐021, 1997.
[BIMB, 04] F.Bimbot, F.J.Bonastre,C.Fredouille, G.Gravier, I.Magrin, S.Meignier, T.Merlin, J.Ortega‐ Gracia, D.Petrovska, D.Reynolds,’A Tutorial on Text‐Independent Speaker Verification’, Eusipco’04, pp. 430‐451, 2004.
[BLOU, 02] R. Blouet, « Approche probabiliste par arbres de décision pour la vérification automatique du locuteur sur architectures embarquées », Université de Rennes 1, 2002.
[BOLT, 73] Bolt, R.H.,Cooper, F.S.,David, E. E., Denes, P.B, Pickett, J.M., Stevens, K.N, « Speaker identification by speech spectrogram : some further observations ». 1973.
[BONA, 03] J.‐F.Bonastre, F.Bimbot,L.‐J.Boë,J.P.Campbell, D.A.Renolds,I.Magrin‐Chagnolleau, “ Auditory Instrumental Forensic Speaker Recognition”, Eurospeech 2003, Geneva, Switzerland, 2003.
[CAMP, 97] J.A.Campbell, ‘Speaker Recognition: A tutorial’,Proceedings of the IEEE, vol. 85, n. 9, pp. 1437‐1462, 1997.
[CHAM, 00] C.Champod, D.Meuwly, “The inference of identity in forensic speaker recognition” , Speech Communication, vol. 31, pp. 193‐203, 2000.
[CHAMP, 00] C. Champod. Overview and Meaning of Identification, Encyclopedia of Forensic Sciences, Academic Press, pages 1077‐1084, 2000.
99
Références [DEMP, 77] A.P.Dempster, N.M. Laird, and D.B. Rubin. “ Maximum‐likelihood from incomplete data via the EM algorithm”. J. Royal Statist. Soc. Ser. B., 39, 1977.
[DING, 02] P.Ding, Y.Lui, B.Xu, ‘Factor Analyzed Gaussian Mixture Models for Speaker Identification’, ICSLP’02, pp.1341‐1344, 2002.
[DODD, 85] G.R.Doddington, “ Speaker recognition – Identify peoplr by their voices”, Proc. IEEE, Vol. 73, no. 11, p. 1651, 1985.
[DRYG, 03] A.Drygajlo, D.Meuwly, A.Alexander, « Statistical Methods and Bayesian Interpretation of Evidence in Forensic Automatic Speaker Recognition », Eurospeech 2003, Geneva, Switzerland, 2003.
[DRYG, 00] A.Drygajlo, D.Meuwly, “Forensic Speaker Recognition Based on a Bayesian Framework and Gaussian Mixture Modelling (GMM)”, Proc. 2001: A Speaker Odyssey,The Speaker Recognition Workshop, Crete, Greece, June 2001, pp. 145‐150.
[EVET, 95] I.W., Evett, “Avoiding the transposed condition”, Science & Justice, 1995. [EVET, 98]
I.W. Evett. Towards a Uniform Framework for Reporting Opinions in Forensic
Science Casework, Science & Justice, 38(3), pages 198‐202, 1998.
[FRAS, 03] H.Fraser, “Issues in transcription: factors affecting the reliability of transcripts as evidence in legal cases”, Forensic Linguistics, 2003.
[FREN, 94] French, P. “An overview of forensic phonetics with particular reference to speaker identification”, Forensic Linguistics, 1994.
[GABR, 95] E.Gabrilovich, A.D.Berstein, ’Speaker Recognition: Using a Vector Quantization Approach for Robust Text‐Independent Speaker Identification’, Technical Report DSP Group, Inc. Santa Clara, California, 1995.
[GONZ, 05] J.Gonzales‐Rodriguez, J.Ortega‐Garcia, J.Sanchez‐Bote, “Forensic Identification Reporting Using Automatic Biometric Systems”, Speech and Signal Processing Group (ATVS), DIAC, Spain, 2005.
[HOLL, 90] H.Hollien, “The Acoustics of Crime, The New Science of Forensic Phonetics”, New York: Plenum Publishing Corporation, 1990.
[HAYK, 86] S. Haykin, « Adaptive Filter Theory », Prentice Hall, New Jersey, 1986. [JOSE, 97] Joseph P. Campbell, JR. “Speaker Recognition: A Tutorial”, Proc. Of IEEE, VOL.85, no.9, Sept. 1997. [JOUV, 88] Jouvet D. Reconnaissance de mots connectés indépendamment du locuteur par des méthodes statistique. Thèse de doctorat, Ecole Nationale Supérieure des Télécomm‐unications, Paris, 1988.
[KLEV, 97] L.Klevans, R.D.Rodman, “ Voice recognition”, Artech House, 1997. [KUNZ, 95] Künzul, H. J., “Field procedures in forensic speaker recognition”, in Studies in General and English Phonetics: Essays in Honour of Professor J.D. O’Cnnor, 1995.
100
Références [KWAN, 97] Q.Y.Kwan, “ Inference of identity of source”, Ph. D. Thesis, University of California, Berkeley, CA, USA, 1997.
[LEWI, 84] S.R.Lewis, « Philosophie of speaker identification », police applications of speech and tape recording analysis: proceedings of acoustics, vol.6, no.1, pp.69‐77.
[LIND, 80] Linde, Y., Buzo, A., Gray, R., An Algorithm for Vector Quantizer Design, IEEE Transactions on Communications, vol. 28, pp. 84‐94, 1980. [MAKH, 75] J. Makhoul, “Spectral linear prediction, properties and applications,” IEEE Trans. Acoustics, Speech and Signal Processing, pp. 283–296, June 1975.
[MEUW, 00] D.Meuwly, “Reconnaissance de locuteurs en sciences foensiques: L’apport d’une approche automatique”. Thèse de doctorat. L’institut de police scientifique et de criminologie de l’université de lausanne. 2001.
[MEUW, 01] D. Meuwly. Current Discussions of the ENFSI‐WG About the Use of the Bayesian Approach for the Interpretation of Evidence, Meeting of the Speech and Audio Group of ENFSI – European Network of Forensic Science Institutes ‐, Paris (France), 2001.
[MEHR, 06] K.J.Mehrdad, « Forensic Speaker Analysis and Identification by Computer : A Bayesian approach anchored in the cepstral domain », Doctor of Philosophy thesis, Australia, 2006. [MORR, 05] A. Morris, D.Wu and J. Koreman ‘GMM based clustering and speaker separability inthe Timit speech database “Special Section/Issue on Corpus‐Based Speech Technologies IEICE TRANS.FUNDAMENTALS/COMMUN./ELECTRON./INF. & SYST., VOL. E85‐A/B/C/D, No. 1 pp 1‐13, March 2005.
[NAKA, 01] Nakasone, Hirotaka / Beck, Steven D. (2001): "Forensic automatic speaker recognition", In ODYSSEY‐2001.
[NOLA, 83] Nolan, F., “The phonetic bases of speaker recognition”, Cambridge University Press, 1983.
[NOLA, 97] Nolan, F. “International Associations for Forensic Phonetics”, Journal of the International Phonetic Association, 1997. [PRAV, 01] P. Pravinkumar and B, M Wasfy “Speaker Verification/Recognition and the Importance of Selective Feature Extraction: Review”, Proc. IEEE, 2001. [RABI, 93] Rabiner L.R.and Juang B.H .Fundamentals of speech recognition. ISBN 0‐13‐015157‐ 2.Prentice Hall PTR, New Jersey, USA, 1993. [RENY, 00] D.A. Reynolds,T. F. Quatieri, R. B. Dunn, “ Speaker Verification Using Adapted Gaussian Mixture Models”, Digital Signal Processing, 2000.
[REYN, 94] D.A.Reynolds, ‘Speaker Identification and Verification using Gaussian Mixture Models’, ESCA Workshop on Automatic Speaker Recognition Identification and Verification, pp. 27‐ 30, 1994.
101
Références [REYN, 95] D.A. Reynolds, R.C. Rose, «Robust text‐independent speaker identification using Gaussian mixture speaker models", IEEE Trans on speech and audio processing, Vol 3, No 1, Jan 1995.
[ROBE, 95] B.Robertson, G.A.Vignaux, « Interpreting Evidence : evaluating Forensic Science in the Courtroom», John Wiley & Sons, Chicheter UK, 1995. [RODR, 02] J. G‐Rodríguez, J. O. García, J‐Luis and S‐Bote” "Forensic Identification Reporting using Automatic Biometric Systems » chapter 7 from the book “Biometric Solutions for Authentication in an e‐World" Editor: David D.Zhang Kluwer Academic Publishers, pp 169‐185, 2002.
[ROSE, 01] P.Rose, F.Clermont, “ A comparison of two acoustic methods for forensic speaker identification”, Acoustics Australia, 2001.
[ROSE, 02] Rose.P, “Forensic speaker identification”. Forensic science. London & New Taylor: Taylor & Francis. 2002.
[SAET, 00] J.R.Saeta, ’InCar User Identification for Personalized Infotainment Virtual Home Environment’, Master Thesis, 2001.
[TOSI, 79] Tosi, O., “Voice Identification: Theory and Legal Applications”, University Park Press, Baltimore, 1979.
[TUTH, 94] H.Tuthill, “Individualization: Principles and Procedures in Criminalistics”. Salem: Lightning Powder Co., 1994.
[Wolf, 72] Wolf, J. J, “Efficient Acoustic Parameters for Speaker Recognition”, the journal of the Acoustical Society of America, 1972.
102
Références
Sites web [answer] http://www.answers.com/topic/forensic‐science?cat=biz‐fin [wiki] http://en.wikipedia.org/ [data] http://www.data‐compression.com/vq.shtml
103