Enseignements

Hidden Markov Model and Gaussian Mixture Model, application to automatic speech recognition - Master SIGMA (since 2017)

  • Lecture 1 (2h)
    • Introduction (speech tech, speech production)
    • Basic considerations on ASR (problem formulation, signal encoding, general overview of an ASR system)
    • Hidden Markov Model (HMM), episode 1
  • Lecture 2 (2h)
    • Gaussian Mixture Model (GMM), a spin-off of HMM
    • Hidden Markov Model (HMM), episode 2
    • Practical implementation of a HMM-GMM-based ASR system

(slides here)

 

 

Traitement du signal audio en temps-réel - PHELMA (2015-2017)

Objectifs

  • Comprendre la notion de « système temps-réel » (TR), c’est-à-dire un système dont l’exécution doit respecter une contrainte temporelle (deadline).
  • Connaitre différents modèles théoriques de conception d’un système TR.
  • Prendre conscience des différents choix à effectuer pour la conception d’un système TR (hardware, OS, API, multithreading, etc.).
  • Comprendre les fondamentaux du traitement audio sur PC et connaître quelques bonnes pratiques pour implémenter une application audio temps-réel sur un OS standard (i.e. non temps-réel).
  • Connaître différents principes et techniques utilisés pour le traitement du signal en temps-réel (traitement par trame, overlap-add, buffer circulaire, etc.)
  • Implémenter en pratique une application audio temps-réel

 

Contenu

Cours magistral :

  • Définition(s) d’un système temps-réel (≠ système à exécution rapide)
  • Modèles théoriques de conception (synchronous/scheduled, time-triggered/event-based model, etc.)
  • Choix du hardware (DSP, GPU, FPGA, SoC, etc.)
  • Systèmes d’exploitation (OS temps-réel vs. OS standards, rôle de l’ordonnanceur, etc.)
  • Audio sur PC (couches logicielles, API audio, etc.) et techniques d’implémentation (risque d’inversion de priorité, préemption, allocation de la mémoire, etc.)
  • Spécificités du traitement audio en temps-réel (traitement par trame, modèle producteur-consommateur, overlap-add, buffer circulaire, etc.).
    (slides here)

 

Travaux pratiques :

L’objectif des TP sera de mettre en pratique les notions théoriques abordées dans le cours magistral, au travers de deux projets :

  • l’implémentation d’un effet audio temps-réel de type « reverb à convolution ».
  • l'implémentation d'un compresseur/limiteur temps-réel

(sujet ici)

(ressources ici)

 

Technologies vocales - ENSIMAG (2012-2016)

 

Cette série de cours aborde différents aspects du traitement automatique de la parole et des technologies vocales :

 

  • Reconnaissance automatique de la parole (RAP)
    • Introduction (un peu d'histoire, principes généraux, enjeux, systèmes existants / marché, diagramme fonctionnel d'un système de RAP)
    • Codage du signal de parole pour la RAP
    • Reconnaissance de la parole par comparaison d’exemples (programmation dynamique, DTW, Level-building/one-stage DTW)
    • Rappel sur la modélisation par apprentissage statistique
    • Reconnaissance de la parole – approche par modèles statistiques de type HMM (Modèles de Markov discrets, modèles de Markov cachés, évaluation, décodage, apprentissage, Topologie des HMM pour la RAP, Apprentissage dépendant du contexte, partage des états, Modélisation du langage, Evaluation)
  • Synthèse de la parole à partir du texte (TTS : Text-To-Speech)
    • Introduction (un peu d'histoire, marché du TTS, diagramme fonctionnel d'un système TTS)
    • Introduction au traitement automatique du langage naturel pour le TTS (analyse morphologique, contextuelle, syntaxique-prosodique, phonetisation, génération de la prosodie)
    • Synthèse TTS - approche par concaténation d'unités
    • Synthèse TTS par modèles statistiques (HMM)

  • Technologies vocales multimodales
    • Introduction : Parole & multimodalité
    • Reconnaissance de la parole audiovisuelle (principe, applications, codage des images (DCT, Eigenfeatures), stratégies de fusion des modalités)
    • Synthèse audiovisuelle (Synthèse basée « image » / synthèse basée « modèle », têtes parlantes et clone orofaciaux)
    • Conversion multimodale (objectifs, techniques, approche par réseaux de neurones artificiels, approche par GMM)

  • Transformation et conversion de la voix (introduction)
    • Introduction (objectifs et applications)
    • Transformation de la voix (pitch shifting & time stretching, TD-PSOLA, modélisation harmonique+bruit)
    • Conversion de voix (schéma général d'un système de VC, regression par modèle de mélange de gaussiennes).

 

 

Grenoble Images Parole Signal Automatique laboratoire

UMR 5216 CNRS - Grenoble INP - Université Joseph Fourier - Université Stendhal