Vous êtes ici : GIPSA-lab > Valorisation > Logiciels

G-ULSID
Grenoble-UCLA Lexical and Syllabic Inventory Database

Contact : Denis FAURE-VINCENT

 

 

 

Date de disponibilité : 30/06/2020

URL de téléchargement : mailto:denis.faure-vincent@gipsa-lab.grenoble-inp.fr

 

Responsable scientifique : Nathalie Vallée

Responsable bases de données et développements : Denis Faure-Vincent


Le projet G-ULSID

Le projet G-ULSID (Grenoble & UCLA Lexical and Syllabic Inventory Database) vise à constituer une base de données de lexiques transcrits phonologiquement (IPA) et syllabés pour la recherche de régularités dans la phonotaxe des langues du monde. L'application prend en compte la structure de la syllabe et les niveaux infra- et supra-syllabiques. G-ULSID contient à ce jour les lexiques de 30 langues dont 3 sont en cours de finalisation, totalisant pour l'ensemble quelques 594 900 syllabes extraites d'environ de 188 900 lemmes - de 2 000 environ pour le ngizim à 22 849 pour le français - avec une moyenne par langue de 6 441 lemmes. Chaque entrée lexicale est phonologisée et découpée en syllabe(s), et chaque syllabe est décomposée en sous constituants (attaque et rime décomposée en noyau et coda). Les langues sont sélectionnées sur des critères de représentativité définis par Maddieson (1984) pour les bases de données segmentales UPSID (UCLA Phonological Segment Inventory Database). Ils font référence à l'appartenance génétique et à la provenance géographique des langues. Les langues retenues disposent toutes d'un dictionnaire ou d'un lexique dont les entrées sont soit phonétiques, soit phonologiques, soit orthographiques lorsque le code graphique de la langue est aisément interprétable avec un code phonétique. La syllabation a été obtenue soit parce qu'elle figurait dans le lexique publié, soit manuellement par au moins deux locuteurs natifs de la langue. Dans la continuité de Maddieson & Precoda (1992), seuls les lemmes sont pris en compte et les emprunts récents sont écartés.


Les lexiques

Les lexiques des langues du projet G-ULSID ont d'abord été stockés dans des fichiers textes qui étaient analysés avec l'application Matlab. Récemment, les 27 lexiques ont été transférés dans une base de données relationnelles (MYSQL) qui est consultable depuis des pages web (via le serveur APACHE et les langages de programmation PHP, HTML et Javascript). Les 100 premières entrées de chaque lexique sont consultables en libre accès. Les lexiques comme celui du géorgien ou du russe ont été intégré directement dans la dernière version de la base de données relationnelle ULSID, d'abord par une conversion des graphèmes géorgiens ou cyrilliques vers les phonèmes de l'IPA, traitement effectué par un programme PHP et des requêtes SQL (langage standardisé pour la manipulation des informations stockées dans une base de données). Une autre application web permet à un locuteur natif de vérifier le lexique et d'effectuer la syllabation qui sera vérifiée/discutée ensuite avec au moins deux autres locuteurs natifs. Des statistiques et des graphiques peuvent être obtenus à partir de l'application web qui analyse les contenus des lexiques provenant de la base de données MYSQL. L'interface pour l'exploitation des données n'a cessé d'être développée en fonction des besoins de la recherche. Elle permet l'extraction automatique des gabarits lexicaux et structures syllabiques associés à leurs fréquences d'occurrences, de calculer les occurrences des traits de lieu ou de mode, occurrences des phonèmes et syllabes, et d'estimer le rendement des traits, des phonèmes et des syllabes dans la ou les langues sélectionnées au préalable. Des informations dont découlent les propriétés phonotactiques sont récupérables à partir d'analyses distributionnelles et/ou du calcul de matrices d'occurrences et de cooccurrences en fonction des structures syllabiques et de leurs frontières.


Quelques exemples de résultats pour une langue donnée :

Cooccurrences attaque - noyau


Nombre de phonèmes par mot


Nombre de phonèmes par syllabe


Technologies utilisées

  • base de données relationnelles MYSQL/MARIADB
  • langage SQL
  • langages de programmation : PHP et javascript

Historique du projet

Ce projet de base de données a été initié en 2000 grâce à une collaboration avec Ian Maddieson (UCLA) qui nous a livré une partie des fichiers sources des lexiques syllabés de Maddieson et Precoda (1992) et Maddieson (1993). Dans un premier temps, ce projet a été appelé (p.n.) ULSID (UCLA – Université de Los Angeles – Lexical and Syllabic Inventory Database) puis G-ULSID (Grenoble and UCLA Lexical and Syllabic Inventory Database). Le choix des langues est basé sur des critères de représentativité définis par Maddieson (1986, 1991) pour les bases de données segmentales UPSID (UCLA Phonological Segment Inventory Database) de Maddieson (1984 : 317 langues) et Maddieson et Precoda (1989 : 451 langues) et plus récemment LAPSyD (Lyon and Albuquerque Phonological System Database) avec plus de 700 langues (Maddieson, 2009), constituées pour la recherche de tendances universelles dans les inventaires phonologiques des langues du monde. Ces critères de sélections des langues, compatibles avec ceux de Croft (1990:22), font référence à l'appartenance génétique et à la provenance géographique des langues : (1) distance génétique d'au moins 1500 ans pour s'assurer de l'indépendance de l'évolution des langues ; (2) dispersion géographique large pour minimiser les conséquences des contacts linguistiques.


Disponibilité

La base de données est actuellement en cours de migration sur un nouveau site web et sera consultable d'ici fin septembre 2020.


GIPSA-lab, 11 rue des Mathématiques, Grenoble Campus BP46, F-38402 SAINT MARTIN D'HERES CEDEX - 33 (0)4 76 82 71 31