Skip to Main content Skip to Navigation
Theses

Analyse des problèmatiques liées à la reconnaissance de sons ambiants en environnement réel

Nicolas Turpault 1
1 MULTISPEECH - Speech Modeling for Facilitating Oral-Based Communication
Inria Nancy - Grand Est, LORIA - NLPKD - Department of Natural Language Processing & Knowledge Discovery
Abstract : Notre vie est constamment bercée par les sons ambiants. Du bruit d’une voiture qui passe à un oiseau qui chante, de l’eau qui coule dans notre douche aux bruits de notre clavier, les sons ambiants sont partout. Les humains sans pertes auditives reconnaissent inconsciemment les sons qui les entourent et prennent de nombreuses décisions de la vie quotidienne en tenant compte des sons ambiants (réactions à des pleurs de bébé ou une alarme par exemple). Durant ces dernières années, la recherche autour de l’analyse automatique de ces sons ambiants s’est développée rapidement. L’analyse des sons ambiants est un problème difficile à résoudre en raison de la complexité des scènes sonores et de leur manque de structure apparente. Les événements sonores qui constituent les scènes sonores sont très variés et de nombreux événements peuvent être actifs simultanément. Afin de reconnaître les événements sonores de façon automatique, on a généralement recours à des méthodes d’apprentissage automatique. Les méthodes par apprentissage profond sont devenues très populaires ces dernières années grâce à leurs performances élevées pour des tâches diverses dont l’analyse de sons ambiants. Les méthodes d’apprentissage s’appuient sur l’utilisation de jeux de données contenant les événements que l’on souhaite reconnaître. Dans l’idéal, ces jeux de données contiennent des annotations concernant l’activité liée à chacune des classes d’événements sonores et éventuellement à leur temporalité (on parle alors d’annotations fortes). Ces dernières années, des jeux de données fortement annotés ont été collectés et publiés pour permettre l’analyse de sons ambiants, mais ils sont souvent composés d’une faible quantité de données qui ne sont pas toujours enregistrées en conditions réelles. Obtenir des annotations fortes coûte cher, et il est donc difficile d’obtenir un gros jeu de données fortement annotées. En revanche, la collecte de données non annotées ou annotées partiellement et sans indication de temporalité (annotations faibles) est plus facile. C’est dans ce cadre que s’inscrit cette thèse. Nous proposons de traiter le problème de la reconnaissance d’événements sonores en environnement domestique en utilisant des données non annotées et faiblement annotées. Le but est d’analyser les problèmes qui surviennent lors d’un scénario réel de reconnaissance d’événements sonores au sein d’une maison pour permettre l’assistance aux personnes en perte d’autonomie ou rendre la maison intelligente. Afin d’analyser ce problème, nous avons proposé une tâche de détection d’événements sonores dans un challenge international d’analyse de sons ambiants. Pour cette tâche nous avons défini un problème proche d’un scénario réel pour permettre l’analyse scientifique des différents problèmes qui apparaissent dans l’analyse de sons ambiants en environnement réel. Nous proposons un jeu de données pour permettre des analyses détaillées des problèmes scientifiques à résoudre pour permettre l’évolution continue de la tâche. Nous nous focalisons ensuite sur le problème de l’apprentissage semi-supervisé qui permet l’apprentissage de systèmes utilisant des données annotées et des données non annotées. Cette analyse se concentre sur l’apprentissage d’une représentation qui serait utile pour des applications finales d’étiquetage ou de détection d’événements sonores. Nous analysons enfin l’impact de l’annotation faible des données dans l’apprentissage d’un système de reconnaissance d’événements sonores afin de proposer des conseils pour l’annotation faible des jeux de données ou des pistes de solutions.
Complete list of metadata

https://hal.inria.fr/tel-03304880
Contributor : Nicolas Turpault <>
Submitted on : Wednesday, July 28, 2021 - 4:02:15 PM
Last modification on : Wednesday, September 8, 2021 - 4:08:38 PM

File

thesis.pdf
Files produced by the author(s)

Identifiers

  • HAL Id : tel-03304880, version 1

Citation

Nicolas Turpault. Analyse des problèmatiques liées à la reconnaissance de sons ambiants en environnement réel. Informatique [cs]. Université de Lorraine, 2021. Français. ⟨NNT : 2021LORR0108⟩. ⟨tel-03304880⟩

Share

Metrics

Record views

162

Files downloads

247