annuler
Affichage des résultats de 
Rechercher plutôt 
Vouliez-vous dire : 

Rejoignez nous, partagez votre expérience!

À découvrir : la technologie de séparation sonore alimentée par l'intelligence artificielle

profile.country.GB.title
_J.G.M_
Community Team
Community Team
773  Visites

main.jpg

 

La séparation sonore est une technologie qui permet d'extraire des sons individuels à partir d'une source audio mixte. C'est une opération qui, par le passé, était considérée comme incroyablement difficile à réaliser. Tout a changé en 2013, lorsque nous avons intégré la technologie d'IA Sony, qui nous a permis d'améliorer considérablement nos performances dans ce domaine. Cette technologie a déjà permis de faire revivre des films classiques, d'éliminer le bruit sur les smartphones, et a rendu possible des karaokés en temps réel pour les services de diffusion de musique. Nous espérons la voir conquérir bien d'autres domaines à l'avenir.

 

Yuki Mitsufuji de notre centre de R&D de Tokyo, et Stefan Uhlich de notre centre de R&D de Stuttgart, nous en disent plus.

 

Recréer les capacités humaines à l'aide de machines.

 

« Lorsque nous écoutons une performance composée de plusieurs sons mélangés, nous sommes capables de distinguer les instruments utilisés. De la même manière, nous pouvons nous concentrer sur la voix d'une seule personne lors d'une conversation, même au milieu de la foule », explique Yuki. Avant l'utilisation de l'IA, cette opération était extrêmement difficile à réaliser à l'aide d'ordinateurs. « Certains disent que c'est comme mélanger deux jus et essayer ensuite d'en extraire un des deux », ajoute-t-il.

 

Dans la démonstration ci-dessous, vous entendrez trois exemples de notre technologie de séparation sonore appliquée à une scène de Lawrence d'Arabie, pour vous montrer comment nous extrayons le dialogue et d'autres bruitages.

 

 

La séparation sonore par l'IA fonctionne en apprenant à l'ordinateur comment accomplir la tâche.

Prenons l'exemple d'une guitare. C'est un instrument qui émet un son, une fréquence très spécifique, qui est assimilé par le réseau neuronal pendant l'apprentissage de l'ordinateur.

 

« Durant cet apprentissage, le réseau voit passer un grand nombre de morceaux de musique, bien plus que nous n'en entendrons jamais de notre vivant, en même temps que le son cible que nous devons extraire », explique Stefan. Par conséquent, quel que soit le nombre de sons différents mélangés dans un enregistrement, notre système d'IA est capable d'identifier les caractéristiques particulières de la guitare et de les extraire.

 

 « Nous sommes capables d'identifier une pomme lorsque nous en voyons une, car nous en avons déjà vu des milliers », explique Yuki. « L'IA s'applique de manière analogue à la séparation sonore, à la fois sur le plan mécanique et conceptuel. »

 

Une technologie qui nous aide à remonter le temps.

 

Grâce à la technologie de séparation sonore de l'IA, nous pouvons revisiter de vieilles chansons, en extraire le chant ou séparer les instruments, et remixer la piste. En ce qui concerne les films, cette technologie génère de nouvelles possibilités dans le domaine du divertissement immersif.

 

« Afin d'offrir un champ sonore immersif aux spectateurs de films, il est nécessaire de fournir des sons sous différents angles et de recréer un espace audio en 3D », précise Stefan. « Cependant, pour les films anciens, les dialogues et les effets sonores se trouvent sur la même piste, ce qui limite le contenu que nous pouvons extraire et le niveau d'immersion que nous pouvons donner au champ sonore. Nous nous sommes demandé si nous pouvions étendre notre technologie aux films, et après avoir assimilé une bibliothèque d'effets sonores (bruitages), notre système d'IA a pu extraire avec succès des effets sonores individuels de la copie originale. »

Vous pouvez voir cette technique à l'œuvre dans la vidéo de Lawrence d'Arabie ci-dessus.

 

La technologie de séparation sonore est également incontournable dans d'autres domaines, auxquels on ne pense pas forcément immédiatement.

 

Yuki évoque ensuite Aibo, le chien-robot de Sony. « aibo réagit aux voix humaines et peut communiquer, mais s'il collecte uniquement les bruits environnants, il percevra des sons tels que les propres bruits mécaniques de aibo ou le bruit du vent. En utilisant la séparation sonore de l'IA pour extraire les voix humaines et supprimer les autres bruits de fond, nous avons réussi à améliorer ses capacités de reconnaissance vocale. »

 

Nous avons également appliqué des méthodes comparables à d'autres produits. Par exemple, les utilisateurs du smartphone Xperia™ profitent de conversations claires sans être dérangés par le vent, et notre technologie « Mode karaoké », développée pour une application de diffusion de musique, supprime le chant en temps réel pour permettre à la voix de l'utilisateur de se coller à la source sonore.

 

Regarder vers l'avenir.

 

Alors que Sony PSL et Sony Music Solutions commencent à proposer cette technologie en dehors de Sony, Yuki est impatient de découvrir ce que l'avenir réserve. « Nous espérons que notre technologie sera comme une machine à remonter le temps qui permettra aux artistes du passé et du présent de collaborer à travers le temps ».

 

Quant à Stefan, il est impatient de voir la technologie se développer davantage. « D'un point de vue technologique, nous allons assister à une transition vers la séparation de sources sonores de la vie courante, avec un nombre et une origine des sources inconnus », déclare-t-il. « Les gens ont reconnu qu'il s'agissait d'un concept complexe mais intéressant, qui ouvrira la voie à encore plus d'utilisations commerciales ».

 

Nous sommes impatients de découvrir quels nouveaux domaines la séparation sonore nous aidera à explorer. Et vous, où aimeriez-vous qu'elle soit utilisée ?

 

Cet article est tiré d'un récit publié sur Sony.net. Consultez l'original ici : https://www.sony.net/SonyInfo/technology/stories/AI_Sound_Separation/