Categorías: Innovación

Producen voz sintetizada más natural

Investigadores de la Universidad de Bremen y SUPSI presentaron recientemente Diff-ETS, un modelo para la conversión ETS que podría producir un habla sintetizada más natural.

Este modelo, presentado en un artículo publicado en el servidor de preimpresión arXiv , podría usarse para desarrollar nuevos sistemas que permitan a las personas que no pueden hablar, como los pacientes que se sometieron a una laringectomía (una cirugía para extirpar parte de la laringe humana), para comunicarse con los demás.

La mayoría de las técnicas introducidas anteriormente para la conversión ETS tienen dos componentes clave: un codificador EMG y un codificador de voz.

El codificador de electromiografía (EMG) puede convertir señales EMG en características acústicas del habla, mientras que el vocodificador utiliza estas características del habla para sintetizar señales del habla.

“Debido a una cantidad inadecuada de datos disponibles y señales ruidosas, el habla sintetizada a menudo exhibe un bajo nivel de naturalidad”, escribieron Zhao Ren, Kevin Scheck y sus colegas en su artículo.

Vocodificador

“En este trabajo, proponemos Diff-ETS, un modelo ETS que utiliza un modelo probabilístico de difusión basado en puntuaciones para mejorar la naturalidad del habla sintetizada. El modelo de difusión se aplica para mejorar la calidad de las características acústicas predichas por un codificador EMG. “

A diferencia de muchos otros modelos de conversión ETS desarrollados en el pasado, que consisten en un codificador y un codificador de voz, el modelo de los investigadores tiene tres componentes: un codificador EMG, un modelo probabilístico de difusión y un codificador de voz. El modelo probabilístico de difusión, el segundo de estos componentes, es, por tanto, una nueva incorporación que podría dar como resultado un habla sintetizada más natural.

Ren, Scheck y sus colegas entrenaron el codificador EMG para predecir el llamado espectrograma log Mel (es decir, una representación visual de señales de audio) y objetivos de fonemas a partir de señales EMG. El modelo probabilístico de difusión, por otro lado, fue entrenado para mejorar los espectrogramas log Mel, mientras que el vocodificador previamente entrenado puede traducir este espectrograma en voz sintetizada.

Fuente: techxplore.com

Redacción

Siguiente Seguritech Privada une ciudadanos y seguridad con Monitoreo Inteligente »

Anterior « Crean guía de educación financiera para adultos mayores

Deja un comentario

Publicado por

Redacción

Etiquetas: voz sintetizada

2 años hace

Fortalecer la operación local, clave frente a la incertidumbre global: Nesim Issa Tafich

La arquitectura financiera de las empresas modernas enfrenta un desafío sin precedentes. En un entorno…

23 horas hace

Noticias

DeepSeek V4 impulsa la revolución china de chips y acelera la independencia tecnológica frente a EEUU

DeepSeek V4 se ha convertido en una pieza clave para el desarrollo tecnológico de China,…

3 días hace

Actualidad

México busca regular la IA: los grandes desafíos detrás de la futura ley tecnológica

La IA en México ya forma parte del debate legislativo nacional, pero convertirla en una…

4 días hace

Cotidiano

Met Gala con IA: así puedes crear tus propias fotos de alfombra roja paso a paso

La Met Gala con IA se ha convertido en una de las tendencias más llamativas…

4 días hace

Medicina

Robot del IPN busca cambiar vidas: crean asistente accesible para personas con discapacidad motriz

Un robot del IPN se perfila como una innovación mexicana que podría hacer más accesible…

5 días hace

Opinión

¿Qué pasaría si internet desaparece? Los 7 impactos que podrían paralizar al mundo

Internet se ha convertido en una pieza esencial para casi todos los aspectos de la…

5 días hace

Producen voz sintetizada más natural

Vocodificador

Entradas recientes

Fortalecer la operación local, clave frente a la incertidumbre global: Nesim Issa Tafich

DeepSeek V4 impulsa la revolución china de chips y acelera la independencia tecnológica frente a EEUU

México busca regular la IA: los grandes desafíos detrás de la futura ley tecnológica

Met Gala con IA: así puedes crear tus propias fotos de alfombra roja paso a paso

Robot del IPN busca cambiar vidas: crean asistente accesible para personas con discapacidad motriz

¿Qué pasaría si internet desaparece? Los 7 impactos que podrían paralizar al mundo

Nosotros

Producen voz sintetizada más natural

Vocodificador

Entrada Relacionada

Entradas recientes

Fortalecer la operación local, clave frente a la incertidumbre global: Nesim Issa Tafich

DeepSeek V4 impulsa la revolución china de chips y acelera la independencia tecnológica frente a EEUU

México busca regular la IA: los grandes desafíos detrás de la futura ley tecnológica

Met Gala con IA: así puedes crear tus propias fotos de alfombra roja paso a paso

Robot del IPN busca cambiar vidas: crean asistente accesible para personas con discapacidad motriz

¿Qué pasaría si internet desaparece? Los 7 impactos que podrían paralizar al mundo

Nosotros