Conozca DailyTalk: el último conjunto de datos de texto a voz conversacional basado en FastSpeech Framework

El mercado mundial de conversión de texto a voz conversacional está experimentando un rápido aumento. En los últimos 3 o 4 años, hemos cubierto las diversas facetas de esta capacidad dinámica de aprendizaje automático que permite a los usuarios ofrecer experiencias altamente contextualizadas y personalizadas. Las capacidades conversacionales de texto a voz (TTS) se utilizan ampliamente para crear voces humanas para interactuar, entrenar y relacionarse con humanos reales. Además de la familia de conjuntos de datos TTS, los investigadores de IA asociados con la Escuela de Informática de KAIST en Corea han presentado «DailyTalk». DailyTalk es un conjunto de datos TTS conversacional basado en ML altamente avanzado diseñado específicamente para sistemas conversacionales.

Aquí hay una descripción general rápida del conjunto de datos TTS conversacional de DailyTalk y su aplicación previsible en el futuro cercano en sistemas conversacionales.

¿Qué es DailyTalk?

DailyTalk es parte de los conjuntos de datos TTS de próxima generación desarrollados utilizando el conjunto de datos de diálogo de fuente abierta DailyDialog. Los investigadores de IA acreditados por construir DailyTalk utilizaron el marco FastSpeech como base, grabando y modificando más de 2500 diálogos diferentes de DailyDialog. El conjunto de datos TTS resultante se ha utilizado para entrenar sistemas conversacionales TTS y NLP avanzados y está disponible para revisión académica como parte de la licencia CC-BY-SA 4.0.

¿Por qué los investigadores coreanos de IA desarrollaron un conjunto de datos TTS como DailyTalk?

Las empresas de inteligencia artificial están en la carrera por construir el conjunto más sofisticado de voces humanas que cubra una amplia gama de conversaciones que suenan humanas. Los modelos avanzados de TTS neuronal buscan absorber componentes humanos adicionales, como emociones, tonos y pausas para crear personajes de voz únicos basados en máquinas. Estos podrían usarse en diferentes aplicaciones, como conversaciones en centros de llamadas, chats basados en voz, asistentes virtuales, etc.

Los investigadores de inteligencia artificial Keon Lee, Kyumin Park y Daeyoung Kim identificaron las limitaciones del uso de modelos TTS convencionales. Estas limitaciones estaban relacionadas con las representaciones del contexto que pasaban por alto la importancia del diálogo, los ruidos de fondo y la calidad del registro, que influyen en la calidad de la conversación en escenarios del mundo real. El conjunto de datos de voz de diálogo de alta calidad de DailyTalk para sistemas TTS analiza la calidad de la síntesis del habla tanto general como conversacional, lo que representa el primer conjunto de datos abierto del mundo para TTS conversacional.