Cantantes del futuro

Comencemos esta entrada con un poco de música, un video de un concierto en vivo de quien recientemente se ha convertido en una de las más famosas estrellas del pop en Japón y que próximamente complacerá a sus seguidores occidentales en Los Ángeles California: Miku Hatsune.

¿Qué tiene de impresionante este video además de que la cantante es un personaje virtual proyectado en un holograma que baila? Probablemente no les parecerá una canción particularmente destacada, aunque seguramente habrán notado los altos tonos que la cantante alcanza. Aunque la voz es real, tomada de muestras de voz de la actriz de voz japonesa Saki Fujita, esta actriz no tiene necesidad de cantar, pues de eso se encarga una computadora, cuyo software es alimentado con la partitura y letra de la canción, que parece que logra de manera impresionante su cometido.

Desde hace muchos años se ha investigado la conversión de texto a voz por medio de software. Esta tarea es particularmente complicada dado el manejo que una persona pueda hacer de sus cuerdas vocales, el énfasis que se da a ciertas expresiones, la alegrìa, ironía y demás sentimientos expresados a través de la voz y por supuesto la complejidad fonética de los diferentes idiomas que existen en el mundo. Pese a estas dificultades técnicas ya existen varios motores de converisón de texto a voz como Festival o Natural Voices, que hacen un excelente trabajo, dejando de lado el énfasis y las emociones del hablante.

Por otro lado, desde hace mucho tiempo se utiliza la computadora en la producción musical utilizando el formato MIDI. Este formato es muy popular en la mayoría de sintetizadores y algunas tarjetas de sonido, pues la música guardada en este formato no es una señal de audio, sino notación musical, compás, intensidad, volumen, vibrato y demás efectos y arreglos de la composición musical. Con esta información almacenada y un banco de sonidos, es posible recrear la melodía almacenada en este formato, pues podemos pensarla, a grosso modo como una partitura virtual.

El banco de sonidos puede variar entre sintetizadores y tarjetas de sonido, por lo que algunos darán un sonido más realista a la composición, mientras que otros pueden llegar a sonar como a los videojuegos de los años 80, los cuales utilizaban también formatos similares al MIDI con bancos de sonido muy limitados. Algunos bancos de sonido incluyen voces sintéticas que en algunas ocasiones se utilizan para hacer coros basados en monosílabos.

En el año 2004 Yamaha financió un proyecto de investigación en la Universidad Pompeu Fabra para mezclar las ideas anteriormente expuestas en un sintetizador de canto, es decir, un software al que se le pueden indicar las notas y la letra de una canción para resultar en un canto sintético como el video que se presenta al inicio de esta entrada. Este software fue comercializado posteriormente bajo el nombre de Vocaloid y con esta tecnología la compañía japonesa Crypton Future Media comenzó la creación de personajes virtuales tomando muestras de voz de actores y actrices de voz que, gracias a este software, pueden llegar a tonos difícilmente alcanzados por humanos.

La voz sintética es en muchos casos reconocible, por lo que hay investigaciones que tratan de buscar un medio de hacer esta voz lo mas humana posible. Investigadores de la Universidad de Tokyo han encontrado que son las curvas de frecuencia las que hacen que la voz parezca mas natural. Este elemento es en muchas ocasiones ajustado de manera manual, lo que abre posibilidad a errores, además de que es una tarea que requiere de demasiado tiempo.

Akio Watanabe y Hitoshi Iba, ambos de la Universidad de Tokyo, han desarrollado un nuevo algoritmo para comparar las curvas de frecuencia de canciones con voces reales y llevarla a una curva que será utilizada en las canciones sintéticas. Con esto han simplificado el proceso de optimización para crear curvas de frecuencia vocales y han desarrollado un modelo de frecuencia que puede imitar la expresión humana en una voz sintética.

El algoritmo desarrollado es un algoritmo genético en el que, en la primera generación se producen ocho curvas de frecuencia con parámetros aleatorios y son aplicadas a una canción en Vocaloid. Posteriormente el productor musical evaluará el resultado de estas curvas de frecuencia y las mejores serán utilizadas como padres de las siguientes generaciones, las cuales resultan de combinar los parámetros de los padres e insertan una probabilidad de mutación. Haciendo este proceso de manera iterativa, eventualmente se obtienen los parámetros para que una voz sintética tenga las características mas semejantes a una voz humana.

Con estos avances, el éxito que los personajes de Crypton Future Media han tenido en Japón y su próxima incursión en el mercado occidental, podemos pensar que se está abriendo un nuevo mercado para productores musicales independientes, quienes se bastarán con solo una computadora para lanzar su música, compositores aficionados y para todos aquellos que siempre quisieron escuchar su voz en una canción que creyeron que jamás podrían cantar.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s