Entrevista con Nicholas Ruiz
Entrevista: Nicholas Ruiz, PhD. Investigador en traducción del habla y Procesamiento del Lenguaje Natural y Asesor de Traducción del Habla para Waverly Labs.
¿Qué hace en Waverly Labs?
Expongo las tendencias actuales en reconocimiento de voz y traducción automática y recomiendo estrategias para traducir mejor de un idioma a otro.
En primer lugar, ¿cuándo y cómo decidió dedicarse a la investigación de la traducción oral?
En mi licenciatura, alrededor de 2001, cursaba estudios de informática y lenguas extranjeras al mismo tiempo. Empecé a pensar: "Si se pueden enseñar reglas a la gente para aprender una lengua extranjera, ¿se puede enseñar a un ordenador a hacer lo mismo?". Y si es así, ¿cómo puede la traducción automática ayudar a salvar las barreras de comunicación a las que nos enfrentamos cuando hablamos con personas de lenguas y culturas diferentes? A medida que fui madurando en el campo de la traducción automática durante mis estudios de máster y doctorado en Europa, empecé a plantearme el reto de sumergirme en el problema de la traducción del habla, no sólo en el laboratorio, sino también en mi vida cotidiana. Asistía a discursos y servicios en italiano y observaba cómo intérpretes no oficiales se esforzaban por traducir las palabras del orador al inglés para ayudar a grupos de estudiantes internacionales a seguir la conversación. La mitad de las veces no escuchaba al orador, sino que mi mente se perdía pensando en cómo la traducción de discursos podría ayudar a otros a entender y participar en conversaciones cotidianas antes de que aprendieran el idioma lo suficiente como para comunicarse sin ayuda.
¿Está el mundo preparado para la traducción de voz?
Estamos entrando en una época en la que el reconocimiento de voz y la traducción automática pueden cubrir muchos escenarios de conversación en los que antes era necesario un intérprete. En muchos idiomas, los sistemas de reconocimiento de voz son capaces de reconocer más del 90% de las palabras que dice la gente, y pares de idiomas como el inglés y el español están alcanzando cifras récord de precisión. Aunque las traducciones automáticas a veces suenan raras, la tecnología se ha desarrollado hasta el punto de que dos interlocutores pueden entender razonablemente bien lo que dice cada uno. La tecnología de traducción automática no puede sustituir del todo a las traducciones de alto riesgo, en las que la precisión es fundamental, pero cubre muchas de las necesidades en las que la traducción profesional o la interpretación humana no son la opción preferida. Además, la investigación ha demostrado que la traducción automática actual puede ayudar a los traductores profesionales a trabajar más rápido, lo que ha abierto nuevas, y quizá inesperadas, posibilidades en el sector en las que traductores profesionales y tecnología de traducción automática trabajan juntos.
¿Cómo funciona la traducción de voz?
La traducción del habla consta de tres partes: el reconocimiento automático del habla (o lo que algunos llaman "reconocimiento de voz"), la traducción automática y la síntesis del habla, que suelen realizarse en tres pasos distintos. El reconocimiento automático del habla toma el sonido del micrófono y lo transcribe en palabras. A continuación, esas palabras se traducen a otro idioma, bien mediante traducción automática estadística, bien mediante las técnicas de traducción automática neuronal, de reciente popularidad. A continuación, el sintetizador de voz convierte las palabras traducidas en sonidos que imitan la forma de hablar de los hablantes nativos.
¿Qué diferencia hay entre la traducción automática estadística y la neuronal?
En pocas palabras, la traducción automática estadística trata de aprender patrones para traducir frases o grupos de palabras. Las reglas de traducción se aprenden automáticamente a partir de muchas frases traducidas a otro idioma. Por ejemplo, una regla podría ser "mi coche azul" => "mi coche azul", o "coche azul" => "coche azul". Cada regla recibe varias puntuaciones que predicen la probabilidad de que se utilice la traducción. El sistema de traducción trata de combinar varias reglas para producir una traducción a la lengua de destino ordenando (o "reordenando") los grupos de palabras para maximizar la fluidez de la traducción. Estas reglas pueden parecerse a los libros de frases que la gente utiliza cuando visita otro país, pero un sistema de traducción típico tiene cientos de millones de reglas de traducción que se aprenden automáticamente. La mayoría de estos sistemas de traducción utilizan un modelo "codificador-decodificador". Si consideramos la traducción del inglés al español, el "codificador" convierte cada una de las palabras inglesas en una secuencia de vectores numéricos y el "decodificador" genera una palabra española tras otra recogiendo información de cada vector. Un "modelo de atención" pondera cada vector para decidir qué partes codificadas de la frase en inglés son útiles para producir la siguiente palabra traducida. A diferencia de la traducción automática estadística, es difícil entender cómo toma las decisiones de traducción un sistema de traducción automática neural; sin embargo, en muchos casos la traducción automática neural produce traducciones más fluidas.
¿Cómo hace posible Pilot la traducción conversacional?
Como he mencionado antes, el primer paso de la traducción de voz es el reconocimiento del habla. Uno de los retos del reconocimiento automático del habla es conseguir una grabación de alta calidad que reduzca la cantidad de ruido en el audio. El audio ruidoso confunde a los sistemas de reconocimiento del habla. Si el reconocedor del habla no es capaz de reconocer con precisión las palabras que dices, lo más probable es que la traducción no tenga sentido. Aunque existen dispositivos de reconocimiento de campo lejano que te permiten hablar desde el otro lado de la habitación, la distancia entre el micrófono o micrófonos y el hablante permite que otros ruidos interfieran en la señal, lo que dificulta el reconocimiento del habla. Pero a medida que el micrófono se acerca al orador, el audio grabado tiene más calidad y menos ruido. Los auriculares Bluetooth se crearon originalmente para que la gente pudiera hablar por teléfono sin cables, manteniendo una alta calidad. Un paso por encima de la mayoría de los auriculares bluetooth, Pilot utiliza la cancelación del ruido ambiental y tiene una configuración de matriz de micrófonos que está preparada para maximizar la calidad del audio. El objetivo de Pilot es proporcionar una experiencia de conversación natural y manos libres, respaldada por la tecnología de traducción de voz para minimizar las frustraciones de la comunicación multilingüe. Al compartir un auricular con un amigo, puedes entablar una conversación multilingüe con un solo kit de traducción. Hemos diseñado Pilot específicamente como un auricular traductor, no sólo para aumentar la precisión del reconocimiento de voz por la posición del micrófono, sino también para mantener una comunicación humana fluida y natural.
Nicolás Ruiz
Permanezca atento.
-Equipo Waverly