Investigadores de la Universidad de Michigan están explorando las posibilidades de la Inteligencia Artificial (IA) y desarrollando herramientas que pueden identificar si el ladrido de un perro transmite alegría o agresión.
Los mismos modelos también pueden obtener otra información de las vocalizaciones de los animales, como la edad, la raza y el sexo del animal. En colaboración con el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) de México en Puebla, el estudio encuentra que los modelos de IA originalmente entrenados en el habla humana pueden usarse como punto de partida para entrenar nuevos sistemas dirigidos a la comunicación animal.
Los resultados se presentaron en la Conferencia Internacional Conjunta sobre Lingüística Computacional, Recursos Lingüísticos y Evaluación.
"Al utilizar modelos de procesamiento del habla entrenados inicialmente en el habla humana, nuestra investigación abre una nueva ventana sobre cómo podemos aprovechar lo que hemos construido hasta ahora en procesamiento del habla para comenzar a comprender los matices de los ladridos de los perros", expresó Rada Mihalcea, profesora colegiada Janice M. Jenkins de Ciencias de la Computación e Ingeniería y directora del Laboratorio de IA de la UM.
“Hay muchas cosas que aún no sabemos sobre los animales que comparten este mundo con nosotros. Los avances en IA se pueden utilizar para revolucionar nuestra comprensión de la comunicación animal, y nuestros hallazgos sugieren que tal vez no tengamos que empezar de cero”.
RETOS
Uno de los obstáculos predominantes para el desarrollo de modelos de IA que puedan analizar las vocalizaciones de los animales es la falta de datos disponibles públicamente. Si bien existen numerosos recursos y oportunidades para registrar el habla humana, recopilar dichos datos de los animales es más difícil.
"Las vocalizaciones de los animales son logísticamente mucho más difíciles de solicitar y registrar", explicó Artem Abzaliev, autor principal y estudiante de doctorado en Informática e Ingeniería de la UM. “Deben ser registrados pasivamente en el medio silvestre o, en el caso de mascotas domésticas, con el permiso de sus dueños”.
Debido a esta escasez de datos utilizables, ha resultado difícil desarrollar técnicas para analizar las vocalizaciones de los perros, y las que existen están limitadas por la falta de material de entrenamiento. Los investigadores superaron estos desafíos reutilizando un modelo existente que fue diseñado originalmente para analizar el habla humana.
Este enfoque permitió a los investigadores aprovechar modelos sólidos que forman la columna vertebral de las diversas tecnologías de voz que se utilizan hoy en día, incluida la traducción de voz a texto y de idiomas. Estos modelos están entrenados para distinguir matices en el habla humana, como tono, tono y acento, y convertir esta información en un formato que una computadora puede usar para identificar qué palabras se dicen, reconocer al individuo que habla y más.
"Estos modelos son capaces de aprender y codificar los patrones increíblemente complejos del lenguaje y el habla humanos", comentó Abzaliev. "Queríamos ver si podíamos aprovechar esta capacidad de discernir e interpretar los ladridos de los perros".
Los investigadores utilizaron un conjunto de datos de vocalizaciones caninas registradas en 74 perros de diferentes razas, edades y sexos, en diversos contextos. Humberto Pérez-Espinosa, colaborador del INAOE, dirigió el equipo que recopiló el conjunto de datos. Luego, Abzaliev utilizó las grabaciones para modificar un modelo de aprendizaje automático, un tipo de algoritmo informático que identifica patrones en grandes conjuntos de datos. El equipo eligió un modelo de representación del habla llamado Wav2Vec2, que originalmente se entrenó con datos del habla humana.
RESULTADOS
Con este modelo, los investigadores pudieron generar representaciones de los datos acústicos recopilados de los perros e interpretar estas representaciones. Descubrieron que Wav2Vec2 no sólo tuvo éxito en cuatro tareas de clasificación; también superó a otros modelos entrenados específicamente con datos de ladridos de perros, con cifras de precisión de hasta el 70 %.
"Esta es la primera vez que se utilizan técnicas optimizadas para el habla humana para ayudar a decodificar la comunicación animal", mencionó Mihalcea. "Nuestros resultados muestran que los sonidos y patrones derivados del habla humana pueden servir como base para analizar y comprender los patrones acústicos de otros sonidos, como las vocalizaciones de animales".
Además de establecer modelos de habla humana como una herramienta útil para analizar la comunicación animal (lo que podría beneficiar a biólogos, conductistas animales y más), esta investigación tiene implicaciones importantes para el bienestar animal. Comprender los matices de las vocalizaciones de los perros podría mejorar en gran medida la forma en que los humanos interpretan y responden a las necesidades emocionales y físicas de los perros, mejorando así su cuidado y previniendo situaciones potencialmente peligrosas, concluyeron los investigadores.