Del ‘guau’ al wow: usan IA para descifrar los ladridos de los perros
¿Qué tipo de información contienen los ladridos de los perros? Esa fue la principal pregunta que se hizo un grupo de investigadores estadounidenses y mexicanos creadores de una herramienta basada en inteligencia artificial (IA) para entender mejor qué entrañan las vocalizaciones caninas. Un modelo de IA desarrollado por Artem Abzaliev, estudiante de doctorado en informática e ingeniería de la Universidad de Michigan, en colaboración con científicos del Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) en Puebla, fue originalmente entrenado en el habla humana y puede usarse como base para entrenar nuevos sistemas dirigidos a la comunicación animal.
La herramienta, basada en una red de aprendizaje profundo y llamada Wav2vec2, “acepta el audio del ladrido de un perro y predice diversas propiedades”, explica Abzaliev, autor principal del estudio publicado en La revista de la Universidad de Cornell. Para su desarrollo se utilizó un conjunto de datos de vocalizaciones de perros de diferentes razas, edades y sexos en diversos contextos captados por Humberto Pérez Espinosa, investigador del INAOE. Desde el 2015, cuando trabajaba en el Centro de Investigación Científica y de Educación Superior de Ensenada (CICESE), este experto en ciencias computacionales dedicó dos años a capturar ladridos de más de 100 perros con ayuda de estudiantes de veterinaria de la Universidad de Nayarit. “Visitábamos casas donde poníamos a los perros en distintas situaciones con la idea de generarles estímulos positivos y negativos para analizar después contrastes a través de patrones que se generan en vocalizaciones”, explica. El fin del experimento era analizar las emociones durante estos estímulos para después compararlos con otros distintos y poder ver a cuál se parecía más, “si a una reacción positiva o a una negativa”, agrega Pérez Espinosa.
}Algunas de las pruebas más comunes llevadas a cabo por su equipo para registrar las respuestas caninas consistía en que un extraño tocara fuerte la puerta de su hogar o que el dueño del can simulara que iba a salir a pasear pero se fuera de la casa sin él, “lo que comúnmente provoca frustración en los perros, también angustia”, aclara el experto. Para provocar estímulos positivos, por el contrario, a las mascotas se les daba un juguete novedoso y atractivo o caricias, provocando un estado emocional agradable en ellos. Todas esas grabaciones realizadas durante años por Pérez Espinosa fueron registradas en una base que después su colega Abzaliev utilizó para modificar un modelo de aprendizaje automático, un tipo de algoritmo informático que identifica patrones en grandes conjuntos de datos con el cual los investigadores pudieron generar representaciones de los datos acústicos recopilados de los perros e interpretar estas representaciones.
El equipo trabajó con el modelo Wav2Vec2, desarrollado por la empresa Meta y originalmente estrenado con datos del habla humana. Wav2Vec2 “utiliza un método llamado aprendizaje autosupervisado, lo que significa que no requiere de datos etiquetados para el habla humana”, explica el investigador estadounidense. Sin embargo, puesto que el modelo no fue creado para interpretar a los perros, el equipo usó un método más complejo para entrenarla con sus muestras.
La técnica utilizada conocida como validación cruzada de 10 pliegues consiste en “dividir los datos en 10 partes iguales. El modelo se entrena utilizando nueve de estas partes y se evalúa con la parte restante; este proceso se repite 10 veces, alternando la parte utilizada para la evaluación. Al final, se calcula un promedio de los resultados obtenidos en cada iteración”, destaca Pérez Ramírez. Como agrega, “la idea es medir el desempeño del modelo de manera más confiable y reducir la posibilidad de que el resultado dependa de una sola división de los datos”.
De acuerdo con los resultados obtenidos, Wav2Vec2 no sólo tuvo éxito en cuatro tareas de clasificación (identificación del perro, de la raza, del sexo, y situación o contexto en el cual ladra) sino que también superó a otros modelos entrenados específicamente con datos de ladridos de perros, con cifras de precisión de hasta el 70 %. Aunque las vocalizaciones podían diferenciarse según la raza, el sexo y la edad del perro, lo más sencillo de identificar por la nueva herramienta fue el ladrido de cada individuo, “identificar qué perro estaba ladrando”, matiza Pérez Espinosa. Según expone, en su base de datos se generan categorías y subcategorías. “Sabemos que en la prueba donde llega un extraño a su casa, los perros suelen reaccionar de forma agresiva”. Pero entre ellos se dan diferencias de intensidad en la reacción, es decir, las subclasificaciones dependen de la intensidad generada por la emoción percibida del perro. “Entonces, si tenemos pocas categorías disponemos de más muestras de cada categoría, pero si las dividimos con mayor detalle de análisis disminuyen los datos con los que contamos. Como aplicamos técnicas de aprendizaje automático, siempre dependemos de contar con información suficiente para darle como ejemplo a los algoritmos. Al subdividir las muestras se hacen menos precisos los modelos que entrenamos con los datos”, advierte.
Modelos deep learning para conocer mejor las necesidades de los perros y salvar vidas
Este modelo es uno de los primeros que utiliza una técnica optimizada para el habla humana con el fin de ayudar a decodificar la comunicación animal. “Existen diversas técnicas en análisis acústico que se basan en algunos aspectos comunes en generación de vocalizaciones, técnicas que han funcionado para analizar habla humana también ha servido para analizar ladridos. Incluso nosotros hemos probado con algunas desarrolladas para analizar música que han dado resultados favorables al analizar vocalización de perro”, explica Pérez Espinosa.
Este tipo de técnicas de procesamiento de señales para la caracterización acústica del habla humana sirven para describir las propiedades de la voz en el dominio del tiempo o la frecuencia. “Muchas de estás técnicas usadas en la caracterización de voz humana como MFCCs, Mel Spectrogram, LPC, F0, también se usan para caracterizar ladridos, obteniendo buenos resultados”, pone de ejemplo el mexicano. No obstante, “si bien ya se han utilizado otros modelos anteriormente para entender ladridos, se suelen usar modelos que no son de aprendizaje profundo”, matiza Abzaliev. La novedad del modelo Wav2Vec2 es que se trata de un modelo entrenado con muchos datos de voz humana y deep learning (redes neuronales profundas) para representar las señales de voz humana”, aclara Pérez Espinosa.
Además de establecer modelos de habla humana como una herramienta útil para analizar la comunicación canina y de otros animales, lo que podría ayudar sustancialmente a comprender mejor aspectos de la biología o la etología, entre otros campos, esta investigación tiene además implicaciones importantes para el bienestar animal. Conocer mejor los matices de los ladridos podría mejorar la forma en que los dueños o los veterinarios interpretan y responden a las necesidades emocionales y físicas de los perros, mejorando así su cuidado y previniendo situaciones potencialmente peligrosas.
Share this content:
Publicar comentario