INNOVACIÓN


Cómo mejorar los procesos de automatización

08/01/2025

CATEGORíA: Automatización y Robótica MARCA: Massachusetts Institute of Technology


Investigadores del MIT (Massachusetts Institute of Technology) reducen el sesgo en los modelos de IA preservando o mejorando la precisión con una nueva técnica que identifica y elimina los ejemplos de entrenamiento que más contribuyen a los fallos de un modelo de aprendizaje automático.


Los modelos de aprendizaje automático pueden fallar cuando tratan de hacer predicciones para individuos que estaban subrepresentados en los conjuntos de datos en los que fueron entrenados.

 

Por ejemplo, un modelo que predice la mejor opción de tratamiento para alguien con una enfermedad crónica puede ser entrenado usando un conjunto de datos que contiene en su mayoría pacientes varones. Ese modelo podría hacer predicciones incorrectas para las pacientes femeninas cuando se despliegan en un hospital.

 

Para mejorar los resultados, los ingenieros pueden intentar equilibrar el conjunto de datos de entrenamiento eliminando puntos de datos hasta que todos los subgrupos estén representados por igual. Si bien el equilibrio del conjunto de datos es prometedor, a menudo requiere eliminar una gran cantidad de datos, perjudicando el rendimiento general del modelo.

Investigadores del MIT desarrollaron una nueva técnica que identifica y elimina puntos específicos en un conjunto de datos de entrenamiento que más contribuyen a un modelo de fracasos en subgrupos minoritarios. Al eliminar muchos menos puntos de datos que otros enfoques, esta técnica mantiene la precisión general del modelo al tiempo que mejora su rendimiento con respecto a los grupos insuficientemente representados.

 

Además, la técnica puede identificar fuentes ocultas de sesgo en un conjunto de datos de entrenamiento que carece de etiquetas. Los datos no etiquetados son mucho más prevalentes que los datos etiquetados para muchas aplicaciones.

Este método también podría combinarse con otros enfoques para mejorar la equidad de los modelos de aprendizaje automático desplegados en situaciones de alto riesgo. Por ejemplo, algún día podría ayudar a asegurar que los pacientes insuficientemente representados no sean mal diagnosticados debido a un modelo de IA sesgado.

 

“Muchos otros algoritmos que tratan de abordar este problema asumen que cada punto de datos importa tanto como cualquier otro punto de datos. En este documento, estamos mostrando que la suposición no es cierta. Hay puntos específicos en nuestro conjunto de datos que están contribuyendo a este sesgo, y podemos encontrar esos puntos de datos, eliminarlos y obtener un mejor rendimiento”, dice Kimia Hamidieh, estudiante graduada de ingeniería eléctrica e informática (EECS) en el MIT y co-autor principal de un artículo sobre esta técnica.

 

Escribió el artículo con Saachi Jain PhD No24 y el estudiante graduado de EECS Kristian Georgiev; Andrew Ilyas MEng No 18, PhD No 23, un becario Stein en la Universidad de Stanford; y los autores senior Marzyeh Ghassemi, profesor asociado en EECS y miembro del Instituto de Ciencias de la Ingeniería Médica y el Laboratorio de Sistemas de Información y Decisiones, y Aleksander Madry, profesora de Sistemas de Diseño de Cadence en el MIT.

 

Eliminar los malos ejemplos

A menudo, los modelos de aprendizaje automático están entrenados utilizando enormes conjuntos de datos recopilados de muchas fuentes a través de Internet. Estos conjuntos de datos son demasiado grandes para ser cuidadosamente comisariados a mano, por lo que pueden contener malos ejemplos que perjudican el rendimiento del modelo.

Los científicos también saben que algunos puntos de datos impactan el rendimiento de un modelo en ciertas tareas posteriores más que en otras.

 

Los investigadores del MIT combinaron estas dos ideas en un enfoque que identifica y elimina estos puntos de datos problemáticos. Buscan resolver un problema conocido como error del peor grupo, que ocurre cuando un modelo tiene un rendimiento inferior al de los subgrupos minoritarios en un conjunto de datos de entrenamiento.

 

La nueva técnica de los investigadores es impulsada por un trabajo previo en el que introdujeron un método, llamado TRAK, que identifica los ejemplos de entrenamiento más importantes para una salida de modelo específica.

 

Para esta nueva técnica, toman predicciones incorrectas que el modelo hizo sobre subgrupos minoritarios y utilizan TRAK para identificar qué ejemplos de entrenamiento contribuyeron más a esa predicción incorrecta.

“Agregando esta información a través de las predicciones de malas pruebas de la manera correcta, somos capaces de encontrar las partes específicas del entrenamiento que están impulsando la precisión del peor grupo hacia abajo en general”, Ilyas explica.

 

Luego eliminan esas muestras específicas y reentrenan el modelo en los datos restantes.

Dado que tener más datos suele producir un mejor rendimiento general, eliminar sólo las muestras que impulsan los fracasos del peor grupo mantiene la precisión general del modelo, al tiempo que aumenta su rendimiento en subgrupos minoritarios.

 

Un enfoque más accesible

A través de tres conjuntos de datos de aprendizaje automático, su método superó a múltiples técnicas. En un caso, aumentó la precisión del grupo al tiempo que se suprimió unas 20.000 muestras de entrenamiento menos que un método convencional de balanceo de datos. Su técnica también logró una mayor precisión que los métodos que requieren hacer cambios en el funcionamiento interno de un modelo.

Debido a que el método del MIT implica cambiar un conjunto de datos en su lugar, sería más fácil para un practicante usarlo y se puede aplicar a muchos tipos de modelos.

 

También se puede utilizar cuando se desconoce el sesgo porque los subgrupos en un conjunto de datos de entrenamiento no están etiquetados. Al identificar los puntos de datos que más contribuyen a una característica que el modelo es el aprendizaje, pueden entender las variables que está utilizando para hacer una predicción.

“Esta es una herramienta que cualquiera puede utilizar cuando está entrenando un modelo de aprendizaje automático. Pueden mirar esos puntos de datos y ver si están alineados con la capacidad que están tratando de enseñar el modelo”, dice Hamidieh.

 

El uso de la técnica para detectar sesgos de subgrupos desconocidos requeriría intuición sobre qué grupos buscar, por lo que los investigadores esperan validarlo y explorarlo más plenamente a través de futuros estudios en humanos.

También quieren mejorar el rendimiento y la fiabilidad de su técnica y garantizar que el método sea accesible y fácil de usar para los profesionales que algún día podrían desplegarlo en entornos del mundo real.

"Cuando tienes herramientas que te permiten mirar críticamente los datos y averiguar qué puntos de datos van a conducir al sesgo u otro comportamiento indeseable, te da un primer paso hacia la construcción de modelos que van a ser más justos y más confiables", dice Ilyas.

 

https://news.mit.edu

 

 

 

Volver al listado