Etiquetado de Datos: guía esencial del trabajo en la IA

Detrás de cada modelo de IA que reconoce un gato en una foto, transcribe audio o genera una respuesta útil, hay miles de horas de trabajo humano que rara vez se mencionan: el etiquetado de datos. Millones de personas en todo el mundo, muchas en condiciones laborales precarias, han pasado años etiquetando manualmente las imágenes, textos y audios que hacen posible el «aprendizaje» de los sistemas de inteligencia artificial más avanzados.

Table of Contents

Etiquetado de datos: el trabajo invisible que entrena a la IA

El etiquetado de datos es el proceso de añadir información descriptiva a datos en bruto para que puedan usarse en el entrenamiento supervisado de modelos de inteligencia artificial. Una imagen sin etiquetar es solo una colección de píxeles para un ordenador. Una imagen etiquetada como «perro corriendo en un parque» se convierte en un ejemplo de entrenamiento valioso que un modelo puede usar para aprender a reconocer patrones similares.

Este proceso, aunque conceptualmente simple, es la base sobre la que se construye prácticamente todo el aprendizaje supervisado en inteligencia artificial. Sin millones de ejemplos etiquetados correctamente, los modelos de reconocimiento de imágenes, los sistemas de moderación de contenido y muchos otros sistemas de IA no podrían existir en su forma actual.

Por qué el etiquetado de datos sigue siendo necesario en la era de la IA generativa

Podría parecer que con modelos de IA tan avanzados, el etiquetado manual ya no sería necesario. La realidad es distinta: incluso los modelos más sofisticados necesitan datos etiquetados para entrenamiento inicial, para evaluación de calidad y para el proceso de alineación que hace que los modelos sean útiles y seguros. El etiquetado de datos es, paradójicamente, más importante que nunca para garantizar que la IA generativa produzca resultados de calidad.

Quién hace el etiquetado de datos y en qué condiciones

Las plataformas de microtrabajo

Empresas como Amazon Mechanical Turk, Appen y Scale AI conectan a empresas de tecnología que necesitan grandes volúmenes de datos etiquetados con trabajadores distribuidos por todo el mundo que realizan estas tareas a cambio de pagos generalmente muy bajos por tarea individual.

Investigaciones periodísticas han documentado que muchos de estos trabajadores, especialmente en países con salarios más bajos, ganan apenas unos pocos dólares por hora etiquetando contenido que en ocasiones incluye material extremadamente perturbador, como imágenes violentas o de explotación, necesario para entrenar sistemas de moderación de contenido.

El caso documentado de Kenia y OpenAI

Una investigación de Time reveló que OpenAI contrató trabajadores en Kenia, a través de una empresa subcontratada, para etiquetar contenido extremadamente gráfico y perturbador con el objetivo de entrenar a ChatGPT para reconocer y rechazar ese tipo de contenido. Los trabajadores recibieron pagos de entre 1,32 y 2 dólares por hora, generando un debate importante sobre las condiciones laborales en la cadena de suministro de la inteligencia artificial. Puedes leer más sobre estas investigaciones en time.com/6247678/openai-chatgpt-kenya-workers.

El etiquetado especializado de alto valor

No todo el etiquetado de datos es de bajo coste. Existe un mercado significativo de etiquetado especializado que requiere expertise específico: médicos que etiquetan imágenes diagnósticas, abogados que etiquetan documentos legales, programadores que evalúan y corrigen código generado por IA. Este trabajo está mucho mejor remunerado y es fundamental para entrenar modelos en dominios especializados.

Las técnicas que están reduciendo la dependencia del etiquetado manual

Aprendizaje semi-supervisado

Estas técnicas permiten entrenar modelos efectivos con una fracción de los datos etiquetados que requeriría el aprendizaje completamente supervisado, combinando una pequeña cantidad de datos etiquetados con grandes cantidades de datos sin etiquetar.

Etiquetado asistido por IA

Irónicamente, la propia inteligencia artificial está ayudando a reducir el trabajo de etiquetado manual: los modelos pueden generar etiquetas preliminares que los humanos solo necesitan revisar y corregir, en lugar de etiquetar desde cero, acelerando significativamente el proceso. Puedes explorar las plataformas de etiquetado asistido en scale.com.

Aprendizaje por refuerzo con retroalimentación humana

El RLHF, fundamental para alinear modelos como ChatGPT, requiere que humanos evalúen y clasifiquen respuestas del modelo, una forma especializada de etiquetado que ha creado toda una nueva categoría de trabajo: evaluadores de calidad de IA.

Las implicaciones éticas del etiquetado de datos

El debate sobre las condiciones laborales del etiquetado de datos plantea preguntas importantes sobre la responsabilidad de las empresas de IA hacia los trabajadores en su cadena de suministro, similar a los debates históricos sobre condiciones laborales en otras industrias globalizadas. La exposición prolongada a contenido perturbador durante el etiquetado de seguridad también plantea preocupaciones serias de salud mental para estos trabajadores, frecuentemente sin el apoyo psicológico adecuado.

Conclusión

El etiquetado de datos es el trabajo humano invisible que hace posible buena parte de la inteligencia artificial que usamos cada día. Entender que detrás de cada modelo de IA hay personas reales realizando trabajo a menudo mal remunerado y emocionalmente exigente añade una dimensión humana importante a las conversaciones sobre el desarrollo responsable de esta tecnología.

En ExplicaIA seguimos explorando todas las dimensiones de la inteligencia artificial, incluyendo las que rara vez aparecen en los titulares sobre sus capacidades más visibles.

Etiquetado de datos: el trabajo humano invisible detrás de la inteligencia artificial