Visión artificial: cómo los ordenadores aprendieron a ver el mundo

Desbloqueamos el móvil con nuestra cara. Los coches autónomos evitan peatones en tiempo real. Los médicos reciben ayuda para detectar tumores en radiografías. Los sistemas de control de calidad industrial detectan defectos microscópicos en piezas que se mueven a alta velocidad. Todo esto es posible gracias a la visión artificial, una de las ramas más maduras y de mayor impacto de la inteligencia artificial.

Visión artificial: la tecnología que enseña a los ordenadores a ver

La visión artificial, también conocida como computer vision o visión por computador, es la rama de la inteligencia artificial que desarrolla sistemas capaces de interpretar y entender el contenido visual del mundo: imágenes, vídeos, profundidad espacial y movimiento.

El objetivo de la visión artificial es replicar, y en muchos contextos superar, la capacidad del sistema visual humano para extraer información del entorno. No se trata solo de capturar imágenes, que las cámaras hacen desde hace siglos, sino de entender qué contienen: identificar objetos, reconocer personas, estimar distancias, detectar movimiento y comprender escenas completas.

Por qué la visión artificial es tan difícil

Lo que los humanos hacen de forma instantánea y sin esfuerzo consciente, reconocer que el objeto oscuro que se mueve en la acera es un perro, que la persona que se acerca es tu vecino y que el líquido en el suelo podría ser resbaladizo, es en realidad un problema de procesamiento de información extraordinariamente complejo.

El cerebro humano dedica aproximadamente un tercio de su corteza al procesamiento visual. Enseñar a los ordenadores a realizar tareas similares requirió décadas de investigación y el salto definitivo llegó con el deep learning.

Las técnicas fundamentales de la visión artificial

Redes convolucionales: el estándar del reconocimiento de imágenes

Las redes neuronales convolucionales o CNN son la arquitectura que revolucionó la visión artificial. Inspiradas en el procesamiento visual del cerebro, aplican filtros que detectan características visuales de forma jerárquica: bordes en las primeras capas, formas en las intermedias y objetos completos en las más profundas.

En 2012, AlexNet ganó el concurso ImageNet reduciendo el error de clasificación de imágenes a la mitad respecto al mejor sistema anterior. Fue el momento que marcó el inicio de la era del deep learning en visión artificial.

Detección y segmentación de objetos

La clasificación de imágenes responde a «¿qué hay en esta imagen?». La detección de objetos responde a «¿dónde está cada objeto en esta imagen?». La segmentación semántica responde a «¿a qué categoría pertenece cada píxel?»

Estos tres niveles de comprensión visual tienen aplicaciones distintas. La detección de objetos es esencial para los coches autónomos. La segmentación es fundamental para la cirugía asistida por robot.

Vision Transformers: el nuevo paradigma

Los transformers, que revolucionaron el procesamiento del lenguaje, han llegado también a la visión artificial. Los Vision Transformers o ViT dividen la imagen en parches y aplican el mecanismo de atención para procesarlos, consiguiendo resultados que compiten y a veces superan a las CNN para muchas tareas. Puedes explorar los papers de visión artificial más recientes en paperswithcode.com/task/image-classification.

Las aplicaciones más importantes de la visión artificial

Medicina y diagnóstico por imagen

La visión artificial para diagnóstico médico es una de las aplicaciones con mayor impacto potencial en vidas humanas. Los sistemas actuales detectan retinopatía diabética, nódulos pulmonares, fracturas óseas, tumores cutáneos y muchas otras condiciones con una precisión comparable o superior a la de los especialistas.

Conducción autónoma

La percepción visual es el componente más crítico de los sistemas de conducción autónoma. Los vehículos necesitan identificar otros vehículos, peatones, ciclistas, señales de tráfico, marcas viales y obstáculos en tiempo real a velocidades de autopista. La visión artificial, combinada con LIDAR y radar, hace esto posible.

Control de calidad industrial

Las líneas de producción de alta velocidad en sectores como la electrónica, la automoción o la alimentación usan visión artificial para inspeccionar el 100% de los productos, detectando defectos que el ojo humano no podría ver a esas velocidades.

Seguridad y vigilancia

El reconocimiento facial, la detección de comportamientos sospechosos y el análisis de multitudes son aplicaciones de visión artificial en seguridad que generan tanto capacidades útiles como preocupaciones serias sobre privacidad y vigilancia masiva.

Realidad aumentada

La visión artificial es la base de la realidad aumentada: para superponer elementos digitales sobre el mundo físico, el sistema necesita entender la geometría y los objetos del entorno en tiempo real.

Los retos actuales de la visión artificial

A pesar de sus enormes avances, la visión artificial sigue siendo vulnerable a los llamados ejemplos adversariales: modificaciones mínimas e imperceptibles para el ojo humano en una imagen que pueden hacer que el sistema cometa errores graves. Un parche impreso en un stop puede hacer que un coche autónomo lo ignore. Es una limitación de seguridad importante que la investigación trabaja activamente por resolver.

Conclusión

La visión artificial es una de las ramas más maduras y de mayor impacto de la inteligencia artificial. Sus aplicaciones en medicina, transporte, industria y seguridad ya están transformando sectores completos y mejorando la calidad de vida de millones de personas.

Entender cómo los ordenadores aprenden a ver el mundo es entender parte fundamental de cómo la tecnología está expandiendo sus capacidades más allá de lo que fue posible durante décadas. En ExplicaIA seguimos acercándote la tecnología que transforma el mundo.