Cómo se trasladará la IA que impulsa ChatGPT al mundo físico

Empresas como OpenAI y Midjourney crean chatbots, generadores de imágenes y otras herramientas de inteligencia artificial que operan en el mundo digital.

Ahora, una nueva empresa fundada por tres ex investigadores de OpenAI está utilizando los métodos de desarrollo tecnológico detrás de los chatbots para crear tecnología de inteligencia artificial que pueda navegar por el mundo físico.

Covariant, una empresa de robótica con sede en Emeryville, California, está creando formas para que los robots recojan, muevan y clasifiquen artículos mientras son transportados a través de almacenes y centros de distribución. Su objetivo es ayudar a los robots a comprender lo que sucede a su alrededor y decidir qué deben hacer a continuación.

La tecnología también brinda a los robots una amplia comprensión del idioma inglés, lo que permite a las personas chatear con ellos como si estuvieran chateando con ChatGPT.

La tecnología, aún en desarrollo, no es perfecta. Pero es una señal clara de que los sistemas de inteligencia artificial que impulsan los chatbots en línea y los generadores de imágenes también impulsarán las máquinas en los almacenes, las calles y los hogares.

Al igual que los chatbots y los generadores de imágenes, esta tecnología robótica aprende sus habilidades analizando cantidades masivas de datos digitales. Esto significa que los ingenieros pueden mejorar la tecnología alimentándola con más y más datos.

Covariant, respaldado por 222 millones de dólares en financiación, no construye robots. Construye el software que impulsa a los robots. La compañía pretende implementar su nueva tecnología con robots de almacén, proporcionando una hoja de ruta para que otros hagan más de lo mismo en plantas de fabricación y tal vez incluso en las carreteras con automóviles sin conductor.

Los sistemas de inteligencia artificial que impulsan los chatbots y los generadores de imágenes se denominan redes neuronales, en honor a la red de neuronas del cerebro.

Al identificar patrones en grandes cantidades de datos, estos sistemas pueden aprender a reconocer palabras, sonidos e imágenes, o incluso generarlos ellos mismos. Así es como OpenAI creó ChatGPT, dándole el poder de responder preguntas al instante, escribir trabajos finales y generar programas informáticos. Aprendió estas habilidades a partir de textos recopilados de Internet. (Varios medios de comunicación, incluido el New York Times, han demandado a OpenAI por infracción de derechos de autor).

Actualmente, las empresas están construyendo sistemas que pueden aprender de diferentes tipos de datos al mismo tiempo. Al analizar tanto una colección de fotografías como los títulos que describen esas fotografías, por ejemplo, un sistema puede captar las relaciones entre las dos. Quizás aprenda que la palabra “plátano” describe una fruta amarilla y curvada.

OpenAI utilizó ese sistema para construir Sora, su nuevo generador de vídeo. Al analizar miles de videos con subtítulos, el sistema aprendió a generar videos cuando se les daba una breve descripción de una escena, como «un mundo de papel de arrecife de coral bellamente representado, lleno de peces coloridos y criaturas marinas».

Covariant, fundada por Pieter Abbeel, profesor de la Universidad de California, Berkeley, y tres de sus antiguos alumnos, Peter Chen, Rocky Duan y Tianhao Zhang, utilizó técnicas similares para construir un sistema que impulsa robots de almacén.

La empresa ayuda a operar robots de clasificación en almacenes de todo el mundo. Ha pasado años recopilando datos (de cámaras y otros sensores) que muestran cómo funcionan estos robots.

«Asimila todo tipo de datos que son importantes para los robots, lo que puede ayudarles a comprender el mundo físico e interactuar con él», dijo el Dr. Chen.

Al combinar estos datos con las enormes cantidades de texto utilizadas para entrenar chatbots como ChatGPT, la empresa ha creado tecnología de inteligencia artificial que brinda a sus robots una comprensión mucho más amplia del mundo que los rodea.

Después de identificar patrones en esta combinación de imágenes, datos sensoriales y texto, la tecnología le da a un robot el poder de manejar situaciones inesperadas en el mundo físico. El robot sabe cómo coger un plátano, aunque nunca antes haya visto uno.

También puede responder en un inglés sencillo, como un chatbot. Si le dices que «coma un plátano», sabrá lo que eso significa. Si le dices que «escoja una fruta amarilla», él también lo entenderá.

Incluso puede generar videos que predicen lo que podría suceder al intentar recoger un plátano. Estos vídeos no tienen ningún uso práctico en un almacén, pero muestran la comprensión del robot de su entorno.

«Si puede predecir los siguientes fotogramas de un vídeo, puede identificar la estrategia correcta a seguir», afirmó el Dr. Abbeel.

La tecnología, llamada RFM, que significa Modelo Fundamental de Robótica, comete errores, al igual que los chatbots. Aunque a menudo comprende lo que la gente le pide, siempre existe la posibilidad de que no lo haga. De vez en cuando deja caer objetos.

Gary Marcus, empresario de inteligencia artificial y profesor emérito de psicología y ciencias neuronales en la Universidad de Nueva York, dijo que la tecnología podría ser útil en almacenes y otras situaciones donde los errores son aceptables. Pero dijo que sería más difícil y riesgoso usarlo en plantas de fabricación y otras situaciones potencialmente peligrosas.

«Depende del coste del error», dijo. «Si tienes un robot de 150 libras que puede hacer algo dañino, el costo puede ser alto».

A medida que las empresas entrenen este tipo de sistema con colecciones de datos cada vez más grandes y variadas, los investigadores creen que mejorará rápidamente.

Esto es muy diferente a cómo operaban los robots en el pasado. Por lo general, los ingenieros programaban robots para realizar repetidamente el mismo movimiento preciso, como levantar una caja de cierto tamaño o colocar un remache en un lugar particular del parachoques trasero de un automóvil. Pero los robots no podían afrontar situaciones inesperadas o aleatorias.

Al aprender de los datos digitales (cientos de miles de ejemplos de lo que sucede en el mundo físico), los robots pueden comenzar a manejar lo inesperado. Y cuando estos ejemplos se combinan con el lenguaje, los robots también pueden responder a sugerencias de texto y voz, como lo haría un chatbot.

Esto significa que, al igual que los chatbots y los generadores de imágenes, los robots serán más ágiles.

«Lo que contienen los datos digitales se puede transferir al mundo real», afirmó el Dr. Chen.