Se ha dicho hasta el hartazgo: nuestro mundo está siendo forjado por la tecnología, desde la invención de la imprenta hasta la llegada de internet, cada innovación ha sido un escalalón en la evolución de la humanidad. Pero ahora, quizás, estemos asistiendo a una interrupción tecnológica sin precedentes.
Esta revolución se basa en una tecnología conocida como redes neuronales artificiales que, en formas mucho más simples, ya eran usadas por Gauss y adoptaron su forma actual a mediados del siglo pasado. Si bien se conocía su potencial, no fue hasta hace algo más de diez años que obtuvo a cobrar notoriedad cuando, habilitadas por la creciente capacidad de cálculo y disponibilidad de datos, fueron usadas para revolucionar el campo de la visión por computadora, hasta llegar al punto de desarrollar sistemas más precisos que los seres humanos.
Estas redes se caracterizaron no solo por ser mucho mayor que las usadas hasta ese momento, sino por tener configuraciones que les permitieron procesar información de mayor diversidad, como imágenes y texto, sin necesidad de la intervención de expertos humanos en su preprocesamiento. Es decir, en cierta forma, aprendí a realizar ese preprocesamiento por ellas mismas.
A mitad de camino entre aquel hito y la actualidad, se publicó el paper «Atención es todo lo que necesitas», en el cual presentó una nueva configuración de neuronas artificiales, denominada «transform», que dio lugar a la ola de algoritmos que ahora conocemos con grandes modelos de lenguaje. Entre ellos, la familia de los GPT (Generative Pre-trained Transformer), desarrollados por OpenAI, que pasó de 117 millones de parámetros en la primera versión de 2018, hasta 175 millones, en la tercera versión, lanzada en 2020 y que es la corazón de chatGPT.
Grandes patrones de lengua. Nada más que redes neuronales basadas en transformadores y entrenadas para predecir la suite de palabras en una secuencia de texto. Por eso el mote de preentrenados (Pre-formed, the P of GPT): no se les enseñó a encontrar el sentido de una oración, ni a detectar el sentimiento del texto, ni ninguna otra tarea específica.
¿Por qué se hizo así? Por alli cantidad de datos. Si el modelo debe encontrar la siguiente palabra de un texto, todos los textos de la historia de la humanidad son datos viables para entrenarlo; mientras que si quisiera entrenarlo para detectar –por ejemplo– sentimientos, solo serían útiles los textos adecuadamente categorizados (varios órdenes de magnitud menos).
¿Por qué funcionan? Podríamos especular con que el lenguaje codificado el conocimiento humano y el acto de predecir probablemente una palabra más implicación de alguna manera lo precedente; pero realmente es difícil de entender –al menos para mí– por que estas redes son tan poderosas. Mucho más fácil es, sin embargo, oye por qué son tan útil. Para ello, primero hay que señalar que no están limitadas a predecir una palabra nada más, puesto que cada palabra que se genera puede agregarse al texto original para generar otra más, y luego otra, y así sucesivamente.
Además, muchas veces se puede componer un texto para incitar una respuesta específica. Por ejemplo, si yo escribo (o copio) un largo artículo que contenga información que me interesa; el agregado al final «En resumen:» y le pido a una persona que continúa, la mayoría escribiría un resumen de lo anterior. Bueno, pues un modelo de lenguaje hace lo mismo, porque fue alterado para continuar textos de la misma manera que lo haría un ser humano.
Vida después de la muerte: un argentino ha creado una aplicación que lo hace posible con inteligencia artificial
Es así, entonces, que con textos bien confeccionados (popularizados como «promts» por su denominación en inglés) se puede lograr que estas redes exhiban comportamientos mucho más complejos que los enseñados. Si escribir «América fue descubierta por», va un completar Colón. Si el digo «Este es un sistema de ecuaciones, la solución para xey es», no solo hará el desarrollo matemático, sino que lo explicará en palabras. Si le doy un título y subtítulo, quizás logre que escriba una nota entera.
Choque de gigantes. Recientemente, visto su potencial, Microsoft tomó la iniciativa y aseguró un acuerdo con OpenAI para la utilización de chatGPT en Bing; tanto en el lateral de la página de resultados como en un gato independiente, similar a la aplicación original. Por su parte, Google anunció rápidamente un producto analógico, llamado Bardo (Bard); basado en Lambda, un modelo que se hizo popular este año pasado porque un ingeniero pensó que tenía conciencia.
La tensión es máxima y parecería que asistiremos a una guerra entre los gigantes tecnológicos por el mercado de la búsqueda web. Pero, ¿es en efecto así?
Ciertamente, este tipo de herramientas reemplazaría muchas de las búsquedas que hacemos, pero justamente en los casos donde no nos interesa buscar una página web, sino una respuesta específica. A mi escuchar, productos como chatGPT no amenazan la cuota de mercado de búsqueda que detente Google, sino el tamaño del mercado en sí mismo, con un sustituto superador: el asistente personal. Pero uno realmente útil, uno que eclipse a HAL 9000 o haga feel inseguro a Jarvis.
Esta es una promesa que ya nos hicieron, y nos decepcionaron: Siri tiene más de diez años, Alexa y el asistente de Google lo siguen de cerca. Pero donde esos productos fallaron, chatGPT parece brillar. No solo comprende los pedidos que le hacemos con pocas fallas, no solo da buenas respuestas desde el primer intento, sino que entiende el contexto, pudiendo recibir respuestas y correcciones. es decir, Permite el diálogo real entre humanos y máquinas.permitiendo una interacción con la tecnología que, bien implementada, podría revolucionar nuestra productividad.
Y los tiempos para llegar a esa realidad parecen accelerarse, solo en las últimas semanas Meta AI publicó LLaMA, un modelo de capacidades comparables a GPT-3 pero de código abierto y mucho más rápido y pequeño. Los científicos de Stanford crearon Alpaca, un clon de chatGPT registrado desde LLaMA con ajustes generados desde la API ChatGPT Propia por menos de los mil dólares (vs. los millones que costaron construir los modelos originales). Y, por supuesto, OpenAI publicó GPT-4, una versión superadora de su modelo estrella, que no solo lee texto sino que también entiende imágenes.
Todos estos desarrollos junto con la masiva adopción de las herramientas a través de Bing y Google Search; la incorporación de asistentes virtuales en Office y Workspaces; el lanzamiento de Copilot y Copilot X desde Github; más la plétora de startups que pretenden posicionarse en este mercado, no solo augura un impacto significativo en la productividad de quienes las usamos, sino una vertiginosa aceleración en la creación y mejora de las propias herramientas.
Esta nota fue escrita por inteligencia humana. Me encantaría seguir la moda del momento y rematar la nota diciendo que fue escrita por AI, pero no es el caso. Eso no quiere decir que no haya tenido su asistencia: use chatGPT para que sugiriera continuaciones, para romper un poco el bloco propio de un escritor bison y para mejorar mi gramática. Incluido, el pedido que generará los textos que leen el di a otras generativas que pasan de texto a imágenes (DALL-E 2 y Stable Diffusion 2.1), para generar las ilustraciones que acompañan esta nota. En definitiva, no utilicé IA para reemplazar mi trabajo, sino para hacerlo mucho más rápido y con más calidad.
*Máster en Ciencias de los Datos. Profesor de la Maestría en Ciencias de Datos de la Facultad de Ingeniería de la Universidad Austral.
Tambien te puede interesar

