AGIlipollez

No paramos de leer y escuchar estos días lo cerca que parece estar el desarrollo de la IA de lo que se denomina «Inteligencia Artificial General» (AGI). De una forma bastante extraña, los de OpenAI, la definen como un sistema altamente autónomo que supere al humano en la mayoría de las tareas económicamente valiosas (después de un guión añaden «benefits of all humanity» como si se arrepintieran ipso facto de lo que habían dicho). Por si alguien todavía se cree el discurso filantrópico de estas empresas aquí tenemos una evidencia más de que no es así: solo quieren, como siempre ha sido desde el albor de los tiempos, pasta gansa. Lo que yo sí que me pregunto es si ellos mismos se creen su propia mentira (hace falta mucha ketamina para vivir en tal disonancia cognitiva). De forma algo más seria (aunque no lo suficiente), Everitt, Lea y Hutter definen AGI en este artículo como un sistema de IA que iguala o supera a la inteligencia humana en una variedad general de tareas cognitivas. La idea es que hasta hace unos años solo teníamos narrow AI, es decir, inteligencia artificial capaz de hacer solamente una tarea. Alpha Zero era capaz de jugar al ajedrez a un nivel jamás visto en la larga historia de tan noble juego, pero solo era capaz de eso. Si queríamos que aprendiera a jugar a otra cosa había que reentrenarlo de nuevo desde el principio. Cuando DeepMind diseñó Agent57 por aquel ya lejanísimo 2020, renació la esperanza en construir sistemas de IA que fueran capaces no solo de hacer una sola cosa, sino muchas. Agent57 jugaba muy bien a cincuenta y siete juegos de la Atari 2600… ¡Podía hacer muchas cosas! Y después llegó la gran revolución: los grandes modelos de lenguaje. Diseñados para continuar texto de manera coherente, pueden continuar una gama indefinida de textos, sea cual sea la tarea cognitiva que en ellos se haga: un poema, una operación aritmética, una argumentación lógica… ¡Prácticamente todo! Mentira, todavía cometen muchos errores, hay tareas que hacen especialmente mal y alucinan cuando les da la gana. Se han dado multitud de críticas desde todos lados y aquí ya hemos mencionado muchas. Para mí, la más obvia y que resume de alguna forma todas las demás, es que cuando los sacas de tareas que no existen en sus datasets, bajan mucho su rendimiento. Por mucho que nos digan, todavía son sistemas basados, esencialmente, en pura fuerza bruta. Sigo pensando que la famosa etiqueta de loros estocásticostodavía les viene bien. 

Entonces continuó, a una velocidad vertiginosa, la carrera por mejorarlos. Parecía que la solución estaba en hacerlos más y más grandes, y durante un tiempo así fue, aunque estaba claro que eso iba a tocar un techo, y según parece, ya lo estamos tocando. Pero hay más alternativas: durante un tiempo se habló de la mixture of experts (MoE), es decir, de utilizar varios modelos de lenguaje finetuneados (perdón por el espanglicismo cutre) en un determinado tema o habilidad específica. Por ejemplo, podríamos tener un sistema compuesto por cuatro especialistas: uno experto en matemáticas, otro en cultura general, otro en programación y otro en razonamiento lógico. En función del prompt que introdujese el usuario, el sistema llamaría al experto oportuno y no al sistema en global. La empresa francesa Mistral AI (la única empresa europea algo competitiva en IA. Va a haber que mirárselo) lanzó en 2023 su modelo Mixtral 8x7B con ocho expertos. Otra alternativa, que está ahora muy en boga, es lo que se ha llamado chain of thoughque consiste básicamente en hacer que el sistema analice el problema a tratar, desglosándolo en pasos intermedios, y dar más tiempo para procesarlo todo. Junto con la vuelta del aprendizaje por refuerzo, esto es lo que hay en la base del nuevo linaje de modelos de OpenAI, los GPT o. El 31 de diciembre, un poco antes de las uvas, Google nos sorprendió con un nuevo tipo de red neuronal que promete ser mejor que los Transformers… ¡Los Titans! (He de reconocer que los nombres que utilizan molan). Si los Transformers tienen algunos problemas al enfrentarse a contextos muy largos, los Titans prometen mejorar muchísimo su memoria (Eso sí, a coste de elevar el cómputo aún más si cabe). 

Pero el auténtico gran shock llegó cuando se anunció que GPT o3 había sido capaz de superar dos benchmarks que parecían imbatibles: el FrontierMath y el ARC-AGI. El primero parece constar de una serie de problemas matemáticos de extrema dificultad, para cuya resolución hacen falta equipos de matemáticos trabajando durante horas. Hasta finales del año pasado los modelos que se habían enfrentado a esa prueba como GPT-4 o Gemini, no habían superado más del 2% de los problemas. GPT o3, según nos cuentan, llegó al 25%. Con respecto al ARC-AGI, parece ser que, con un enorme gasto de cómputo eso sí, llegó a superar el 88%. ARC-AGI es una prueba especialmente interesante porque su creador, François Chollet, va a proponer otro tipo de definición de AGI mucho mejor que las anteriores. En su artículo de 2019 define la inteligencia, no como la capacidad de realizar una serie de tareas concretas, sino como la eficiencia con la que un sistema aprende a crear las habilidades necesarias para afrontar nuevas tareas. Es una definición muy interesante porque pretende superar una limitación crucial de las definiciones anteriores: la ambigüedad absoluta de la palabra «general». Porque si queremos probar si una IA es capaz de afrontar una «gama general de tareas»… ¿Cómo lo hacemos? Podemos elaborar una prueba en la que se den una «amplia gama» de problemas de muchos tipos, pero siempre cabría la posibilidad de que existiera un nuevo tipo de problemas que no hubiésemos tenido en cuenta. Y es que no existe un listado definitivo con todos los tipos de tareas a las que una inteligencia puede enfrentarse. Por tanto, nunca podríamos tener una prueba completamente precisa que nos dijera que estamos ante una AGI. Chollet, de forma más inteligente, afronta el problema intentando evaluar la capacidad de generalización de la IA, es decir, no su capacidad para solucionar tareas, sino su capacidad para enfrentarse a la novedad. 

Sin embargo, aún así, tampoco podríamos llegar a un momento preciso en el que dijéramos, sin duda alguna, que estamos ante una AGI. Si Chollet determinara que tenemos una IA muy eficiente a la hora de afrontar la novedad, seguiríamos con la duda de si podía llegar alguna nueva tarea tan diferente a las anteriores tal que no pudiera acometerla. Y es que lo que pasa es que el mismo concepto de AGI es una AGIlipollez (perdonadme por tan nefasto y soez juego de palabras), es un concepto muy malo dado el objetivo para el que se creó: constituir una meta a superar por la IA. Ya el mismo creador del término «inteligencia general», el psicólogo británico Charles Spearman, concebía el aspecto general de la inteligencia como algo muy abstracto, de modo que para medirlo hacía falta recurrir al factor S (de skills), conjunto de habilidades concretas que sí eran fácilmente cuantificables mediante pruebas estandarizadas (inteligencia espacial, numérica, memoria, etc.). Y es que no se puede medir lo general, solo se puede medir lo concreto. Me sorprende lo tremendamente chapuceros que son los ingenieros de IA a la hora de crear conceptos: super inteligencia artificialsingularidad… todo tan borroso… ¡Necesitan urgentemente un curso de epistemología! No obstante, quizá no sea torpeza sino marketing. No hay nada más eficaz que lanzar un concepto ambiguo al mundo para tener a una legión de eruditos discutiendo sobre su auténtico significado. La claridad no vende. Esa estrategia la llevan usando los filósofos desde hace muchos años ya. Entonces, ¿va a llegar la AGI o no? Pues llegará cuando los de OpenAI lo decidan. Igual que han decidido que los LLMs ya han dominado el lenguaje natural (fase 1) y ahora están en la fase 2: la «fase razonadora» (¡Guau! ¡Han dominado el lenguaje! ¿Están entonces al nivel de Cervantes o Shakespeare? ¿Cuándo? ¿Qué benchmark ha determinado semejante éxito? ¡Pero si todavía estamos debatiendo si entienden algo de lo que «leen» o no!). En el avance de la IA hay, obviamente, tecnología, pero también hay mucha política, y mucha, mucha más economía. 

Post data: todavía sigo sin entender por qué los benchmarks a los que se enfrentan los LLMs no han sido las clásicas pruebas de inteligencia propuestas por la psicometría desde hace más de un siglo ¿Por qué no tenemos datos de los resultados de algún GPT con respecto al WAIS o con la escala Stanford-Binet? ¿Por qué no sabemos el cociente intelectual de GPT-4? ¿Es porque lo hacen muy mal y, entonces, estas empresas tan filantrópicas no han querido mostrarnos los resultados? No sé, ¿una IA capaz de enfrentarse a FrontierMath no va a superar las típicas pruebas de los test de CI?

Para seguir disfrutando de Santiago Sánchez-Migallón
La mente como una interfaz
Una de los dogmas más típicos del ethos cognitivo del científico es...
Leer más
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.