Sobre la (im)posibilidad de construir inteligencias artificiales generales

Hace unos días, mientras grabábamos un podcast sobre la ciencia y la tecnología de Avatar 2, surgió un debate al respecto de la transferencia de la consciencia de un ser humano. En la película, el ejército recopila todos los recuerdos de un soldado y los almacena en un soporte digital a modo de «copia de seguridad». En caso de fallecimiento, introducen esta información en un avatar, generando un nuevo ser vivo con la misma personalidad del original y todos sus recuerdos, pero en un cuerpo totalmente distinto.

El debate emergió porque, si bien a día de hoy conseguir esa transferencia no son más que castillos en el aire, Ray sugirió una alternativa: entrenar una red neuronal artificial (como las que ya se usan de manera rutinaria en la creación de imágenes o texto) para que respondiese exactamente igual que la persona que queremos «transferir». De este modo, cualquier estímulo/entrada que le diéramos a esta inteligencia artificial (IA) produciría la misma respuesta que la persona utilizada para entrenarla, consiguiendo así, de manera efectiva, clonar/transferir a una persona al mundo digital. Esta idea levantó ampollas, y de hecho la conversación se estiró tanto que hubo que cortarla para seguir tratando otros temas y acabar la grabación.

Como aquí no tengo límites de tiempo (ni de espacio), voy a exponer una serie de ideas que me hacen pensar que esa opción no es posible en base a los paradigmas actuales en el campo de la computación y que, cuando se afirma a la ligera que estamos cerca de una IA de ese estilo, se está haciendo más un acto de fe que una deducción basada en la evidencia.

Históricamente, existen principalmente dos maneras de hacer ciencia. Una se basa en creación de modelos de cómo crees que se rige un fenómeno de la naturaleza. Por ejemplo, la ley de gravitación universal de la mecánica clásica (la de Newton) es un modelo que describe cómo se comportan los cuerpos en presencia de otros cuerpos con masa. Este modelo te permite predecir el movimiento de los planetas o calcular cómo de lejos llegará un balón cuando le das una patada. Una vez desarrollado el modelo, el procedimiento habitual es comprobar si es correcto. Para ello, lo normal es hacer predicciones de un suceso, y luego, bien sea por observaciones del suceso de manera natural o diseñando un experimento que lo replique, ver si estas predicciones se cumplen. Si bien esto no es una prueba definitiva, mientras la realidad coincida con lo que tu modelo predice, todo va sobre ruedas. Si en algún momento encuentras casos que contradicen tu modelo, lo lógico es que, o bien lo modifiques para explicar esos nuevos fenómenos, o formules uno completamente nuevo que sea capaz de explicar todos los experimentos hasta la fecha. En el caso de la ley de gravitación universal, uno de los problemas más sonados surgió cuando se descubrió que la luz podía ser desviada por objetos muy masivos (como por ejemplo los agujeros negros), lo cual, siendo los fotones una partícula sin masa, es algo que no estaba contemplado en la formulación original. Un modelo gravitatorio refinado (la relatividad general) si que es capaz de explicar tanto los fenómenos anteriores como la desviación de la luz.

La segunda opción es muy distinta, y consiste en regirse únicamente por un conjunto de datos, medidas o información. En este caso, no necesito formular una ley de gravitación y predecir el movimiento de la Tierra y la Luna para saber cuando va a haber una Luna llena, por ejemplo. Simplemente miro al cielo durante largos períodos de tiempo y anoto la posición de los astros. Una vez tenga un conjunto lo suficientemente grande de observaciones, puedo buscar dentro de estos datos y descubrir el patrón que estos contienen. Si veo que durante los últimos 100 años ha habido una Luna llena cada 28 días, y anoche hubo Luna llena, puedo predecir sin lugar a error que la siguiente Luna llena será dentro de 28 días. Aquí no tengo la necesidad de plantearme si la Luna está girando sobre si misma, si gira alrededor de la Tierra o de si ambas orbitan alrededor del Sol. Esto simplifica muchísimo la tarea en cuestión, ya que no necesito construir un modelo del sistema solar y de la mecánica celeste. A cambio, tengo que gastar mi tiempo en hacer observaciones detalladas, ya que si me olvido de mirar cada noche la posición y el aspecto de la Luna, nunca seré capaz de predecir sus fases con precisión. Además, si ocurriese algo que perturbase las órbitas de la Tierra y la Luna, no tendría manera de predecir el resultado.

Siempre ha habido mucho debate sobre cual es el mejor paradigma, y la verdad, ambos tienen puntos a favor y en contra. Por ejemplo, sabemos que los babilonios eran una sociedad obsesionada con los datos. Observaron el cielo durante siglos, y fueron capaces de predecir eclipses y tránsitos con una precisión increíble para la época. Por el contrario, los griegos se centraron en los modelos en lugar de los datos. Para Anaximandro, la Tierra se encontraba en el centro del universo, rodeada por una esfera en rotación llena de agujeros. Esta esfera estaba a su vez rodeada por un fuego primordial, cuya luz se filtra por los agujeros y llega hasta nosotros, generando las estrellas que vemos cada noche en el cielo. Ese modelo inspiró a Eratóstenes a estimar el radio de la Tierra utilizando la geometría, algo que nunca habría podido hacer un babilonio. En cualquier caso, ni los babilonios serían capaces de predecir los eclipses desde la superficie de Júpiter (ya que no podían mirar al cielo desde esta), ni un modelo tan simplista (y erróneo) como el de Anaximandro podría explicar el movimiento retrógrado de los planetas en el sistema solar.

Y ahora, saltemos de nuevo al año 2023. ¿En qué punto nos encontramos? ¿Somos más como los griegos o como los babilonios? Durante muchos siglos hemos estado mucho más cerca del modelo griego que del babilonio. Toda nuestra física (la mecánica Newtoniana, la relatividad, el modelo estándar, etc.) se basa en diseñar modelos que luego son probados experimentalmente. Sin embargo, en las últimas décadas hemos entrado de lleno en la era de la información, y esto ha provocado un resurgir del modelo babilónico. Por una parte, nunca la especie humana había tenido acceso de manera tan rápida y eficiente a ingentes cantidades de información. Hoy en día tenemos mapas en alta resolución de prácticamente todos los rincones del planeta (e incluso de otros planetas), podemos registrar los movimientos de millones de personas, escaneamos nuestros cuerpos de manera rutinaria para prevenir o curar enfermedades, transmitimos audio, texto y vídeo sin cesar a lo largo del globo las veinticuatro horas del día, y un largo etcétera. Además, muchas ramas de la ciencia y la tecnología se han topado de lleno con problemas tremendamente complejos, para los cuales el diseño de modelos es, a día de hoy, imposible. Uno de los ejemplos más claros tiene que ver con la inteligencia humana y esa consciencia de la que hablaba al principio de este texto. Si queremos replicar el funcionamiento de nuestra inteligencia utilizando el paradigma de los modelos para construir un sistema que distinga las caras de distintas personas, necesitaríamos entender y predecir cómo nuestro cerebro reconoce los rostros. El problema aquí es que el cerebro es un órgano tremendamente complejo. Si asumimos que todas sus funciones surgen de las neuronas y sus conexiones (lo cual ya es suponer), estamos hablando de un sistema con alrededor de cien mil millones de neuronas, interconectadas entre sí por medio del orden de 10¹⁵ (esto es, un 1 seguido de 15 ceros) conexiones neuronales. Ahora bien, ¿cómo modelamos el cerebro humano? ¿qué está haciendo nuestra cabeza cuando vemos la cara de una persona y somos capaces de distinguirla de otra en cuestión de milésimas de segundo? Como estas preguntas no tienen una respuesta clara, la comunidad científica ha abrazado en masa las costumbres de los babilonios. En definitiva, si no puedo formular cómo mi cerebro reconoce una cara, una solución es entrenar mis sistemas de reconocimiento con millones de imágenes de caras, y al final estos serán capaces de darme los resultados correctos.

Y esto nos lleva al meollo de la cuestión: ¿puede un sistema así replicar la inteligencia humana? ¿llegaremos a tener alguna vez una IA que responda exactamente igual que un ser humano? Para intentar responder a estas preguntas, primero creo que es necesario definir un poco lo que entendemos por una IA, y los distintos tipos de IA que existen. Vamos allá.

IAs débiles vs IAs generales

Tal y como yo lo veo, esa IA que se responde exactamente igual que una persona es una inteligencia artificial general, en contraposición a las IA débiles, que sólo hacen una tarea (por ejemplo, jugar al ajedrez o dibujar). En la actualidad, las IAs débiles son muy conocidas, y ya se encargan de muchísimas cosas en nuestro día a día (en general, sin que nos demos cuenta). Por dar algunos ejemplos recientes, en 2022 vimos el surgimiento de DALL·E, Midjourney o ChatGPT, IAs que, si bien sólo hacen una tarea (dibujar o conversar, en este caso), lo hacen con una «habilidad» sorprendente. Midjourney produce imágenes muchísimo más bonitas de lo que yo podría lograr con décadas de práctica. Ahora bien, aunque estas IAs están proporcionando resultados nunca vistos con anterioridad, el salto entre una IA débil y una IA general no es para nada trivial. Una IA general debería ser capaz de dibujar tan bien como Midjourney, de conversar mejor que ChatGPT, de andar, de correr, de nadar, aprender a tocar un instrumento musical, de enamorarse, de concebir ideas nuevas, de cocinar… y de realizar cualquiera de los millones de distintas acciones que los seres humanos llevamos a cabo constantemente, ya sea de manera consciente o inconsciente. Podemos suponer que, para lograr una IA general, una opción lógica sería agrupar muchas IA débiles, cada una ocupándose de una tarea, de modo que el conjunto de IAs fuese capaz de hacer cualquier cosa que le pidamos. Si bien esto suena lógico, a día de hoy no existe forma alguna de combinar no ya cientos o miles, sino unas pocas IA débiles (ni hay un marco teórico que nos permita pensar que esto pueda ser posible en el futuro), del mismo modo que los babilonios no eran capaces de combinar sus conocimientos sobre los eclipses y los tránsitos para construir una mecánica celeste que explicase todo lo que veían en el cielo nocturno.

Además, si bien es cierto que los avances recientes en el campo de la inteligencia artificial son muy llamativos, y que en un futuro cabe la posibilidad de que alguien descubra una manera de combinar estas IAs débiles en una IA general, creo que hay otro problema fundamental que evitaría que esta IA igualase las capacidades humanas.

La imposibilidad de «perfeccionar» una IA débil, o cómo es necesario construir una IA general para dominar una única tarea particular

¿Es posible construir una IA débil que funcione como un ser humano en un campo determinado? Volviendo al ejemplo de los dibujos, la mayoría de las personas que están leyendo estas líneas coincidirán en la opinión de que las IAs artísticas son, actualmente, muy superiores a una persona media: crean composiciones complejas con perspectivas impecables, tienen trazos muy limpios, dominan muchos estilos diferentes, etc. Sin embargo, aunque una casa pintada por Midjourney tenga muchos más detalles y sea más fotorrealista que un boceto realizado por mi, ¿la convierte eso en un dibujo mejor? Pues depende. Si lo que buscas es fotorrealismo, claramente Midjourney me da mil vueltas. Ahora bien, el fotorrealismo es un parámetro más entre las decenas o cientos de criterios posibles para valorar un dibujo (casualmente, ese es uno de los parámetros que los diseñadores eligieron para entrenar a su IA). Existen muchos estilos artísticos donde el fotorrealismo no puede aplicarse. Nadie busca que un cuadro cubista sea fotorrealista, del mismo modo que una obra de arte abstracto no se rige por los mismos principios de composición que un bodegón. El problema aquí es que los seres humanos ni siquiera podemos describir todos los criterios que sirven para juzgar una obra artística. Por una parte, siempre pueden surgir nuevas formas de analizar un dibujo. Por otra, en muchos casos algo nos gusta y no sabemos el porqué, del mismo modo que muchos campeones de ajedrez son incapaces de explicar cómo saben si una situación del tablero es buena o mala. Si no podemos identificar estos criterios, ¿cómo asegurarnos de que la información que utilizamos para entrenar estas IAs los contienen? Y si esto no es posible, ¿llegará alguna vez la IA a igualar al humano?

Un ejemplo muy simple de esta falta de criterios en el entrenamiento de las IA es pedirles que jueguen contigo una partida al Pictionary. En mi experiencia, hasta un niño menor de 10 años consigue que los adultos acierten lo que representan sus dibujos en un porcentaje superior a las IAs más avanzadas (y mucho más rápido). Cuando jugamos a un juego como Pictionary no estamos simplemente dibujando objetos o conceptos, estamos utilizando el contexto social, las memorias compartidas y la cultura que tenemos en común con los otros jugadores, todo al mismo tiempo. Si sólo entrenamos a nuestra IA con imágenes, todo ese contexto no estará nunca a su alcance. Encima surge otro problema: ¿dónde acaba el contexto? Es más, ¿cómo definimos el contexto? ¿qué información hay que añadir? ¿y de qué modo? Todas estas preguntas (y muchas más) no tienen una respuesta clara, y no es un problema de falta de potencia de cálculo o de información para entrenar los modelos, es una diferencia crucial en el modo en el que los seres humanos y las IAs funcionan: si una IA no puede interactuar con el mundo físico, y esta interacción es uno de los pilares fundamentales que moldean la inteligencia humana, una IA nunca podrá igualar a un humano, ni siquiera en una única tarea, por muy simple que esta sea. Es más, se podría decir que la única manera de que una IA débil lograse dominar un campo al nivel de un ser humano es que no fuera realmente una IA débil, sino una IA general. Sólo una réplica completa de la inteligencia humana podría utilizar todo ese contexto a la hora de dibujar.

Esta imposibilidad de interactuar con el entorno, de experimentar el mundo físico, es una de las limitaciones más grandes que el campo de la inteligencia artificial tiene que resolver, pero no es la única. Los seres humanos desarrollamos nuestro cerebro a medida que crecemos, creando neuronas y construyendo nuevas conexiones entre estas. Por el contrario, una red neuronal artificial, formulada tal y como la entendemos hoy en día, es incapaz de evolucionar una vez ha sido entrenada.

Inmovilismo digital

Cualquier IA entrenada bajo los paradigmas actuales de la informática y la electrónica es un tótem fijo que no puede cambiar. Una vez realizado el entrenamiento, los distintos parámetros quedan determinados para siempre, sin posibilidad de ser modificados. De hecho, si estos valores se alterasen, el funcionamiento de la IA quedaría totalmente comprometido, y dejaría de ser capaz de realizar su función. Al contrario de lo que ocurre con el software, en un cerebro humano el número de conexiones y la fuerza de estas cambia constantemente. Los humanos generamos nuevas conexiones al aprender cualquier habilidad. Además, olvidamos información constantemente. De hecho, el olvido es un mecanismo fundamental para la vida en sociedad (sería imposible llevarnos bien con los demás si no olvidásemos cada vez que alguien hizo algo que nos sentó mal). Sin embargo, que yo me olvide de la cara de una persona que fue desagradable conmigo en una tienda hace dos semanas no me impide seguir dibujando caras. Mientras las arquitecturas artificiales en las que se basan las IAs no permitan esta flexibilidad (y a día de hoy no he visto ningún indicio que indique la posibilidad de ir en esa dirección), conseguir una réplica digital de la inteligencia humana es inviable.

El punto del aprendizaje humano abre otra cuestión interesante. Una persona pasa de tener una inteligencia muy primitiva cuando es un bebé a su cenit en la edad adulta. Esto lo logra a través de la interacción con el medio y mediante el estudio, que conlleva largos períodos de práctica, repetición y/o memorización de información (lo que genera y fortalece las conexiones neuronales). Lo curioso aquí es que este fenómeno lleva ocurriendo miles de años, y aunque nuestro entorno no ha dejado de cambiar de manera continua, los humanos no somos más inteligentes que hace unos siglos. Si, sabemos cosas que eran totalmente desconocidas en la Edad Media, pero un científico abierto de miras del siglo XIV no tendría muchos más problemas para entender la relatividad que un estudiante de física de hoy en día. Y quizás esto sea algo tremendamente importante para el avance de la especie: si el entorno está en continuo cambio, de nada me sirve educar a un bebé con conocimientos desfasados y costumbres anticuadas.

¡Pero es que esto es exactamente lo que estamos haciendo con las IAs hoy en día! A medida que los modelos se han ido haciendo más sofisticados, el número de parámetros que estos contienen ha crecido exponencialmente. Por poner un ejemplo, GPT-3, la arquitectura detrás de ChatGPT, tiene 175.000.000.000 parámetros, y fue entrenada usando 45 Tb de textos. El coste actual de entrenamiento de este tipo de IAs ronda las decenas de millones de dólares. Esto ha provocado que las nuevas versiones no se entrenen desde cero, ya que los costes serían inasumibles. Recordemos que mucha de esta tecnología está siendo desarrollada por las grandes empresas tecnológicas de Silicon Valley (Google, por ejemplo). Si el coste ha resultado ser un serio problema para estos gigantes, ¿cómo esperamos entrenar a las IAs del futuro? Esta misma pregunta se la hicieron los propios desarrolladores, y dieron con la siguiente solución: en vez de partir de cero cada vez que entreno a una nueva generación de mi IA, puedo utilizar los parámetros que calculé con anterioridad como punto de partida, y sólo tengo que actualizar ligeramente sus valores en un entrenamiento menos exhaustivo. Esto reduce tanto los costes como el tiempo de entrenamiento, lo cual explica en gran medida la velocidad a la que hemos visto evolucionar distintas IAs en los últimos años. Sin embargo, el hecho de reutilizar los parámetros de las generaciones anteriores conlleva que las nuevas versiones heredan los mismos problemas que sus predecesoras, sobretodo los introducidos por los sesgos en los conjuntos de entrenamiento. Por poner un ejemplo sencillo, si una IA entrenada para reconocer caras no es capaz de reconocer a personas pertenecientes a una minoría debido a que no estaban representadas en el conjunto de entrenamiento, una versión posterior más completa que haya sido entrenada de esta manera seguirá teniendo problemas para reconocer a las minorías. Esto puede parecer un detalle pequeño, pero ya hemos visto casos de IAs artísticas con un clarísimo sesgo en contra de las mujeres (que no son precisamente una minoría, estadísticamente hablando). Si tenemos en cuenta, además, que la práctica totalidad de la investigación en estos campos se realiza en las grandes corporaciones y universidades occidentales, vemos que todo el campo tiene unos sesgos tremendamente marcados: el desarrollo y la generación de bases de datos ha sido realizada y/o dirigida principalmente por hombres blancos, heterosexuales, de clase media o media/alta, no pertenecientes a ninguna minoría. ¿Es posible que la discriminación (ya sea consciente o inconsciente) se haya implantado en el núcleo de las IAs para siempre? ¿Representaría realmente una IA futura, entrenada generación tras generación con estas bases de datos, la manera de pensar del ser humano, o sólo el de una pequeña minoría privilegiada?

Por otra parte, si la complejidad de las IAs sigue creciendo de manera exponencial (y esto es un requisito que parece necesario si queremos conseguir una IA general), en el futuro no va a ser posible conseguir la energía necesaria para su entrenamiento a un coste que no resulte prohibitivo. Este problema es tan serio que muchos de estos gigantes tecnológicos han empezado a diseñar sus propios chips con arquitecturas especialmente diseñadas para trabajar en los problemas de entrenamiento de redes neuronales artificiales (curiosamente, algunas de estas empresas han utilizado IAs para realizar estos diseños, que parecen ser más eficientes que los diseñados por humanos hoy en día). Estas soluciones, al mismo tiempo que mejoran la eficiencia energética de las fases de entrenamiento (reduciendo los costes en electricidad), intentan cambiar el paradigma de diseño de la electrónica que está en el corazón de nuestras computadoras, lo cual me lleva a otra diferencia fundamental entre el modelo de inteligencia artificial que estamos desarrollando y la inteligencia humana.

El cerebro no es digital

Si bien nuestro conocimiento del cerebro no es completo, lo que si sabemos es que su funcionamiento no se corresponde estrictamente con el paradigma de la computación digital. La informática actual está basada en una arquitectura 100% digital, lo que conlleva que cualquier magnitud con la que trabajamos al usar nuestros ordenadores es discreta. Esto no ha sido siempre así, y en los inicios de la informática los ordenadores eran, de hecho, analógicos. Un ordenador analógico no trabaja con ceros y unos, sino que utiliza cantidades físicas para representar la información (por ejemplo, un valor de voltaje). Esto les permite representar cantidades continuas y diferenciables, propiedades que son características del mundo natural y de ese contexto del que hablaba anteriormente con el que todo ser humano se relaciona todo el tiempo. Los ordenadores analógicos son muchísimo más potentes que los digitales, pero su construcción es tremendamente complicada, y ese es el principal motivo por el que la informática abandonó esas arquitecturas que ocupaban salas enteras en las universidades y laboratorios de investigación por los miles de millones de transistores digitales que podemos desplegar en un minúsculo chip.

La cuestión entonces es, ¿podemos simular/replicar un sistema no digital por medio de una arquitectura digital? La respuesta no está para nada clara, ya que en el caso del cerebro, la propia magnitud del mismo genera serias dudas. Recordemos que estamos hablando de un sistema con miles de millones de neuronas y billones de conexiones. Si pasamos de asumir que estas conexiones simplemente toman un valor de 0 o 1 a permitir que puedan tomar cualquier valor intermedio, la complejidad crece de manera infinita. Durante los últimos años, algunos grupos de investigación han intentado desarrollar IAs mixtas, basadas en arquitecturas que utilizan tanto partes digitales como analógicas. Si bien esto parece ser una solución inteligente, todavía está por ver si es siquiera factible escalar una arquitectura de ese estilo a los niveles necesarios para conseguir el nivel de complejidad suficiente para lograr esa soñada IA general.

Todas estas cuestiones, en la actualidad, no tienen respuesta. Y lo más preocupante es que la industria y el mundo académico no parece estar buscándolas. Los modelos más avanzados en el mundo de la IA, actualmente, solo pueden ser desarrollados por grandes corporaciones con una cantidad de recursos increíble. Obviamente, cada empresa desarrolla sus IAs para realizar distintas tareas (generar texto, conducir un coche, jugar al Go, etc.), pero todas tienen una meta final en común: generar beneficios. Además, en el sistema actual no vale simplemente el hecho de generar beneficios, sino que las valoraciones bursátiles caen en picado si una empresa no genera más beneficios cada año. Esta histeria con el crecimiento ha provocado que todo el entramado de Silicon Valley funcione siguiendo distintos ciclos de expectación desmedida sin mucho sentido.

La cosa suele funcionar de la siguiente manera: primero, un avance científico o tecnológico genera una nueva aplicación desconocida hasta la fecha. Este avance es presentado, ya sea por medio de alguna publicación en una revista científica o en una demostración ante la prensa, que obviamente lo publicita (normalmente sobredimensionándolo para generar más tráfico en su medio). A esto le sigue una cascada de financiación fundada en las expectativas nada realistas del público general y en la avaricia de los inversores, que siempre andan al acecho de avances que puedan generar beneficios millonarios en el corto/medio plazo. La burbuja sigue creciendo, cada vez más gente conoce la tecnología y se interesa por ella, lo cual genera más interés y más financiación, atrayendo a más empresas a desarrollar sus aplicaciones en busca de ese dinero fácil. En algún momento se llega al pico de expectativas, donde esta tecnología está en boca de todos y el ritmo de aparición de distintas aplicaciones es tan rápido que es imposible de seguir. Pasado un tiempo, muchas de esas aplicaciones que surgieron como un modo rápido de obtener dinero quedan en nada, y la gente empieza a desilusionarse al ver que sus expectativas no van a cumplirse. Si todo era una burbuja sin fundamento, en este momento todos los actores involucrados se olvidan del asunto, dan carpetazo a sus proyectos, y nadie vuelve a hablar del tema en mucho tiempo. Si el avance tenía en realidad algo de sustancia, siempre quedarán algunas empresas o grupos de investigación que continúen con su desarrollo, logrando pequeños avances incrementales y explorando nuevas alternativas. Así se llega finalmente a un estado en el que, si bien los avances no son espectaculares, se generan aplicaciones útiles y rentables (aunque estas queden lejos de los delirios de grandeza iniciales). Posiblemente este fenómeno os suene, ya que lo vivimos continuamente: televisores en 3D, criptomonedas, distintos modelos de smartphone, realidad aumentada, realidad virtual, etc.

Como decía antes, Silicon Valley vive constantemente encadenando ciclos de este estilo. De hecho, sin ellos sería imposible mantener el crecimiento requerido para evitar entrar en bancarrota. Esto ha provocado que se adopte una actitud generalizada en la que se sobrestiman las capacidades de la tecnología al mismo tiempo que se infravaloran las capacidades humanas. El resultado es que la mayoría de las grandes tecnológicas han empezado a vender la idea de que van a resolver los grandes problemas de la humanidad por medio de unas tecnologías que ni siquiera logran comprender. Así estamos viendo como los grandes CEOs empiezan a erigirse más como mesías (prometiendo colonizar otros planetas o vivir en el metaverso) que como simples mortales.

¿Ciencia o religión?

Si algo nos enseña la historia es que el ser humano es terrible tanto a la hora de juzgar los efectos de un descubrimiento a corto plazo (tendremos a sobredimensionarlos) como a largo plazo (generalmente los subestimamos). Encima, en el caso de las grandes empresas tecnológicas se premia la sobreestimación de sus propias capacidades con financiación, lo cual agrava el problema. Y a esto hay que sumarle que el público general parece estar en un estado catatónico en el que toma cualquier declaración de uno de estos gurús como una verdad absoluta. En muchas ocasiones, asistimos a un espectáculo en el que un trilero (con ropa muy cara, eso si) distrae a millones de personas con ideas sobre el futuro de la raza humana mientras sus trabajadores sufren condiciones cercanas a la esclavitud.

¿Realmente va a ser capaz de gestarse una IA general en este caldo de cultivo? ¿Estamos en la cresta de una de esas olas de expectación desmedida? Sinceramente, creo que es innegable que vivimos en una burbuja de expectación desmedida en el ámbito de las inteligencias artificiales. Cada día se publican cientos de artículos y se llenan horas de contenido hablando del tema y prediciendo un futuro cercano en el que todos los aspectos de nuestras vidas estarán controlados por una máquina. Hay un dicho bastante conocido en el mundillo de la ciencia y la tecnología que dice así: «el último 10% de un proyecto necesita el 90% del tiempo total del proyecto». En general, siempre que escuches que algo está a punto de llegar, la realidad es que esta tecnología todavía no ha superado ese 90% inicial que resulta fácil de resolver. Elon Musk lleva diciendo durante una década que está a un paso de conseguir la conducción autónoma en sus coches, incumpliendo sus propias predicciones año tras año. Si los 10 años de historia del proyecto autopilot de Tesla han conseguido resolver el 90% inicial del problema (lo cual me parece una estimación optimista), la versión final que permitirá la conducción autónoma al nivel humano será una realidad en 2113. Podríamos hacer cálculos similares con la inteligencia artificial general (de la cual se lleva hablando más de 20 años), la fusión fría (más de 30 años) o la moderación de mensajes de odio en las redes sociales (más de 10 años).

Ahora, si bien creo que estamos viviendo una burbuja, no creo que esta vaya a explotar y quedar en el olvido. Mi impresión es que la novedad acabará pasando, los gurús mirarán para otro lado, y las empresas reconocerán que esos problemas que se preveían fáciles han resultado tener una dificultad que crece exponencialmente antes de resolverse por completo. Seguiremos viendo mejoras, pero a un ritmo mucho menor, y poco a poco la tecnología impregnará distintas facetas de nuestro día a día. Hasta el momento hemos visto avances enormes en tareas muy específicas y con reglas muy deterministas (dibujo, escritura, generación de voz), lo cual me hace pensar que en unos años (¿décadas?) es bastante probable que dejemos de interactuar con nuestros dispositivos tal y como lo hacemos hoy en día. No parece descabellado que un día encendamos nuestro PC (o tablet, móvil, o lo que sea que utilicemos) y le digamos (con nuestra propia voz) que queremos editar una foto, tras lo cual se abrirá automáticamente una versión de Photoshop en la cual podrás decir «corrige el balance de blancos» y veas instantáneamente el resultado en pantalla. También es muy probable que mientras recorremos este camino tengamos que soportar decenas o cientos de versiones intermedias en las que corregir el balance de blancos cueste mucho más tiempo que el habitual par de clicks de hoy en día, o que cosas hoy en día comunes se declaren obsoletas y desaparezcan de nuestras vidas (como el jack de audio o la posibilidad de comprar un billete de tren sin pelearte con un sistema informático deficiente).

Hasta entonces, por aquí andaremos comentando la jugada.

¿Desea saber más?

Pues aquí van algunos enlaces relacionados con el tema de la entrada:

Why general artificial intelligence will not be realized (artículo sobre la posibilidad de lograr una AI general)
Going Off the Deep End with Deep Learning (charla sobre deep learning y su uso en la investigación)
La mujer invisible: Descubre cómo los datos configuran un mundo hecho por y para los hombres – Caroline Criado Pérez (libro que contiene varios capítulos sobre los sesgos en las IAs actuales, además de otros muchos ejemplos de lo que le cuesta a los hombres reconocer la realidad)

2 comentarios en “Sobre la (im)posibilidad de construir inteligencias artificiales generales”

Andrés

Me ha gustado mucho la reflexión.
Sin duda hay mucha atención en el tema de la IA y probablemente todavía quedan por ver más avances sorprendentes en el corto plazo.
No obstante también tengo la impresión de que se está inflando el tema, que se prometen muchas cosas fantásticas y se asusta con otras (la destrucción de empleo).

Por otro lado, como mencionas en el artículo, las IAs de moda son muy buenas en una cosa determinada y en encontrar cierto orden en el caos (debido a su entrenamiento) y da la impresión y tácitamente se asume que eso es inteligencia. La inteligencia humana ciertamente debe ser otra cosa.

Un saludo

Me gustaLe gusta a 1 persona

enero 29, 2023 a las 12:42 AM Responder
1. f.sldvl
  
  ¡Gracias por el comentario!
  
  Si, el tema de «vamos a perder todos el empleo» se toca muchísimo, y muchas veces con poco fundamento. Llevamos perdiendo el trabajo cada década por alguna tecnología y yo sigo madrugando todas las mañanas… ya me gustaría a mí que trabajasen las máquinas y poder dedicarme a vivir la vida…
  
  Me gustaMe gusta
  
  enero 29, 2023 a las 9:59 AM Responder

F. Soldevila