(Foto: Generada con Leonardo.)
Los Large Language Models (LLM) sobre los que se sustentan las inteligencias artificiales más populares del momento ¿pueden razonar realmente o solo muestran de manera sofisticada determinados patrones? La pregunta, a priori, parece compleja de responder, pero tenemos a nuestra empresa millonaria de conveniencia para resolver la incógnita: Apple.
La gente de la manzana mordida probó más de 20 Large Language Models (LLMs) —incluyendo o1 y GPT-4o de OpenAI, Gemma 2 de Google y Llama 3 de Meta— y los resultados revelaron algunas debilidades importantes.
Según el estudio publicado por la Universidad de Cornell, las capacidades de razonamiento de los LLM suelen evaluarse con la popular prueba de referencia-GSM8K, pero existe la probabilidad de que estos modelos solo puedan responder correctamente a las preguntas porque han sido preentrenados en las respuestas.
La nueva prueba de Apple comprobó esto al modificar algunas variables en las preguntas. En su ejercicio añadió información irrelevante, cambió nombres o modificó algunos números y descubrió que el rendimiento de todos los LLM disminuía.
Como resultado, creen que “no hay razonamiento formal” con los LLM. “Su comportamiento se explica mejor por la coincidencia de patrones sofisticados”, concluyeron los investigadores. Según arrojaron los resultados, incluso algo pequeño, como cambiar un nombre, degradó el rendimiento en un 10%.
De este modo, si los LLM solo pueden confiar en la coincidencia de patrones sofisticados, en lugar del razonamiento lógico genuino, significa que no se puede confiar en ellos para aplicaciones de IA que requieren un razonamiento consistente y preciso para ayudar con situaciones y entornos del mundo real.
Lo más interesante sería conocer cómo Apple piensa aplicar estos resultados a su propio LLM. De momento, su pregonada Apple Intelligence es uno de los modelos más atrasados en su implementación, frente a otros más extendidos como Chat GPT o Gemini.
¿Qué opinas de esto? ¿Quizás nos dejamos deslumbrar por herramientas menos inteligentes de lo que suponíamos?
Flash del día

Hace unas semanas hablamos sobre la preocupación ambiental de Google y ahora se confirma que el gigante tecnológico quiere financiar la construcción de cinco pequeños reactores nucleares. El propósito, tal como pasara con Microsoft, es abastecer a su tecnología de IA con energía limpia. El primer reactor estaría en funcionamiento en el año 2030.
Prompt de la semana

Esta semana veremos cómo sacar jugo a una disposición publicada para nuestro negocio o actividad, o simplemente para conocimiento general.
Primero necesitamos el documento o fotografías del mismo y luego lo subiremos a Chat GPT con el siguiente prompt:
Teniendo en cuenta el sistema de regulaciones vigente en [tu país] analiza detalladamente este documento como un experto en leyes y dame resumido por puntos las ventajas y desventajas para mi [actividad, sector, etc]. Cita cada artículo que referencies para poder consultarlo con más detalle.
Inteligencia Natural es el blog del periodista Ernesto Guerra, para la revista Juventud Técnica. Cada semana trae novedades, herramientas y avisos relacionados con la inteligencia artificial. Comparte el artículo para llegar a más personas.
Si quieres contratar nuestra asesoría en IA, puedes escribirnos en nuestras redes sociales por mensaje directo.