Deportes

LLMS y AI no son lo mismo. Todo lo que debes saber sobre lo que hay detrás de chatbots

Lo más probable es que haya oído hablar del término «modelos de idiomas grandes» o LLM, cuando la gente habla de IA generativa. Pero no son sinónimos de chatbots de marca como Chatgpt, Google Géminis, Copiloto de Microsoft, Meta ai y Claude de Anthrope.

Estos chatbots de IA pueden producir resultados impresionantes, pero en realidad no entienden el significado de las palabras como nosotros. En cambio, son la interfaz que usamos para interactuar con modelos de idiomas grandes. Estas tecnologías subyacentes están capacitadas para reconocer cómo se usan las palabras y qué palabras aparecen con frecuencia juntas, para que puedan predecir futuras palabras, oraciones o párrafos. Comprender cómo funcionan los LLM es clave para comprender cómo funciona la IA. Y a medida que la IA se vuelve cada vez más común en nuestras experiencias diarias en línea, eso es algo que debe saber.

Esto es todo lo que necesita saber sobre LLM y lo que tienen que ver con la IA.

¿Qué es un modelo de idioma?

Puedes pensar en un modelo de idioma como un adivino para las palabras.

«Un modelo de idioma es algo que intenta predecir cómo se parece el lenguaje que los humanos producen», dijo Mark Riedl, profesor de la Escuela de Computación Interactiva de Georgia y Director Asociado del Centro de Aprendizaje Machine de Georgia Tech. «Lo que hace que algo sea un modelo de idioma es si puede predecir palabras futuras dadas palabras anteriores».

Esta es la base de la funcionalidad autocompleta cuando envía mensajes de texto, así como de los chatbots de IA.

¿Qué es un modelo de idioma grande?

Un modelo de lenguaje grande contiene grandes cantidades de palabras de una amplia gama de fuentes. Estos modelos se miden en lo que se conoce como «parámetros».

Entonces, ¿qué es un parámetro?

Bueno, los LLM usan redes neuronales, que son modelos de aprendizaje automático que toman una entrada y realizan cálculos matemáticos para producir una salida. El número de variables en estos cálculos son los parámetros. Un modelo de lenguaje grande puede tener 1 mil millones de parámetros o más.

«Sabemos que son grandes cuando producen un párrafo completo de texto de fluido coherente», dijo Riedl.

¿Cómo aprenden los modelos de idiomas grandes?

LLMS aprende a través de un proceso de IA central llamado aprendizaje profundo.

«Es muy parecido a cuando le enseñas a un niño: muestras muchos ejemplos», dijo Jason Alan Snyder, CTO global de la agencia publicitaria Momentum en todo el mundo.

En otras palabras, alimenta a la LLM una biblioteca de contenido (lo que se conoce como datos de capacitación) como libros, artículos, código y publicaciones en redes sociales para ayudarlo a comprender cómo se usan las palabras en diferentes contextos e incluso los matices más sutiles del lenguaje. Las prácticas de recopilación y capacitación de datos de las compañías de IA son objeto de cierta controversia y algunas demandas. Los editores como el New York Times, los artistas y otros propietarios de catálogo de contenido alegan que las compañías tecnológicas tienen usó su material con derechos de autor sin los permisos necesarios.

(Divulgación: Ziff Davis, empresa matriz de CNET, en abril presentó una demanda contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).

Los modelos de IA digieren mucho más de lo que una persona podría leer en su vida, algo en el orden de billones de tokens. Los tokens ayudan a los modelos de IA a descomponer y procesar texto. Puede pensar en un modelo de IA como un lector que necesita ayuda. El modelo desglosa una oración en piezas más pequeñas, o tokens, que son equivalentes a cuatro caracteres en inglés, o aproximadamente tres cuartos de una palabra, para que pueda comprender cada pieza y luego el significado general.

A partir de ahí, el LLM puede analizar cómo las palabras se conectan y determinar qué palabras aparecen a menudo juntas.

«Es como construir este mapa gigante de relaciones de palabras», dijo Snyder. «Y luego comienza a poder hacer esta cosa realmente divertida y genial, y predice cuál es la siguiente palabra … y compara la predicción con la palabra real en los datos y ajusta el mapa interno en función de su precisión».

Esta predicción y ajuste ocurren miles de millones de veces, por lo que el LLM está constantemente refinando su comprensión del lenguaje y mejora para identificar patrones y predecir palabras futuras. Incluso puede aprender conceptos y hechos de los datos para responder preguntas, generar formatos de texto creativos y traducir idiomas. Pero no entienden el significado de palabras como nosotros, todo lo que saben son las relaciones estadísticas.

Los LLM también aprenden a mejorar sus respuestas a través del aprendizaje de refuerzo de la retroalimentación humana.

«Recibes un juicio o una preferencia de los humanos sobre el cual la respuesta fue mejor dada el aporte que se le dio», dijo Maarten SAP, profesora asistente del Instituto de Tecnologías de Lenguas de la Universidad Carnegie Mellon. «Y luego puedes enseñarle al modelo a mejorar sus respuestas».

Los LLM son buenos para manejar algunas tareas, pero no otras.

Alexander Sikov/Istock/Getty Images Plus

¿Qué hacen los modelos de idiomas grandes?

Dada una serie de palabras de entrada, un LLM predecirá la siguiente palabra en una secuencia.

Por ejemplo, considere la frase: «Fui a navegar en el azul profundo …»

La mayoría de la gente probablemente adivinaría «mar» porque la navegación, las profundidades y el azul son todas las palabras que asociamos con el mar. En otras palabras, cada palabra establece un contexto para lo que debe venir después.

«Estos modelos de idiomas grandes, porque tienen muchos parámetros, pueden almacenar muchos patrones», dijo Riedl. «Son muy buenos para poder elegir estas pistas y hacer muy, muy buenas suposiciones en lo que viene a continuación».

¿Cuáles son los diferentes tipos de modelos de idiomas?

Hay un par de tipos de subcategorías que podría haber escuchado, como pequeños, razonamiento y de código abierto/peso abierto. Algunos de estos modelos son multimodales, lo que significa que están capacitados no solo en texto sino también en imágenes, video y audio. Todos son modelos de idiomas y realizan las mismas funciones, pero hay algunas diferencias clave que debe saber.

¿Existe tal cosa como un modelo de lenguaje pequeño?

Sí. Empresas tecnológicas como Microsoft han introducido modelos más pequeños que están diseñados para operar «en el dispositivo» y no requieren los mismos recursos informáticos que hace un LLM, pero que ayudan a los usuarios aprovechar la potencia de la IA generativa.

¿Cuáles son los modelos de razonamiento de IA?

Los modelos de razonamiento son una especie de LLM. Estos modelos le dan un vistazo detrás de la cortina en el tren de pensamiento de un chatbot mientras responde sus preguntas. Es posible que hayas visto este proceso si has usado VeteranoUn chatbot chino de IA.

Pero, ¿qué pasa con los modelos de código abierto y peso abierto?

Aún así, llms! Estos modelos están diseñados para ser un poco más transparentes sobre cómo funcionan. Los modelos de código abierto permiten que cualquiera vea cómo se construyó el modelo, y generalmente están disponibles para que cualquiera personalice y construya uno. Modelos de peso abierto Danos una idea de cómo el modelo pesa características específicas al tomar decisiones.

¿Qué hacen realmente bien los modelos de idiomas?

Los LLM son muy buenos para descubrir la conexión entre palabras y producir texto que suena natural.

«Toman una entrada, que a menudo puede ser un conjunto de instrucciones, como ‘Haz esto por mí’ o ‘Cuéntame sobre esto’ o ‘resumir esto’, y pueden extraer esos patrones de la entrada y producir una larga cadena de respuesta fluida», dijo Riedl.

Pero tienen varias debilidades.

¿Dónde luchan los modelos de idiomas grandes?

Primero, no son buenos para decir la verdad. De hecho, a veces solo inventan cosas que suenan verdaderas, como cuando chatgpt citó seis casos falsos de la corte En un resumen legal o cuando el bardo de Google (el predecesor de Géminis) acreditado por error El telescopio espacial James Webb tomando las primeras fotos de un planeta fuera de nuestro sistema solar. Esos se conocen como alucinaciones.

«Son extremadamente poco confiables en el sentido de que confabulan y inventan mucho», dijo Sap. «No están entrenados ni diseñados por ningún medio para escupir algo verdadero».

También luchan con consultas que son fundamentalmente diferentes de cualquier cosa que hayan encontrado antes. Esto se debe a que están enfocados en encontrar y responder a los patrones.

Un buen ejemplo es un problema matemático con un conjunto único de números.

«Es posible que no pueda hacer ese cálculo correctamente porque realmente no está resolviendo matemáticas», dijo Riedl. «Está tratando de relacionar su pregunta matemática con ejemplos anteriores de preguntas matemáticas que ha visto antes».

Si bien se destacan en la predicción de palabras, no son buenos para predecir el futuro, lo que incluye la planificación y la toma de decisiones.

«La idea de hacer la planificación en la forma en que los humanos lo hacen … pensando en las diferentes contingencias y alternativas y tomar decisiones, este parece ser un obstáculo realmente difícil para nuestros modelos actuales de idiomas grandes en este momento», dijo Riedl.

Finalmente, luchan con los eventos actuales porque sus datos de entrenamiento generalmente solo suben a cierto punto y cualquier cosa que suceda después de eso no es parte de su base de conocimiento. Debido a que no tienen la capacidad de distinguir entre lo que es real y lo que es probable, pueden proporcionar información incorrecta sobre los eventos actuales.

Tampoco interactúan con el mundo como nosotros.

«Esto les dificulta comprender los matices y complejidades de los eventos actuales que a menudo requieren una comprensión del contexto, la dinámica social y las consecuencias del mundo real», dijo Snyder.

¿Cómo se integran LLMS con los motores de búsqueda?

Estamos viendo que las capacidades de recuperación evolucionan más allá de lo que los modelos han sido capacitados, incluida la conexión con motores de búsqueda como Google para que los modelos puedan realizar búsquedas web y luego alimentar esos resultados al LLM. Esto significa que podrían comprender mejor las consultas y proporcionar respuestas que sean más oportunas.

«Esto ayuda a que nuestros modelos de vinculación se mantengan actuales y actualizados porque en realidad pueden mirar nueva información en Internet y traerla», dijo Riedl.

Ese era el objetivo, por ejemplo, hace un tiempo con Bing a prueba de IA. En lugar de aprovechar los motores de búsqueda para mejorar sus respuestas, Microsoft buscó a la IA para mejorar su propio motor de búsqueda, en parte comprender mejor el verdadero significado detrás de las consultas de los consumidores y clasificar mejor los resultados para dichas consultas. En noviembre pasado, se introdujo Openai Búsqueda de chatgptcon acceso a la información de algunos editores de noticias.

Pero hay capturas. La búsqueda web podría empeorar las alucinaciones sin mecanismos de verificación de hechos adecuados. Y LLMS necesitaría aprender cómo evaluar la confiabilidad de las fuentes web antes de citarlas. Google aprendió que de la manera difícil con el Debut propenso a errores de sus descripciones de IA Resultados de la búsqueda. La empresa de búsqueda posteriormente Refined sus resultados de descripción de IA para reducir resúmenes engañosos o potencialmente peligrosos. Pero incluso informes recientes han encontrado que las descripciones de la IA no pueden decirle constantemente En que año es.

Para más, consulte La lista de nuestros expertos de IA Essentials y el Los mejores chatbots para 2025.



Enlace de origen

Publicaciones relacionadas

Botón volver arriba