Sarvam M: El modelo de IA de la India impresiona en matemáticas e idiomas indios; Así es como se compara con otros modelos de IA

La startup india de IA Sarvam ha lanzado su modelo de lenguaje grande (LLM), Sarvam-M, un modelo de peso abierto híbrido de 24 billones de parámetros basado en Small Mistral. Posicionado como una alternativa versátil y localmente relevante en la raza Global LLM, Sarvam-M ha ganado elogios por su fuerte desempeño en idiomas indios, matemáticas y programación, pero no sin algún escepticismo de partes de la comunidad tecnológica.
24 mil millones de parámetros: ¿Qué significa?
En términos simples, los parámetros son la configuración interna que un modelo de idioma utiliza para procesar y generar texto. Piense en ellos como diales e interruptores que se ajustan durante el entrenamiento para ayudar al modelo a comprender la gramática, el contexto, los hechos, el razonamiento y más. Cuantos más parámetros tenga un modelo, más matizado puede ser su comprensión y salida, aunque esto también depende de la calidad de los datos y los métodos de capacitación. Sarvam-M, con 24 mil millones de parámetros, cae en la escala de LLM de mediana a grande. Es significativamente más grande que los modelos abiertos como Mistral 7B, pero más pequeño que los sistemas fronterizos como GPT-4 de OpenAI o Gemini 1.5 Pro de Google.
¿Cómo se acumula Sarvam-M?
Aquí hay un vistazo rápido a dónde se ajusta Sarvam-M entre los principales jugadores:
Modelo | Parámetros | Fortalezas |
---|---|---|
Sarvam-mm | 24B | Idiomas indios, matemáticas, programación |
OPERAI GPT-4 | 1.8t (estimado) | Razonamiento general, codificación, multilingüe |
Géminis 1.5 Pro | 200B+ | Capacidades multimodales, razonamiento avanzado y rendimiento de codificación |
Llame al 3 70b | 70b | Razonamiento, codificación y tareas multilingües |
Antrópico Claude 3.7 soneto | 2t (estimado) | Resumen de alta calidad, razonamiento y generación de contenido |
Sarvam-M se encuentra por debajo de los modelos patentados más grandes en términos de tamaño, pero golpea por encima de su peso en tareas específicas del dominio, particularmente el razonamiento de las matemáticas y el idioma indio. Sin embargo, se retrasa en los puntos de referencia centrados en inglés, como MMLU, con una brecha de rendimiento de aproximadamente 1%, destacando el margen de mejora en una generalización lingüística más amplia.
¿Cómo se construyó?
Sarvam-M se desarrolló a través de un proceso de entrenamiento trifásico:
- Autorización supervisada (SFT): se utilizaron indicaciones y respuestas de alta calidad para dar forma a las habilidades de conversación y razonamiento del modelo al tiempo que minimizan el sesgo cultural.
- Aprendizaje de refuerzo con recompensas verificables (RLVR): se enseñó al modelo a seguir las instrucciones y resolver problemas de lógica pesada utilizando recompensas cuidadosamente diseñadas y bucles de retroalimentación.
- Optimización de inferencia: la compresión avanzada (cuantificación de FP8) y las estrategias de decodificación ayudaron a mejorar la eficiencia y la velocidad, aunque los desafíos de escalabilidad en los entornos de alta concurrencia persisten.
Por que importa
Sarvam-M admite 10 idiomas indios y puede manejar preguntas competitivas de exámenes en hindi, por lo que es una herramienta prometedora para los esfuerzos de educación y traducción local. Logró una mejora del 86% en una prueba que combina matemáticas y idiomas indios romanizados, lo que demuestra un fuerte razonamiento multilingüe.
A pesar de las críticas sobre si el modelo es «lo suficientemente bueno» para competir a nivel mundial, el lanzamiento de Sarvam-M ha elevado significativamente el perfil de los esfuerzos indios en el espacio de IA. El modelo ahora se puede acceder públicamente a través de la API de Sarvam y en abrazar la cara, alentando a los desarrolladores a construir, probar y contribuir.
Si bien es posible que no rivalice con los LLM más avanzados todavía, Sarvam-M representa un paso significativo para democratizar el desarrollo de IA en India, especialmente para los usuarios que necesitan apoyo más allá del inglés.