El modelo de lenguaje cubano CecilIA nació oficialmente en la mañana del 26 de mayo, el día que concluyó su primer entrenamiento. Parte del equipo desarrollador asistía a la ceremonia de inauguración de la Convención Saber UH 2025 cuando conocieron que esa fase había llegado a su fin. Allí anunciaron la noticia a los asistentes.
“CecilIA está recién creada, es apenas una bebé”, nos comenta el Dr. C. Yudivián Almeida Cruz, Director del Grupo de Inteligencia Artificial de la Universidad de La Habana y miembro del equipo de desarrollo.
Juventud Técnica conversó con él para obtener detalles del ciclo de creación del modelo de lenguaje cubano, próximos pasos y posibles aplicaciones al terminar los ajustes planificados.
—¿Por qué desarrollar un modelo de lenguaje entrenado con texto cubano?
—Crear un modelo de lenguaje a partir de texto cubano es esencial para poder construir posteriormente aplicaciones de IA generativa que capturen los matices de nuestra variante lingüística, cultura, tradiciones e historia.
“La creación de modelos de lenguaje nacionales o regionales permite mejorar la calidad y precisión del procesamiento en el idioma nacional y sus variantes regionales. Modelos de esta naturaleza influyen en la preservación de la diversidad lingüística y cultural.
“Su existencia permite además reducir la dependencia tecnológica, fomenta la innovación tecnológica local y aumenta la accesibilidad y democratización del uso de aplicaciones basadas o que usen modelos generativos. Así, se puede trabajar mejor en la creación de sistemas computacionales más eficientes y especializados en sectores concretos”.
—¿Cómo definiría al modelo de lenguaje cubano CecilIA para alguien que no es técnico? ¿Qué particularidades tiene la arquitectura Salamandra 2b y por qué la eligieron como base?
— CecilIA puede definirse, grosso modo, como un sistema computacional basado en técnicas y algoritmos de inteligencia artificial que entiende y genera texto en español con un enfoque especial en el que se habla en Cuba.
“Esto significa que tiene como objetivo captar no solo el idioma, sino también las particularidades culturales, sociales y lingüísticas propias del país, como modismos, expresiones y referencias culturales típicas.
“Así, consigue ayudar en tareas como escribir textos, analizar sentimientos en redes sociales cubanas, reconocer nombres propios específicos de Cuba o traducir con sensibilidad a las variantes del español cubano.
“Puede considerarse un modelo mediano o pequeño de lenguaje. Estos, en comparación con los grandes modelos de lenguaje, tienen más limitaciones en comprensión profunda y razonamiento complejo, con mayor dependencia de la calidad de datos utilizados para su creación. Sin embargo, poseen un menor tiempo de entrenamiento, consumo de recursos computacionales, memoria y energía eléctrica, así como más velocidad y eficiencia para tareas específicas.
“Debido a las características culturales, infraestructura tecnológica y capacidades económicas del país, se tomó a Salamandra 2b como el punto de partida para la creación de un modelo de lenguaje cubano, una decisión estimulada por las relaciones académicas entre ambos equipos desarrolladores.
“La familia de modelos de lenguaje Salamandra son multilingües, de código abierto y entrenados de cero con datos abiertos en infraestructura avanzada. Tiene distintas versiones, según el número de parámetros, siendo la más pequeña el modelo 2b”.
—¿Por qué es importante el modelo de lenguaje cubano CecilIA para el país?
— CecilIA, entendiéndose como la familia de modelos que se trabaja en construir, representa una herramienta tecnológica propia que pretende reflejar y entender profundamente el idioma y la cultura cubana, incluyendo sus particularidades lingüísticas, sociales e históricas.
“El término familia de modelos lingüísticos hace referencia a un grupo de modelos que comparten una arquitectura base común, pero pueden entrenarse para diferentes idiomas, tamaños o propósitos. La agrupación facilita el desarrollo, comparación y modelos que comparten fundamentos técnicos pero se adaptan a distintas necesidades.
“CecilIA está en su etapa iniciática, partiendo del modelo base CecilIA 2b, pero la meta es construir esta familia con modelos de distintos tamaños y especializaciones. Por eso se habla, desde el inicio, de CecilIA como una familia de modelos lingüísticos.

“Además, se pretende contribuir a una superación de barreras tecnológicas, ayudando a que la inteligencia artificial sea más accesible y relevante para los cubanos. Esto es especialmente valioso para apoyar la inclusión digital, la innovación tecnológica nacional y el desarrollo de aplicaciones que respondan a las necesidades específicas de Cuba.
“Pretendemos que CecilIA sea una herramienta que propicie que la cultura, el lenguaje y las particularidades cubanas tengan voz propia en esta era de transformación digital, fortaleciendo la soberanía tecnológica y cultural del país”.
—¿Qué tipo de tareas aún no puede hacer el modelo de lenguaje cubano CecilIA por sí sola? ¿Qué se necesitaría para que fuera capaz de seguir instrucciones, como un asistente conversacional?
—La versión disponible es un modelo base con un primer pre entrenamiento con un corpus textual cubano. Esto significa que es un modelo base generalista que puede manejar tareas básicas de lenguaje natural, como generación de texto, comprensión básica del lenguaje y predicción de texto no supervisado con cierto nivel de coherencia.
“Sin embargo, requiere de un ajuste fino (fine tuning) para mejorar su precisión y adaptarse aplicaciones o dominios específicos. Ello puede realizarse para que se especialice en un área específica o sea capaz de hacer algún tipo especial de tareas. Esto conlleva primero crear un instruction corpus particularmente construido para CecilIA con enfoque cubano.
“Una vez que esté, se realiza el entrenamiento con el modelo base. Ahora mismo necesitamos evaluar la diversidad cultural y lingüística que puede reflejar CecilIA tanto en la versión actual como en futuros desarrollos. Y ese es también otro reto que debemos enfrentar colectivamente, cómo vamos a construir ese benchmark que evalúe la cubanía de CecilIA.
“Sin embargo, eso no es suficiente porque los modelos de lenguaje no funcionan por sí solos. Son un componente sobre el cual se construyen sistemas, como asistentes conversacionales. Esa sería la etapa siguiente: la creación de aplicaciones y sistemas computaciones que aprovechen a CecilIA como bloque constructivo dadas sus características.
“Una vez que tengamos versiones instruidas de CecilIA, se tendrán modelos con una arquitectura común, con gran modularidad y escalabilidad, que se pueden usar de manera eficiente y flexible. Ello servirá de base para dominios específicos, construcción de sistemas híbridos y desarrollo de aplicaciones de distinta índole.
“Lograr una herramienta como ChatGPT o DeepSeek no lleva solo un modelo de lenguaje, sino también la implementación de un sistema computacional. Diseñarlo e implementarlo es factible. Sin embargo, actualmente no disponemos de una infraestructura tecnológica para tener un asistente computacional dialógico, abierto a todos y con calidad en el servicio”.
—¿Cómo fue el proceso de recolección y selección de los textos cubanos utilizados para entrenar al modelo de lenguaje cubano CecilIA?
—El corpus de textos cubanos es el núcleo esencial para la creación de CecilIA. En esta primera etapa, que tenía como propósito tener una primera versión del modelo base así como aprender y definir los flujos necesarios para su creación, asumimos la creación del Corpus en el Grupo de Inteligencia Artificial y Ciencia de Datos de la Universidad de La Habana.
“Para ello, tratamos de determinar fuentes de datos de distintas topologías que pudieran reflejar distintas aristas de la cultura y la lengua cubana, Era importante que las fuentes estuvieran disponibles para obtener la información textual. A partir de ello comenzó un proceso de búsqueda que involucró descargar bases de datos, scrappear sitios, buscar libros, canciones, discursos y otros muchos recursos textuales.
“Con la colección de documentos, la siguiente etapa fue realizar programas que convirtieran todos esos textos en documentos markdown, y una última fue para normalizar estos textos y detectar problemas de formato y codificaciones no válidas. Con esto logramos un primer corpus que está conformado por 2.7 GB de texto.

“La integración de textos para el pre entrenamiento es simple, pues basta que estén en formato textual. Lo difícil es garantizar su diversidad, y actualmente está muy subrepresentado el reflejo del lenguaje coloquial. Estamos trabajando en ideas para poder lograr su presencia, como realizar campañas de grabaciones o llegar a guiones de programas de televisión y cine.
“Una vez que publiquemos el proyecto, buscamos sumar todas las instituciones posibles en el empeño de aumentar, modificar y curar este corpus de pre entrenamiento y los siguientes que se empleen. Para facilitarlo, trabajamos en el desarrollo de herramientas computaciones que faciliten la colaboración en esa tarea.
“Como es nuestro propósito que se nos unan al desarrollo de CecilIA múltiples instituciones hemos puesto el sistema de petición manual para que se haga la solicitud de revisión puntual. Nuestro deseo es que podamos llegar rápido al punto en que podamos liberar abiertamente los distintos modelos que conformarán la familia”.
—¿Qué papel desempañaron las alianzas con el Grupo de Procesamiento del Lenguaje y Sistemas de Información (GPLSI) de la Universidad de Alicante, SYALIA S.R.L., y EPISTEMIAL?
—El GPLSI es un grupo de Investigación de la Universidad de Alicante con el cual hemos dirigido doctorados conjuntos y desarrollado proyectos de investigación, incluso alcanzado conjuntamente Premios de la Academia de Ciencias de Cuba.
“Ellos son parte del proyecto ILENIA, bajo el cual se ha hecho el desarrollo de la familia de modelos Salamandra. Por tanto tienen un conocimiento importante en el saber hacer necesario para la construcción de modelos de lenguaje.
“Además, formando parte de este proyecto tenemos a estudiantes de doctorados y profesores nuestros que realizan de manera conjunta sus investigaciones allá.

“En una visita reciente de trabajo reciente a Alicante, abordamos la idea del proyecto de crear un modelo de lenguaje cubano. Además del conocimiento y el saber hacer en modelos de lenguaje que ya tiene la institución, ofrecieron su infraestructura computacional para realizar el entrenamiento de nuestros modelos.
“El pre entrenamiento de CecilIA se realizó en servidores de Alicante, así como las primeras evaluaciones que hemos realizado. Ambos procesos estuvieron a cargo de jóvenes investigadores cubanos que en estos momentos realizan investigaciones en el seno del GLPSI.
“SYALIA S.R.L., una microempresa cubana, y EPISTEMIAL, una empresa equivalente española, permitieron el acceso a parte de los recursos computacionales así como el financiamiento a servicios disponibles fuera de Cuba, los cuales han sido utilizados en el desarrollo de CecilIA”.
—¿Cómo se inserta CecilIA dentro del panorama internacional de modelos de lenguaje en español?
—Actualmente, en el ámbito del habla hispana hay dos grandes proyectos. Por una parte está Latam-GPT que persigue la construcción de un gran modelo de lenguaje latinoamericano, Su definición es “un modelo de lenguaje hecho en Latinoamérica, para Latinoamérica”.
“El proyecto ha tenido un financiamiento considerable para construir una infraestructura tecnológica importante. Aún no se ha comenzado el entrenamiento del modelo, aunque hay planes para comenzar pronto.
Recomendamos: Cinco proyectos de Inteligencia Artificial creados en Cuba
“Por otra parte está el mencionado proyecto de Salamandra, con el cual ya estamos conectados a partir de nuestro trabajo conjunto con la Universidad de Alicante. Nuestros propósitos son aumentar la articulación que ya vamos teniendo con el proyecto Salamandra, y tratar de, desde CecilIA, continuar la visión cubana, latinoamericana e iberoamericana.
“Además, pretendemos también conectarnos con el proyecto Latam-GPT, para de esta manera nutrirnos, colaborar, y transmitir nuestras experiencias en los esfuerzos de construcción de modelos de lenguaje nacionales y regionales”.