Inicio / Tecnología / Transcriptor Notus: Humanizar el trabajo con soluciones propias

Transcriptor Notus: Humanizar el trabajo con soluciones propias

Raul Abreu Martin
25 febrero 2026 | 0 |

La humanidad ha intentado de disimiles formas dejar un registro de su paso por la Tierra. Ahí tenemos la pintura, la música, la escultura y la literatura. Detrás de esas manifestaciones artísticas, la transcripción de la palabra hablada ha sido una herramienta para garantizar la permanencia de lo dicho.

Es una tarea habitual en periodistas, estudiantes y personal de secretaría, entre otros; con el objetivo de tener la información de conferencias o reuniones lista para ser procesada en artículos, trabajos académicos o actas. De escuchar durante horas, el proceso se ha venido automatizando gracias a las nuevas herramientas tecnológicas.

Desde Cuba, la empresa Ingenius S.R.L. ha desarrollado su propio software de transcripción, una herramienta al alcance de organizaciones nacionales y un aporte importante hacia el objetivo de la soberanía tecnológica que persigue el país.

Un poco de historia

Para ver las primeras formas de transcripción tenemos que hacer un viaje bien atrás en el tiempo, concretamente al año 3400 a.n.e. En el Antiguo Egipto, los escribas creaban copias de las leyes e historias que venían de las clases gobernantes de la época. Fue habitual en civilizaciones antiguas esta clase social, dedicada a dejar constancia de los sucesos de su tiempo.

En 1439, con la invención de la imprenta, el papel del escriba se amplió. El dispositivo permitía una difusión masiva de contenidos en papel, y creció una demanda fundamentalmente de obras clásicas de la literatura. Los escribas entonces se encargaron de reproducir esos textos, lo que los llevó a especializarse en una nueva forma de transcripción: la taquigrafía.

El siglo XX trajo consigo la aparición del magnetófono. El dispositivo permitió capturar el sonido de forma física en cintas de audio, que facilitó la labor taquigráfica, aunque esta continuaba siendo un proceso manual y tedioso.

No fue hasta la década de 1980 cuando comenzaron a aparecer los primeros ordenadores y programas de tratamiento de texto. Estos sistemas, de baja precisión, se basaban en reglas fonéticas y gramaticales predefinidas para identificar el habla. Su vocabulario era muy limitado, y necesitaban de una vocalización lenta y clara por parte del locutor.

Los Modelos Ocultos de Markov, que llegaron desde el 2000, ya no dependían de esas reglas fijas, sino que podían aprender de grandes volúmenes de datos en audio y texto. Ello supuso un aumento considerable de la precisión, y permitió un vocabulario base más amplio dentro de las herramientas de procesamiento.

En 2010, con la aplicación de redes neuronales y aprendizaje profundo, los modelos podían capturar patrones más complejos en el audio, con un mayor entendimiento del contexto, acentos, pausas y ruido ambiental, lo que llevó a un nivel de precisión (en condiciones ideales) del 95%.

En la actualidad, a partir de los avances de grandes modelos de lenguaje y tecnologías en la nube, los transcriptores son capaces de comprender el contexto de la conversación, distinguir entre disímiles locutores y usar correctamente los signos de puntuación. Impulsadas por inteligencia artificial, las mejoras de sus capacidades son constantes, así como el surgimiento de nuevas soluciones para simplificar la tarea.

Para transcribir el español cubano

En nuestra labor periodística, actualmente usamos en la transcripción de entrevistas herramientas como Pinpoint, Turboscribe o chatbots de inteligencia artificial que incluyen esa función. Sin embargo, eso nos hace depender de una conexión estable a Internet.

La empresa cubana Ingenius S.R.L ha desarrollado una solución que elimina la necesidad de estar online para realizar labores de transcripción. Notus es un software desarrollado por su equipo, que funciona completamente fuera de la red, lo que garantiza una estabilidad constante en el servicio.

La herramienta utiliza modelos de inteligencia artificial para transformar audio en texto, reconocer a los hablantes y exportar los documentos para su edición. Puede procesar archivos de audio y video en distintos formatos (.mp3, .wav, .mp4, .mkv, .ogg, entre otros) y guardar los documentos como subtítulos (.srt) o para ser tratados como archivo de Word (.doc) o PDF.

Notus se basa en el modelo Whisper, de código abierto, y que ha sido entrenado con 680 mil horas de datos de audio y transcripciones recopiladas de Internet. Ese conjunto de datos es la clave de su fortaleza. Además, el propio Whisper utiliza la arquitectura Transformer, lo cual le permite comprender patrones complejos de audio, homófonos, palabras con pronunciaciones similares o difíciles de entender.

Los desarrolladores del transcriptor cubano han hecho uso de tecnologías de IA ampliamente usadas en el procesamiento de audios como FFmpeg (gestión de archivos de video), pyannote.audio (para analizar audios), SpeechBrain (transcripciones de segmentos con distintos oradores), Flet (para la interfaz de usuario) y PyTorch, la base sobre la que todas esas herramientas se relacionan.

El empleo combinado de todas estas permite que Notus tenga un manejo eficiente del ruido y diferentes calidades de audio, una eficacia medida por palabra del 96,6 por ciento, tiempos reducidos de procesamiento y una eficiencia en el aprovechamiento de los recursos de hardware disponibles.

Rubén Sánchez Rivero, desarrollador de Ingenius, adelantó que en próximas versiones de la herramienta planean incorporar pequeños modelos de lenguaje para hacer postprocesamiento y mejorar los resultados, además de otras analíticas sobre el texto transcrito.

Ese porcentaje surgió de un estudio conjunto de Ingenius con el Departamento de Versiones Taquigráficas de la Presidencia de la República. “Ese estudio es significativo porque los requerimientos profesionales de ese lugar están por encima de la media”, dijo Rubén Sánchez Rivero, desarrollador en Ingenius.

“No hemos ejecutado otros estudios formales todavía, pero creemos que la rigurosidad de esa evaluación es bastante reveladora. Cada vez que modificamos parámetros de los modelos hacemos pruebas exhaustivas con nuestros benchmarks[1] internos, y tenemos planificado ejecutar otras evaluaciones formales”, añadió.

En comparaciones con otras herramientas similares, Notus muestra resultados satisfactorios y ha significado, además, un aumento de la productividad y capacidades creativas y analíticas en las organizaciones que hacen uso del software. El impacto es notable en la generación de conocimiento, aceleración de investigaciones, así como en la soberanía y la seguridad de la información.

El desarrollador adelantó que en próximas versiones de la herramienta planean incorporar pequeños modelos de lenguaje para hacer postprocesamiento y mejorar los resultados, además de otras analíticas sobre el texto transcrito.

Dentro del empleo de herramientas de IA para la automatización de tareas, está el riesgo de que las mismas tengan sesgos o alucinen, en dependencia de la información que se haya usado en su entrenamiento. Cada forma de hablar el idioma español es distinta, y Cuba tiene unas particularidades muy marcadas.

“Usamos modelos del estado del arte que ya incluyen español cubano en su entrenamiento, pero no nos quedamos ahí. Ajustamos varios parámetros teniendo en cuenta las características de nuestra fonética, y trabajamos con técnicas para ampliar el contexto y que el modelo entienda mejor las particularidades del entorno. No es solo poner un modelo a funcionar, hay un trabajo de adaptación detrás”, comentó Sánchez Rivero.

El software tiene una interfaz sencilla y amigable de usar, donde el primer paso es cargar el archivo que se desea transcribir y comenzar el proceso. Aunque pensado para un contexto cubano, reconoce también frases en inglés y francés.

Incluye la función de reconocer distintos oradores con un botón dentro de la sencilla herramienta. El programa asignará etiquetas individuales a cada persona que hable, las cuales son revisables y editables por el usuario para una mejor organización del resultado final.

Estas herramientas de transcripción impulsadas por IA no son cien por ciento efectivas, por lo cual es recomendable y necesario la revisión. Para facilitarlo, los desarrolladores han incluido marcas de tiempo en el documento resultante, y un botón de autoscroll para verificar a medida que se reproduce el audio.

Lo que pasa en Notus…

Como comentamos anteriormente en este texto, la gran mayoría de herramientas de transcripción disponibles funcionan en un entorno online y operan bajo modelos de suscripción. Es decir, solo permiten un número limitado de audios a procesar por un periodo corto de tiempo.

Los factores económicos (financiamiento) y tecnológicos (acceso a la nube, plataformas restringidas para Cuba) son una limitante para que las instituciones del país puedan hacer uso de esas herramientas disponibles en la red, además de la entrega de información privada a esas plataformas extranjeras.

En ese contexto, Notus destaca por su funcionamiento completamente offline, lo cual garantiza privacidad y soberanía de los datos de organizaciones y personas. En su modelo de negocio, se le otorga al cliente una licencia con duración de un año, a un precio que ha demostrado ser justo y asequible.

La solución de Ingenius S.R.L. es una apuesta por la soberanía tecnológica, y la herramienta es adaptable a las necesidades específicas, tanto del país como de la institución que solicita el servicio. El pago es en CUP y la empresa atiende requerimientos particulares de cada cliente, a diferencia de las herramientas extranjeras estándares.

“Notus responde directamente a esa necesidad”, añadió Sánchez Rivero. “Al funcionar offline, los datos sensibles nunca salen del país ni pasan por servidores externos. Las instituciones cubanas tienen control total sobre la tecnología que usan. Es exactamente lo que significa soberanía tecnológica en la práctica”.

Como perspectivas a futuro de los desarrolladores de esta herramienta, se encuentran una mejora en los resultados, a partir de la incorporación de pequeños modelos de lenguaje para el postprocesamiento, y también en UX/UI (experiencia e interfaz de usuario, dos aspectos esenciales en el diseño digital).

Bien es sabido que las herramientas impulsadas por inteligencia artificial reciben nuevas funciones a menudo, a partir de ajustes realizados por sus creadores. Aunque Ingenius S.R.L. todavía tiene pendiente realizar algunos estudios de efectividad, ya piensan en futuras versiones de Notus.

Las transcripciones son editables dentro de la misma herramienta./Foto: Captura de Pantalla de Video Promocional

Dentro de las funcionalidades nuevas que podrían llegar a Notus en próximas versiones se encuentran el reconocimiento de locutores a partir de bases de datos guardadas, y la generación de resúmenes automáticos, entre otras. “El objetivo es convertir a Notus en una suite completa que ayude a humanizar el trabajo, y hacerlo con tecnología de punta desde soluciones propias”, sentenció Sánchez Rivero.

Sobre la posibilidad de realizar versiones para contextos con un vocabulario técnico propio (por ejemplo, en el sector de la salud), el desarrollador de Ingenius comentó que “es una posibilidad que tenemos en mente, pero nuestra estrategia ahora es primero hacer que el producto sea lo mejor posible desde lo genérico. De esa forma llegamos a la mayor cantidad de usuarios posibles y consolidamos una base sólida. Después de eso podemos pensar en versiones especializadas para sectores específicos”.

Notus llega en un momento donde las tecnologías principales de inteligencia artificial se concentran en unas pocas empresas, Cuba no tiene acceso a funciones de pago y el debate de protección de datos en sistemas de IA sigue vigente. La solución de Ingenius S.R.L. elimina buena parte de esas restricciones de acceso y su uso es validado por varias instituciones del país necesitadas de dejar registro de su accionar.


[1] Conjunto de pruebas y métricas propias diseñadas para evaluar el rendimiento de software frente a estándares internos o versiones previas

Deja un comentario

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *