Proyecto financiado por la convocatoria de ayudas 2021 destinadas a proyectos de investigación y desarrollo en inteligencia artificial y otras tecnologías digitales y su integración en las cadenas de valor.
Tareas relevantes y aparentemente sencillas, como generar un resumen de un pequeño texto, permanecían inalcanzables hasta hace pocos años. A medida que ha avanzado el estado del arte, no sólo hemos podido enfrentarnos a estos problemas esenciales, sino que hemos ido más allá tratando de controlar el estilo de los generadores de texto, la paráfrasis de documentos, etc.
También con textos hemos trabajado en un problema aún más fundamental, como es la extracción de texto de los documentos (OCR). Aunque el reto está esencialmente superado para la extracción de texto en bruto, sigue siendo un problema interesante la extracción de información estructurada o semi-estructurada. En particular, hemos desarrollado un flujo automatizado para entrenamiento de modelos de extracción de información en documentos semi-estructuados que alcanza rendimientos similares a ChatGPT4 por una fracción del coste y tiempo de inferencia.
Un paso fundamental—y muchas veces invisible—en cualquier solución de IA es el procesamiento y simplificación de los datos.
Más allá del texto se ha trabajado también con imagen, donde se ha constatado un avance significativo del estado del arte hacia los grandes modelos de lenguaje multimodales. No obstante, no hay que olvidar que en ciertos casos los LLM no son una solución, por motivos de privacidad, conexión o rendimiento. En estos casos muchas veces es necesario llevar al algoritmo físicamente hasta su punto de aplicación (edge-computing) y es preciso recurrir a técnicas más creativas.
Finalmente, también se trabajaron algoritmos de procesamiento de audio. La transcripción es fundamental para poder aplicar toda la potencia de los algoritmos de texto cuando la fuente de datos son audios o vídeos. Una vez más el avance de los Transformers ha sido clave en esta área, donde también se ha tratado el caso de entornos ruidosos o el problema de la asignación de hablantes o diarización.
Todo este trabajo ha generado una importante base de conocimiento y ha abierto oportunidades comerciales. Sin embargo, el verdadero valor de este proyecto ha sido precisamente poder dar cohesión y modularidad a todos estos algoritmos mediante una Plataforma que facilita el despliegue de APIs, la creación de demos para comerciales, la documentación y la monitorización de errores y rendimiento de los servicios.