{"id":6825,"date":"2024-08-09T11:24:12","date_gmt":"2024-08-09T09:24:12","guid":{"rendered":"https:\/\/foqum.io\/blog\/?p=6103"},"modified":"2026-04-12T11:58:41","modified_gmt":"2026-04-12T09:58:41","slug":"proyecto-toolkit-de-resumizacion-titulizacion-parafrasis","status":"publish","type":"post","link":"https:\/\/foqum.io\/en\/proyecto-toolkit-de-resumizacion-titulizacion-parafrasis\/","title":{"rendered":"Proyecto: Toolkit de resumizaci\u00f3n, titulizaci\u00f3n autom\u00e1tica y par\u00e1frasis de contenido multicanal basado en modelos de deep learning"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:1256.6px;margin-left: calc(-3% \/ 2 );margin-right: calc(-3% \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:1.455%;--awb-margin-bottom-large:0px;--awb-spacing-left-large:1.455%;--awb-width-medium:100%;--awb-spacing-right-medium:1.455%;--awb-spacing-left-medium:1.455%;--awb-width-small:100%;--awb-spacing-right-small:1.455%;--awb-spacing-left-small:1.455%;\"><div class=\"fusion-column-wrapper fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-text fusion-text-1\"><p>Proyecto financiado por la <b>convocatoria de ayudas 2021<\/b> destinadas a proyectos de investigaci\u00f3n y desarrollo en <b>inteligencia artificial<\/b> y otras tecnolog\u00edas digitales y su integraci\u00f3n en las cadenas de valor.<\/p>\n<p>Tareas relevantes y aparentemente sencillas, como generar un resumen de un peque\u00f1o texto, permanec\u00edan inalcanzables hasta hace pocos a\u00f1os. A medida que ha avanzado el estado del arte, no s\u00f3lo hemos podido enfrentarnos a estos problemas esenciales, sino que hemos ido m\u00e1s all\u00e1 tratando de controlar el estilo de los generadores de texto, la par\u00e1frasis de documentos, etc.<\/p>\n<p>Tambi\u00e9n con textos hemos trabajado en un problema a\u00fan m\u00e1s fundamental, como es la extracci\u00f3n de texto de los documentos (OCR). Aunque el reto est\u00e1 esencialmente superado para la extracci\u00f3n de texto en bruto, sigue siendo un problema interesante la extracci\u00f3n de informaci\u00f3n estructurada o semi-estructurada. En particular, hemos desarrollado un flujo automatizado para entrenamiento de modelos de extracci\u00f3n de informaci\u00f3n en documentos semi-estructuados que alcanza rendimientos similares a ChatGPT4 por una fracci\u00f3n del coste y tiempo de inferencia.<\/p>\n<p>Un paso fundamental\u2014y muchas veces invisible\u2014en cualquier soluci\u00f3n de IA es el procesamiento y simplificaci\u00f3n de los datos.<\/p>\n<p>M\u00e1s all\u00e1 del texto se ha trabajado tambi\u00e9n con imagen, donde se ha constatado un avance significativo del estado del arte hacia los grandes modelos de lenguaje multimodales. No obstante, no hay que olvidar que en ciertos casos los LLM no son una soluci\u00f3n, por motivos de privacidad, conexi\u00f3n o rendimiento. En estos casos muchas veces es necesario llevar al algoritmo f\u00edsicamente hasta su punto de aplicaci\u00f3n (edge-computing) y es preciso recurrir a t\u00e9cnicas m\u00e1s creativas.<\/p>\n<p>Finalmente, tambi\u00e9n se trabajaron algoritmos de procesamiento de audio. La transcripci\u00f3n es fundamental para poder aplicar toda la potencia de los algoritmos de texto cuando la fuente de datos son audios o v\u00eddeos. Una vez m\u00e1s el avance de los Transformers ha sido clave en esta \u00e1rea, donde tambi\u00e9n se ha tratado el caso de entornos ruidosos o el problema de la asignaci\u00f3n de hablantes o diarizaci\u00f3n.<\/p>\n<p><a href=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/sound-4872773_640.avif\"><img decoding=\"async\" class=\"alignnone wp-image-6106 size-fusion-600\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/sound-4872773_640-600x400.avif\" alt=\"mezcladora de sonido\" width=\"600\" height=\"400\" title=\"\" srcset=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/sound-4872773_640-200x133.avif 200w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/sound-4872773_640-600x400.avif 300w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/sound-4872773_640-400x267.avif 400w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/sound-4872773_640-600x400.avif 600w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/sound-4872773_640.avif 640w\" sizes=\"(max-width: 600px) 100vw, 600px\" \/><\/a><\/p>\n<p>Todo este trabajo ha generado una importante base de conocimiento y ha abierto oportunidades comerciales. Sin embargo, el verdadero valor de este proyecto ha sido precisamente poder dar cohesi\u00f3n y modularidad a todos estos algoritmos mediante una Plataforma que facilita el despliegue de APIs, la creaci\u00f3n de demos para comerciales, la documentaci\u00f3n y la monitorizaci\u00f3n de errores y rendimiento de los servicios.<\/p>\n<p><img decoding=\"async\" class=\"alignnone size-medium wp-image-7446\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/redes_sm-342x122.avif\" alt=\"Logo de RED.ES\" width=\"300\" height=\"107\" title=\"\" srcset=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/redes_sm-200x71.avif 200w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/redes_sm-342x122.avif 300w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/redes_sm.avif 342w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/p>\n<p><img decoding=\"async\" class=\"alignnone size-full wp-image-7797\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/11\/logo-gob-espana.svg\" alt=\"Gobierno de Espa\u00f1a\" width=\"334\" height=\"88\" title=\"\"><\/p>\n<p><img decoding=\"async\" class=\"alignnone size-medium wp-image-7444\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-600x338.avif\" alt=\"Logo del Plan de Recuperaci\u00f3n, Transformaci\u00f3n y Resiliencia\" width=\"300\" height=\"169\" title=\"\" srcset=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-200x113.avif 200w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-600x338.avif 300w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-400x225.avif 400w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-600x338.avif 600w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-768x432.avif 768w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-800x450.avif 800w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-1920x1080.avif 1024w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-1200x675.avif 1200w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR-1536x864.avif 1536w, https:\/\/foqum.io\/wp-content\/uploads\/2024\/08\/LOGO-COLOR.avif 1920w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><br \/>\n<img decoding=\"async\" class=\"alignnone size-full wp-image-7796\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2024\/11\/logo-financiado-ue.svg\" alt=\"Financiado por la UE\" width=\"316\" height=\"88\" title=\"\"><\/p>\n<\/div><\/div><\/div><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"","protected":false},"author":3,"featured_media":7447,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[128],"tags":[],"class_list":["post-6825","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-foqum"],"acf":[],"_links":{"self":[{"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/posts\/6825","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/comments?post=6825"}],"version-history":[{"count":2,"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/posts\/6825\/revisions"}],"predecessor-version":[{"id":10347,"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/posts\/6825\/revisions\/10347"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/media\/7447"}],"wp:attachment":[{"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/media?parent=6825"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/categories?post=6825"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/foqum.io\/en\/wp-json\/wp\/v2\/tags?post=6825"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}