{"id":7134,"date":"2025-07-03T12:00:31","date_gmt":"2025-07-03T10:00:31","guid":{"rendered":"https:\/\/foqum.io\/blog\/?p=7134"},"modified":"2026-04-10T20:58:12","modified_gmt":"2026-04-10T18:58:12","slug":"prediccion-proteina-soja-modelo-machine-learning","status":"publish","type":"post","link":"https:\/\/foqum.io\/es\/prediccion-proteina-soja-modelo-machine-learning\/","title":{"rendered":"De lo simple a lo sofisticado: Predicci\u00f3n del porcentaje de prote\u00edna de soja"},"content":{"rendered":"<div class=\"fusion-fullwidth fullwidth-box fusion-builder-row-1 fusion-flex-container nonhundred-percent-fullwidth non-hundred-percent-height-scrolling\" style=\"--awb-border-radius-top-left:0px;--awb-border-radius-top-right:0px;--awb-border-radius-bottom-right:0px;--awb-border-radius-bottom-left:0px;--awb-flex-wrap:wrap;\" ><div class=\"fusion-builder-row fusion-row fusion-flex-align-items-flex-start fusion-flex-content-wrap\" style=\"max-width:1256.6px;margin-left: calc(-3% \/ 2 );margin-right: calc(-3% \/ 2 );\"><div class=\"fusion-layout-column fusion_builder_column fusion-builder-column-0 fusion_builder_column_1_1 1_1 fusion-flex-column\" style=\"--awb-bg-size:cover;--awb-width-large:100%;--awb-margin-top-large:0px;--awb-spacing-right-large:1.455%;--awb-margin-bottom-large:0px;--awb-spacing-left-large:1.455%;--awb-width-medium:100%;--awb-spacing-right-medium:1.455%;--awb-spacing-left-medium:1.455%;--awb-width-small:100%;--awb-spacing-right-small:1.455%;--awb-spacing-left-small:1.455%;\"><div class=\"fusion-column-wrapper fusion-flex-justify-content-flex-start fusion-content-layout-column\"><div class=\"fusion-text fusion-text-1\"><p>Autor: Marco Catroppa<\/p>\n<p>Este art\u00edculo presenta el desarrollo de un <b>sistema predictivo para estimar la concentraci\u00f3n de prote\u00edna en un proceso industrial agroalimentario<\/b>. Partiendo de modelos estad\u00edsticos cl\u00e1sicos y avanzando hacia t\u00e9cnicas de machine learning y reducci\u00f3n no lineal de la dimensionalidad, el trabajo refleja c\u00f3mo un <b>enfoque progresivo y metodol\u00f3gicamente s\u00f3lido<\/b> puede traducirse en soluciones m\u00e1s precisas, robustas y operables. Lejos de limitarse a mejorar m\u00e9tricas, la evoluci\u00f3n del modelo respondi\u00f3 a una comprensi\u00f3n profunda del proceso y a la necesidad de <b>integrar el modelo en la realidad operativa de planta.<\/b><\/p>\n<p>La necesidad de estimar\u2014de forma fiable y anticipada\u2014m\u00e9tricas de productos asociadas a procesos industriales es uno de los retos m\u00e1s candentes en el \u00e1mbito cient\u00edfico-tecnol\u00f3gico actual. La tendencia creciente a introducir Gemelos Digitales en entornos industriales ha transformado profundamente la forma en que se controlan, optimizan y comprenden dichos procesos. M\u00e1s all\u00e1 de una simple digitalizaci\u00f3n, un Gemelo Digital implica la capacidad de predecir en tiempo real variables cr\u00edticas del sistema, habilitando respuestas autom\u00e1ticas y decisiones informadas sin necesidad de intervenci\u00f3n externa ni demoras asociadas a an\u00e1lisis <em>offl<\/em><em>i<\/em><em>ne<\/em>.<\/p>\n<p>En este contexto, con respecto al proceso industrial de <em>extracc<\/em><em>i<\/em><em>\u00f3n de prote\u00edna de haba de so<\/em><em>j<\/em><em>a<\/em>, se emprendi\u00f3 un trabajo de modelizaci\u00f3n predictiva centrado en la estimaci\u00f3n de la concentraci\u00f3n de prote\u00edna, clave para la calidad del producto final.<\/p>\n<p>El primer paso consisti\u00f3 en establecer una l\u00ednea base (<em>basel<\/em><em>i<\/em><em>ne<\/em>) mediante un modelo de Regresi\u00f3n Lineal M\u00faltiple (RLM), que permiti\u00f3 identificar relaciones directas entre variables de proceso y la concentraci\u00f3n proteica. Aunque el modelo ofrec\u00eda interpretabilidad y una buena aproximaci\u00f3n inicial, el an\u00e1lisis residual revel\u00f3 patrones indeseados como heterocedasticidad y autocorrelaci\u00f3n, lo que indicaba una posible ineficiencia de las estimaciones. Estos problemas, t\u00edpicos en contextos industriales donde las condiciones operativas no son perfectamente controladas, pusieron de manifiesto la necesidad de modelos m\u00e1s robustos.<\/p>\n<p>En este art\u00edculo analizamos los beneficios y riesgos de ambas alternativas, con el objetivo de ofrecer una visi\u00f3n estrat\u00e9gica y t\u00e9cnica que ayude a tomar decisiones fundamentadas, especialmente en contextos donde la privacidad, la trazabilidad del dato y la soberan\u00eda tecnol\u00f3gica son cr\u00edticas.<\/p>\n<figure><img decoding=\"async\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1.png\" sizes=\"(max-width: 350px) 100vw, 350px\" srcset=\"https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1.png 350w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1-300x300.png 300w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1-150x150.png 150w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1-80x80.png 80w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1-70x70.png 70w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1-100x100.png 100w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen1-75x75.png 75w\" alt=\"Gr\u00e1fico tridimensional que muestra un plano de regresi\u00f3n ajustado a un conjunto de datos. Los ejes est\u00e1n etiquetados como X1, X2 y Y. Los puntos de datos reales est\u00e1n representados como esferas rojas dispersas alrededor del plano, y l\u00edneas negras verticales conectan cada punto al plano, indicando el error o residuo de la predicci\u00f3n.\" width=\"350\" height=\"350\" title=\"\"><figcaption>Imagen 1: Modelo de Regresi\u00f3n Lineal M\u00faltiple<\/figcaption><\/figure>\n<p>Para subsanar estas limitaciones, se adopt\u00f3 una estrategia basada en la Regresi\u00f3n Generalizada de M\u00ednimos Cuadrados (GLS), que permite modelar expl\u00edcitamente la estructura de varianza y dependencia entre observaciones. Este ajuste mejor\u00f3 significativamente el comportamiento estad\u00edstico del modelo: los residuos se distribuyeron de forma m\u00e1s uniforme y el coeficiente de determinaci\u00f3n aument\u00f3. M\u00e1s all\u00e1 de la mejora t\u00e9cnica, este modelo consolid\u00f3 una herramienta de estimaci\u00f3n confiable que, manteni\u00e9ndose en el marco lineal, respetaba la restricci\u00f3n de aplicabilidad operativa.<\/p>\n<p>Superada esta fase, y conscientes de que las relaciones entre variables del proceso no siempre son lineales ni aditivas, se introdujeron t\u00e9cnicas de machine learning m\u00e1s sofisticadas. En particular, se entren\u00f3 un modelo Random Forest sobre el mismo conjunto de variables medibles en tiempo real. Su naturaleza no param\u00e9trica permiti\u00f3 capturar interacciones complejas y patrones no lineales que los modelos lineales no lograban representar.<\/p>\n<figure><img decoding=\"async\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen2-1024x565.png\" sizes=\"(max-width: 1024px) 100vw, 1024px\" srcset=\"https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen2-1024x565.png 1024w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen2-300x165.png 300w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen2-768x423.png 768w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen2.png 1460w\" alt=\"Diagrama de \u00e1rbol de decisi\u00f3n generado a partir de un modelo de Random Forest. Cada nodo muestra una condici\u00f3n de divisi\u00f3n basada en una variable de proceso industrial (por ejemplo, &quot;Momento de Torsi\u00f3n T244&quot;, &quot;Presi\u00f3n Salida Molinos&quot;, &quot;Velocidad M101&quot;, etc.), junto con m\u00e9tricas como el error cuadr\u00e1tico medio (squared_error), el n\u00famero de muestras y el valor medio de predicci\u00f3n. El \u00e1rbol se ramifica en funci\u00f3n de si se cumple o no cada condici\u00f3n, y termina en nodos hoja con predicciones espec\u00edficas. El objetivo del \u00e1rbol es predecir una variable continua con base en variables operativas.\" width=\"1024\" height=\"565\" title=\"\"><figcaption>Imagen 2: Uno de los \u00e1rboles de decisi\u00f3n del modelo de Random Forest<\/figcaption><\/figure>\n<p>Durante este proceso, el modelo Random Forest tambi\u00e9n arroj\u00f3 luz sobre la relevancia de las distintas variables de entrada. La estimaci\u00f3n de importancia evidenci\u00f3 redundancias entre ciertas variables. Esto motiv\u00f3 la exploraci\u00f3n de t\u00e9cnicas de reducci\u00f3n de dimensionalidad no lineales, en particular el An\u00e1lisis de Componentes Principales con Kernel (Kernel PCA). Al transformar los datos a un espacio de caracter\u00edsticas donde las relaciones entre variables se volviesen linealmente separables, se logr\u00f3 identificar estructuras latentes del proceso, mejorando no solo la comprensi\u00f3n del mismo, sino tambi\u00e9n la calidad del modelo.<\/p>\n<figure><img decoding=\"async\" src=\"https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen3.png\" sizes=\"(max-width: 977px) 100vw, 977px\" srcset=\"https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen3.png 977w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen3-300x124.png 300w, https:\/\/foqum.io\/wp-content\/uploads\/2025\/07\/Imagen3-768x318.png 768w\" alt=\"Imagen con dos gr\u00e1ficos de dispersi\u00f3n. A la izquierda, un gr\u00e1fico 2D donde los puntos rojos est\u00e1n agrupados en un c\u00edrculo interior y los puntos azules forman un anillo exterior, indicando una separaci\u00f3n no lineal entre clases. A la derecha, un gr\u00e1fico 3D donde los mismos puntos est\u00e1n proyectados en tres dimensiones; los puntos rojos est\u00e1n cerca del v\u00e9rtice de una par\u00e1bola abierta hacia arriba y los puntos azules se distribuyen alrededor en niveles superiores, mostrando una clara separaci\u00f3n entre clases en el espacio tridimensional. Ambos gr\u00e1ficos tienen leyendas que identifican las clases &quot;Red&quot; y &quot;Blue&quot;.\" width=\"977\" height=\"405\" title=\"\"><figcaption>Imagen 3: Ejemplo de los tipos de relaciones no lineales que pueden perjudicar la predicci\u00f3n de modelos cl\u00e1sicos<\/figcaption><\/figure>\n<p>A trav\u00e9s de esta t\u00e9cnica se identificaron combinaciones de variables que concentraban la mayor parte de la variabilidad informativa del sistema. Incorporar estas componentes al modelo Random Forest no solo permiti\u00f3 una mejora en la precisi\u00f3n, sino que condujo a un modelo m\u00e1s parsimonioso y robusto. Finalmente, al seleccionar un subconjunto \u00f3ptimo de variables originales \u2014guiados por la estructura descubierta con el Kernel PCA\u2014 se construy\u00f3 una versi\u00f3n optimizada del modelo Random Forest que alcanz\u00f3 el mejor desempe\u00f1o registrado hasta la fecha, con menor complejidad y mayor capacidad de generalizaci\u00f3n.<\/p>\n<h2><strong>Conclus<\/strong><strong>i<\/strong><strong>\u00f3n <\/strong><\/h2>\n<p>El desarrollo de este sistema predictivo ejemplifica c\u00f3mo una metodolog\u00eda iterativa, fundamentada en el conocimiento del proceso y en una visi\u00f3n cr\u00edtica del comportamiento de los modelos, permite construir soluciones eficaces para entornos industriales reales. Lejos de buscar sofisticaci\u00f3n por s\u00ed misma, cada t\u00e9cnica aplicada respondi\u00f3 a una necesidad concreta: mejorar la robustez, capturar no linealidades, reducir redundancia o facilitar la integraci\u00f3n operativa.<\/p>\n<p>La transici\u00f3n desde modelos lineales hasta algoritmos m\u00e1s complejos no fue abrupta, sino guiada por la evidencia t\u00e9cnica y por una l\u00f3gica de mejora continua. Esta combinaci\u00f3n de enfoques estad\u00edsticos cl\u00e1sicos con herramientas modernas de machine learning y an\u00e1lisis de caracter\u00edsticas permite no solo mejorar la precisi\u00f3n, sino tambi\u00e9n acercar la anal\u00edtica avanzada al lenguaje operativo de planta.<\/p>\n<p><a href=\"https:\/\/foqum.io\/es\/presupuesto\/\"><br \/>\nSolicita una demo<br \/>\n<\/a><\/p>\n<\/div><\/div><\/div><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"","protected":false},"author":3,"featured_media":7149,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[129],"tags":[],"class_list":["post-7134","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-machine-learning"],"acf":[],"_links":{"self":[{"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/posts\/7134","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/users\/3"}],"replies":[{"embeddable":true,"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/comments?post=7134"}],"version-history":[{"count":1,"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/posts\/7134\/revisions"}],"predecessor-version":[{"id":10097,"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/posts\/7134\/revisions\/10097"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/media\/7149"}],"wp:attachment":[{"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/media?parent=7134"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/categories?post=7134"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/foqum.io\/es\/wp-json\/wp\/v2\/tags?post=7134"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}