Lingosmelter, aplicación y evaluación de modelo estadístico basado en Machine Learning para la optimización de recuperación de

Por: Luis Vargas Jeri, Ardiles Puma Qquenta y Malmco Camborda Morocho, Minsur.

Resumen

El presente trabajo describe el desarrollo, implementación y evaluación de LingoSmelter, un modelo estadístico basado en técnicas de Machine Learning (ML) orientado a la optimización de la recuperación de metal crudo de estaño en el horno Ausmelt de la planta de fundición de Minsur.

Tradicionalmente, la predicción de la recuperación de metal crudo se ha basado en un modelo teórico sustentado en balances de masa y energía, el cual, si bien es funcional, presenta limitaciones frente a la variabilidad operativa y la complejidad de los datos del proceso.

LingoSmelter se construyó a partir de un flujo de trabajo de analítica avanzada que integra algoritmos de aprendizaje supervisado (XGBoost) con métodos de optimización evolutiva (Differential Evolution Solver). El modelo fue entrenado con datos históricos de operación del horno Ausmelt, incluyendo variables como composición de alimentación, consumo de carbón y gas natural, temperatura, entre otros, y recuperación de metal crudo real por batch. Posteriormente, se aplicó un proceso de optimización para identificar combinaciones de parámetros operativos que maximicen el rendimiento predicho, dentro de los límites técnicos y de seguridad del proceso.

La validación del modelo se realizó mediante métricas estándar de evaluación de regresión (MAE, MAPE y RMSE), comparando su desempeño frente al modelo teórico. Los resultados evidencian una mejora significativa en la precisión predictiva del modelo estadístico, lo que permite una mejor estimación de la recuperación de metal crudo y una toma de decisiones más informada en la operación del horno. Esta mejora se traduce en una mayor eficiencia en el uso de insumos, reducción de costos operativos y un potencial incremento en la recuperación de metal crudo de 1.78%, lo que representa un beneficio estimado de US$ 1.3 millones (Valor Actual Neto) evaluado en un horizonte de seis años.

LingoSmelter constituye un caso representativo de aplicación de tecnologías de Minería 4.0, integrando ciencia de datos, conocimiento metalúrgico y cultura de mejora continua para generar valor sostenible en operaciones metalúrgicas complejas.

Introducción

La industria minera se encuentra en un proceso de transformación profundo, impulsado por la adopción de tecnologías digitales avanzadas, en lo que se ha denominado Minería 4.0. Este paradigma promueve la integración de herramientas como la analítica de datos, inteligencia artificial y automatización para mejorar la eficiencia, sostenibilidad y capacidad de respuesta de las operaciones minero-metalúrgicas. En este contexto, Minsur ha emprendido una serie de iniciativas orientadas a fortalecer su competitividad mediante la digitalización de procesos críticos.

Uno de los procesos clave dentro de la cadena de valor de Minsur es la fundición de concentrados de estaño en el horno Ausmelt, donde se transforma el concentrado proveniente de la mina San Rafael en metal crudo que posteriormente se refinará para producir un estaño de la más alta pureza. La eficiencia de este proceso depende de múltiples variables operativas, cuya interacción no lineal y alta variabilidad dificultan la toma de decisiones basada únicamente en modelos determinísticos o experiencia operativa. Esta situación motivó la necesidad de desarrollar herramientas más robustas y adaptativas que permitan predecir el comportamiento del sistema y optimizar su desempeño en tiempo real.

En respuesta a este desafío, se desarrolló LingoSmelter, una solución basada en técnicas de Machine Learning que busca complementar y superar las limitaciones del modelo teórico tradicional utilizado para estimar la recuperación de metal crudo en el horno Ausmelt. Esta iniciativa no solo responde a una necesidad técnica, sino que se enmarca en una estrategia corporativa más amplia de adopción de tecnologías digitales, orientada a generar valor a través de la innovación, la eficiencia operativa y la sostenibilidad.

El presente trabajo técnico detalla el enfoque metodológico adoptado para el desarrollo del modelo estadístico, la arquitectura de datos empleada, los algoritmos utilizados para predicción y optimización, así como los resultados obtenidos en términos de precisión, impacto económico y adopción operativa. Asimismo, se discute el proceso de validación técnica y cultural de la herramienta, y su potencial como plataforma para futuras aplicaciones de analítica avanzada en la fundición y refinería.

Objetivos

Objetivo general

Desarrollar, implementar y evaluar un modelo estadístico basado en técnicas de Machine Learning para predecir y optimizar la recuperación de metal crudo en el horno Ausmelt de la planta de fundición de Minsur, como parte de una estrategia de transformación digital enmarcada en los principios de la Minería 4.0.

Objetivos específicos

ν Integrar y estructurar una base de datos histórica del proceso de fusión del horno Ausmelt, incluyendo variables operativas clave como composición de alimentación, consumo de insumos como gas natural, aire, oxígeno, carbón y recuperación de metal crudo.

ν Construir un modelo predictivo utilizando algoritmos de aprendizaje supervisado (XGBoost) que permita estimar con alta precisión la recuperación de metal crudo a partir de las condiciones operativas y datos de alimentación al horno Ausmelt.

ν Aplicar técnicas de optimización evolutiva (Differential Evolution Solver) para identificar combinaciones óptimas de parámetros operativos que maximicen la recuperación de metal crudo estimada.

ν Comparar el desempeño del modelo estadístico con el modelo teórico tradicional, mediante métricas de error estándar (MAE, MAPE, RMSE) y validar su aplicabilidad en condiciones reales de operación.

ν Evaluar el impacto técnico, económico y operativo de la implementación del modelo, incluyendo su contribución a la eficiencia en el uso de insumos, reducción de costos y generación de valor económico.

ν Fomentar la adopción del modelo en la operación mediante estrategias de validación técnica y cultural, promoviendo una cultura de mejora continua basada en datos.

Compilación de datos y desarrollo del trabajo

El desarrollo del modelo estadístico LingoSmelter se basó en la integración de datos históricos del proceso de fusión en el horno Ausmelt, con el objetivo de construir una herramienta predictiva y de optimización que permita mejorar la recuperación de metal crudo. Este trabajo se estructuró en tres etapas principales: recopilación y preprocesamiento de datos, modelado predictivo y optimización, y validación comparativa frente al modelo teórico tradicional.

Para el desarrollo de LingoSmelter, se estableció un equipo multidisciplinario conformado por el operador de la sala de control del horno Ausmelt, el supervisor del área de Fundición, el ingeniero metalurgista designado al área de Fundición y el científico e ingeniero de datos del equipo de Transformación Digital.

Juntos, se trabajó en la identificación de la necesidad operativa y del área de Metalurgia y se definió un flujo bidireccional para garantizar ciclos de retroalimentación constantes que permitan desarrollar la mejor solución posible.

El desarrollo del modelo LingoSmelter requirió una arquitectura de datos robusta y escalable que permitiera integrar múltiples fuentes de información, automatizar procesos de transformación y preparar los datos para su análisis y modelado. Para ello, se utilizaron tecnologías de computación en la nube, específicamente Azure Functions y Databricks, que permitieron construir un flujo de trabajo ágil, reproducible y eficiente.

Arquitectura de datos

El flujo de datos se diseñó bajo un enfoque modular y automatizado:

Azure Functions: se utilizaron para orquestar tareas de extracción, transformación y carga (ETL) de forma programada y sin necesidad de servidores dedicados. Estas funciones permitieron:

ν Conectar con sistemas como PI System y SAP.

ν Extraer datos en tiempo real o por lotes.

ν Ejecutar validaciones iniciales y limpieza básica.

ν Enviar los datos procesados a un entorno de análisis.

Azure Data Lake: actuó como repositorio centralizado para almacenar los datos crudos y transformados, asegurando trazabilidad y versionamiento.

Databricks: plataforma de análisis colaborativo basada en Apache Spark, utilizada para:

ν Consolidar y transformar grandes volúmenes de datos.

ν Generar la tabla maestra con variables limpias y enriquecidas.

ν Entrenar y validar los modelos de Machine Learning (XGBoost).

ν Ejecutar el algoritmo de optimización (DES).

ν Visualizar resultados y generar reportes.

Recopilación y preprocesamiento de datos

Se consolidó una base de datos histórica de tres años, proveniente de múltiples fuentes operativas (PI System, SAP, hojas Excel y registros manuales), que incluyó variables como:

ν Composición química del concentrado de estaño y materiales alimentados.

ν Consumo de carbón y gas natural por batch.

ν Temperatura de operación.

ν Parámetros de control del horno.

ν Recuperación real de metal crudo.

El preprocesamiento implicó la limpieza de datos erróneos o incompletos, la imputación de valores faltantes, la estandarización de variables y la generación de nuevas variables derivadas relevantes para el comportamiento del sistema.

Este proceso permitió construir una tabla maestra de datos robusta y confiable para el entrenamiento del modelo.

Modelado predictivo con XGBoost

El modelo de predicción fue desarrollado utilizando el algoritmo XGBoost (Extreme Gradient Boosting), una técnica de aprendizaje automático supervisado basada en árboles de decisión. Este algoritmo pertenece a la familia de métodos de Boosting, que consiste en construir modelos secuenciales donde cada nuevo modelo corrige los errores cometidos por los anteriores.

¿Cómo funciona XGBoost?

ν Inicialización: comienza con un modelo simple (por ejemplo, una predicción promedio).

ν Iteración: en cada paso, se entrena un nuevo árbol de decisión que intenta predecir los errores (residuos) del modelo anterior.

ν Actualización: los errores corregidos se suman al modelo acumulado, mejorando progresivamente la predicción.

ν Optimización: se utiliza una función de pérdida (por ejemplo, error cuadrático) y se aplica regularización para evitar sobreajuste.

Ventajas clave de XGBoost

ν Alta precisión predictiva.

ν Manejo eficiente de datos faltantes.

ν Capacidad para modelar relaciones no lineales y complejas.

ν Regularización incorporada (L1 y L2) para evitar sobreajuste.

ν Interpretabilidad mediante análisis de importancia de variables.

Para el desarrollo de LingoSmelter, XGBoost permitió modelar con precisión la relación entre variables operativas (como temperatura, composición química, consumo de insumos y parámetros de control) y la recuperación de metal crudo del horno Ausmelt, incluso en presencia de ruido o variabilidad en los datos.

Interpretabilidad del modelo: SHAP

Para comprender el comportamiento interno del modelo y validar su coherencia con el conocimiento metalúrgico, se aplicó la metodología SHapley Additive exPlanations (SHAP). Esta técnica permite cuantificar la contribución individual de cada variable a la predicción del modelo.

ν SHAP Importance Train: permitió identificar las variables más influyentes en la predicción de la recuperación de metal crudo, destacando el consumo de gas natural, carbón, temperatura, inmersión de lanza y composición química.

ν SHAP Summary Train: ofreció una visualización detallada del impacto de cada variable a lo largo de todas las observaciones, revelando patrones de comportamiento y posibles interacciones entre variables.

Este análisis no solo fortaleció la confianza en el modelo, sino que también facilitó la comunicación de resultados con los equipos operativos y el área de Metalurgia.

Optimización con

Differential Evolution Solver

Una vez entrenado el modelo predictivo, se integró un módulo de optimización basado en el algoritmo Differential Evolution Solver (DES), una técnica de optimización evolutiva diseñada para encontrar soluciones óptimas en espacios de búsqueda complejos, no lineales y multidimensionales.

¿Cómo funciona DES?

ν Población inicial: se genera un conjunto aleatorio de soluciones (vectores) dentro del espacio de parámetros operativos.

ν Mutación: se crean nuevos vectores combinando aleatoriamente tres soluciones distintas de la población.

ν Recombinación (cruce): se mezclan los vectores mutados con los originales para generar soluciones candidatas.

ν Selección: se evalúa cada solución con la función objetivo (en este caso, la recuperación de metal crudo predicha por XGBoost) y se conserva la mejor.

Este proceso se repite durante múltiples generaciones hasta converger hacia una solución óptima o suficientemente buena.

Ventajas clave de DES

ν No requiere derivadas ni supuestos sobre la forma de la función objetivo.

ν Robusto frente a funciones con múltiples óptimos locales.

ν Fácil de implementar y ajustar.

ν Ideal para problemas con restricciones y múltiples variables interdependientes.

Para el desarrollo de LingoSmelter, DES permitió explorar combinaciones de parámetros operativos (como la dosificación de gas natural y carbón para las etapas de fusión y reducción) para maximizar la recuperación de metal crudo predicha, respetando los límites técnicos y de seguridad del proceso.

Desarrollo de plataforma Optimus Tin

Como parte de la maduración de LingoSmelter, se vio la necesidad de desarrollar una solución web (ver Figuras 7 y 8) diseñada para disponibilizar el modelo analítico de predicción y optimización de la recuperación de metal crudo del horno Ausmelt, facilitando su uso por parte del ingeniero metalurgista responsable de determinar los parámetros operativos y, en una siguiente fase, para que el personal operativo pueda acceder en tiempo real a los modelos de carga y energía generados.

Esta plataforma representa la capa de interacción entre el usuario y el modelo estadístico, permitiendo una toma de decisiones más ágil, informada y basada en datos.

El objetivo principal de Optimus Tin es operacionalizar el modelo analítico desarrollado en Databricks, permitiendo su ejecución bajo demanda, visualización de resultados y generación de recomendaciones operativas en un entorno accesible, seguro y amigable para el usuario final.

Funcionalidades clave

ν Ejecución del modelo bajo demanda: el usuario puede imputar datos y condiciones y ejecutar el modelo para obtener predicciones de recuperación de metal crudo y recomendaciones óptimas.

ν Visualización de resultados: gráficos y tablas que muestran la recuperación de metal crudo estimada, comparación con el modelo teórico y variables críticas.

ν Historial de ejecuciones: registro de consultas anteriores, permitiendo trazabilidad y análisis comparativo.

ν Seguridad y control de acceso: autenticación mediante Active Directory y gestión de permisos por rol.

Validación y comparación de modelos

Para evaluar el desempeño del modelo estadístico, se compararon sus predicciones con los valores reales y con las estimaciones del modelo teórico tradicional, utilizando métricas estándar de regresión:

ν Mean Absolute Error (MAE).

ν Mean Absolute Percentage Error (MAPE).

ν Root Mean Squared Error (RMSE).

Los resultados mostraron una mejora significativa en la precisión del modelo estadístico, validando su aplicabilidad como herramienta de soporte a la toma de decisiones operativas.

Presentación y discusión de resultados

La evaluación del modelo estadístico desarrollado se realizó mediante la comparación de sus predicciones con los valores reales de recuperación de metal crudo, así como con las estimaciones generadas por el modelo teórico tradicional. Para ello, se utilizaron tres métricas de error ampliamente reconocidas en problemas de regresión: Mean Absolute Error (MAE), Mean Absolute Percentage Error (MAPE) y Root Mean Squared Error (RMSE).

Comparación de desempeño predictivo

Los resultados muestran que el modelo estadístico basado en Machine Learning supera significativamente al modelo teórico en todas las métricas evaluadas. La reducción del MAE en un 44.5% y del RMSE en un 36.1%, evidencia una mayor capacidad del modelo para capturar la complejidad del proceso de fusión en el horno Ausmelt, lo que se traduce en una predicción más precisa y confiable de la recuperación de metal crudo.

Adicionalmente, la reducción del MAPE en un 40.1% es especialmente relevante, ya que esta métrica expresa el error en términos relativos, lo que permite evaluar la precisión del modelo independientemente de la escala de los datos.

Interpretabilidad del modelo: análisis SHAP

El análisis de interpretabilidad mediante SHapley Additive exPlanations (SHAP) permitió identificar las variables con mayor influencia en la predicción del rendimiento. Entre las más relevantes se encuentran:

ν Consumo de carbón: principal agente reductor, con impacto directo en el mecanismo de reducción de óxido de estaño para obtener metal crudo.

ν Temperatura del horno: variable crítica para la cinética de fusión y reducción.

ν Composición química de entrada: influye en los mecanismos de reacción y en la formación de escorias.

ν Consumo de gas natural: fuente energética que afecta la estabilidad térmica del sistema.

ν Inmersión de lanza: factor asociado a la transferencia efectiva de energía y a la homogenización del baño fundido, proporcionando turbulencia que favorece la cinética de reacción.

El gráfico de resumen SHAP mostró que estas variables no solo son importantes individualmente, sino que también presentan interacciones complejas que el modelo XGBoost logra capturar de manera efectiva.

Resultados de optimización

La integración del modelo con el algoritmo Differential Evolution Solver (DES) permitió explorar escenarios operativos alternativos y proponer combinaciones óptimas de parámetros que maximizan la recuperación predicha de metal crudo. Esta capacidad de simulación y recomendación representa un avance significativo frente al enfoque tradicional, que se basa en factores fijos y experiencia operativa.

Impacto técnico y económico

El aumento de la precisión del modelo se traduce en una mejor estimación de la recuperación de metal crudo y, por lo tanto, en una operación más eficiente del horno Ausmelt. Según los análisis realizados, las recomendaciones generadas por LingoSmelter permitieron identificar una oportunidad de incrementar en 1.78% la recuperación de metal crudo promedio por batch, lo que representa un beneficio potencial estimado de US$ 1.3 millones (en Valor Actual Neto), evaluado en un horizonte de seis años.

Impacto en la operación

La implementación progresiva de las recomendaciones generadas por LingoSmelter tuvo un impacto directo y medible en la recuperación de metal crudo. Durante el primer semestre del año, se observó una mejora sostenida como se muestra en la Tabla 2.

Aceptación operativa y cambio cultural

Durante los primeros meses de implementación, se observó una evolución positiva en la aceptación e implementación de las recomendaciones por parte del equipo de Metalurgia y Operativo. Este proceso fue acompañado por sesiones de capacitación, validación técnica y retroalimentación continua, lo que permitió fortalecer la confianza en la herramienta y consolidar una cultura de toma de decisiones basada en datos.

Principales desafíos

La implementación de un modelo estadístico basado en Machine Learning en un entorno industrial complejo, como el de la fundición de estaño, presentó una serie de desafíos que debieron ser abordados de manera multidisciplinaria. Estos retos se clasifican en tres dimensiones principales: calidad de datos, integración tecnológica y adopción operativa.

Calidad y disponibilidad de datos

Uno de los principales retos iniciales fue la consolidación de una base de datos confiable. La información provenía de múltiples fuentes (PI System, SAP, Excel y registros manuales), con distintos niveles de granularidad, frecuencia y calidad. Se identificaron problemas como:

ν Datos faltantes o incompletos en variables críticas.

ν Distorsión en señales de instrumentos con alta variabilidad en las lecturas.

ν Diferencias en la granularidad de los sistemas de captura.

Esto requirió un proceso riguroso de limpieza, validación cruzada y generación de variables derivadas para asegurar la integridad del dataset utilizado en el entrenamiento del modelo.

Complejidad del proceso metalúrgico

El horno Ausmelt opera bajo condiciones altamente dinámicas, con múltiples variables interdependientes que afectan el rendimiento.

Modelar este comportamiento no lineal representó un reto técnico importante, especialmente al buscar un equilibrio entre precisión predictiva y robustez operativa. Además, fue necesario definir límites operativos realistas para que las recomendaciones del modelo fueran viables desde el punto de vista técnico y de seguridad.

Interpretabilidad y confianza en el modelo

La adopción de modelos de Machine Learning en entornos industriales requiere más que precisión: es fundamental que los usuarios comprendan cómo y por qué el modelo genera ciertas recomendaciones. Inicialmente, existía dificultad en el equipo de Metalurgia respecto a confiar en la herramienta y romper la inercia para dejar de utilizar el modelo teórico. Para superar esta barrera, se incorporaron herramientas de interpretabilidad como SHAP, que permitieron visualizar el impacto de cada variable en las predicciones y facilitaron la validación técnica por parte del equipo técnico.

Alineamiento cultural y operacional

Otro desafío clave fue la integración del modelo en la rutina operativa. La toma de decisiones en planta estaba históricamente basada en la experiencia de los operadores y en el modelo teórico tradicional.

La transición hacia un enfoque basado en datos sigue siendo un reto y exige lo siguiente:

ν Capacitación técnica del personal.

ν Generación de confianza progresiva mediante resultados tangibles.

ν Acompañamiento continuo para resolver dudas y ajustar recomendaciones.

Este proceso de cambio cultural es gradual, pero esencial para lograr una adopción efectiva y sostenible de la herramienta.

Conclusiones

1. La implementación del modelo estadístico LingoSmelter, basado en técnicas de Machine Learning, representa un hito en la transformación digital de los procesos metalúrgicos de Minsur, enmarcada en los principios de la Minería 4.0. A lo largo del desarrollo del proyecto, se enfrentaron desafíos significativos relacionados con la calidad de los datos, la complejidad del proceso, la interpretabilidad del modelo y la adopción del equipo. Sin embargo, estos retos fueron y están siendo abordados mediante un enfoque multidisciplinario que combina ciencia de datos, conocimiento metalúrgico y gestión del cambio.

2. Entre los principales logros del proyecto se destacan:

ν Precisión predictiva superior: el modelo estadístico redujo el MAE, MAPE y RMSE en más del 35% respecto al modelo teórico, lo que permitió una estimación más confiable de la recuperación de metal crudo en el horno Ausmelt.

ν Comprensión profunda del proceso: el uso de técnicas SHAP permitió validar la coherencia del modelo con el conocimiento técnico, identificando las variables más influyentes y sus interacciones.

ν Optimización operativa basada en datos: la integración con algoritmos evolutivos permitió simular escenarios y recomendar condiciones óptimas de operación, dentro de límites técnicos seguros.

ν Impacto económico tangible: se identificó una mejora potencial de 1.78% en la recuperación de metal crudo promedio por batch, con un VAN estimado de US$ 1.3 millones, evaluado en un periodo de seis años.

ν Cambio cultural progresivo: la adopción creciente de las recomendaciones por parte del equipo operativo refleja una transición prometedora hacia una cultura de toma de decisiones basada en evidencia y analítica avanzada.

3. En conjunto, LingoSmelter no solo ha demostrado su valor técnico y económico, sino que también ha sentado las bases para futuras iniciativas de analítica avanzada en la fundición y refinería de Minsur. Este proyecto reafirma que la combinación de datos, tecnología y conocimiento del proceso es clave para construir una minería más eficiente, sostenible e inteligente.

Bibliografía

Ali, A. 2024. Una introducción a los valores SHAP y a la interpretabilidad del machine learning. Datacamp. Recuperado de: Una introducción a los valores SHAP y a la interpretabilidad del machine learning | DataCamp el 15 de julio de 2025.

Russi, E., Kavlakoglu, E. 2024. What is XGBoost? IBM. Recuperado de: What is XGBoost? | IBM el 15 de julio de 2025.

Storn, R, Price, K. 1997. Differential Evolution – A Simple and Efficient Heuristic for Global Optimization over Continuous Spaces. Journal of Global Optimization, v. 11, p. 341 - 359.