REVISTA MINERÍA 542 | EDICIÓN NOVIEMBRE 2022

MINERÍA la mejor puerta de acceso al sector minero MINERÍA / NOVIEMBRE 2022 / EDICIÓN 542 80  Asimismo, como modelo de proceso, CRISPDM ofrece un resumen del ciclo vital de la minería de datos. El Ciclo de Vida de Data Science explicado por IBM, incluye alrededor de 5 a 16 procesos continuos que están superpuestos. Dependiendo a quién se le pregunte, varía el número de procesos, los más populares son los siguientes:  Capturar: consiste en la recopilación de datos sin procesar, de cualquier fuente e ingresados por cualquier método. La información puede ser estructurada o no, las fuentes solo deben de ser relevantes y su ingreso puede ser casi cualquier método, desde una entrada manual, web scrapping, hasta recopilar datos de sistemas y equipos en tiempo real.  Preparar y mantener: esto involucra poner los datos sin procesar en un formato consistente para su procesamiento vía Analytics, Machine Learning o Deep Larning. Este proceso puede incluir limpiar, eliminar duplicados, reformatear los datos, utilizar Extract, Transform, Load (ETL) u otras tecnologías de integración para combinar esa información en un data Warehouse, data Lake u otro tipo de almacén unificado para análisis.  Pre-proceso o proceso: los Data Scientists examinan sesgos, patrones, rangos y distribuciones de valores dentro de la información para determinar qué tan sustentables son para su uso en análisis productivos, Machine Learning, algoritmos de Deep Learning u otros métodos analíticos. Fuente: Massachusetts Institute of Technology. Figura 2. Metodología Machine Learning MIT. Elaborado por el autor. Figura 3. Gráfica PCA (reducción dimensional para la visualización de datos).

RkJQdWJsaXNoZXIy MTM0Mzk2