MINERÍA la mejor puerta de acceso al sector minero MINERÍA / NOVIEMBRE 2022 / EDICIÓN 542 80 Asimismo, como modelo de proceso, CRISPDM ofrece un resumen del ciclo vital de la minería de datos. El Ciclo de Vida de Data Science explicado por IBM, incluye alrededor de 5 a 16 procesos continuos que están superpuestos. Dependiendo a quién se le pregunte, varía el número de procesos, los más populares son los siguientes: Capturar: consiste en la recopilación de datos sin procesar, de cualquier fuente e ingresados por cualquier método. La información puede ser estructurada o no, las fuentes solo deben de ser relevantes y su ingreso puede ser casi cualquier método, desde una entrada manual, web scrapping, hasta recopilar datos de sistemas y equipos en tiempo real. Preparar y mantener: esto involucra poner los datos sin procesar en un formato consistente para su procesamiento vía Analytics, Machine Learning o Deep Larning. Este proceso puede incluir limpiar, eliminar duplicados, reformatear los datos, utilizar Extract, Transform, Load (ETL) u otras tecnologías de integración para combinar esa información en un data Warehouse, data Lake u otro tipo de almacén unificado para análisis. Pre-proceso o proceso: los Data Scientists examinan sesgos, patrones, rangos y distribuciones de valores dentro de la información para determinar qué tan sustentables son para su uso en análisis productivos, Machine Learning, algoritmos de Deep Learning u otros métodos analíticos. Fuente: Massachusetts Institute of Technology. Figura 2. Metodología Machine Learning MIT. Elaborado por el autor. Figura 3. Gráfica PCA (reducción dimensional para la visualización de datos).
RkJQdWJsaXNoZXIy MTM0Mzk2