39 AÑO 3 - Nº 133 / NOV-DIC 2022 superpuestos. Dependiendo a quién se le pregunte, varía el número de procesos, los más populares son los siguientes: Capturar: consiste en la recopilación de datos sin procesar, de cualquier fuente e ingresados por cualquier método. La información puede ser estructurada o no, las fuentes solo deben de ser relevantes y su ingreso puede ser casi cualquier método, desde una entrada manual, web scrapping, hasta recopilar datos de sistemas y equipos en tiempo real. Preparar y mantener: esto involucra poner los datos sin procesar en un formato consistente para su procesamiento vía Analytics, Machine Learning o Deep Larning. Este proceso puede incluir limpiar, eliminar duplicados, re-formatear los datos, utilizar Extract, Transform, Load (ETL) u otras tecnologías de integración para combinar esa información en un data Warehouse, data Lake u otro tipo de almacén unificado para análisis. Pre-proceso o proceso: los data scientists examinan sesgos, patrones, rangos y distribuciones de valores dentro de la información para determinar qué tan sustentables son para su uso en análisis productivos, Machine Learning, algoritmos de Deep Learning u otros métodos analíticos. Analizar: aquí es donde los descubrimientos ocurren. Los Data Scientists realizan análisis estadísticos y productivos, regresiones, algoritmos de Machine y Deep Learning, y más para extraer información de los datos previamente preparados. Comunicación: finalmente, los insights descubiertos son presentados en forma de reportes, gráficas y otros tipos de visualización de datos que convierten estos inFuente: www.IBM.com Figura 1. Ciclo de vida de minería de datos.
RkJQdWJsaXNoZXIy MTM0Mzk2