Cómo elegir una plataforma de análisis de datos

Ya sea que tenga responsabilidades en el desarrollo de software, devops, sistemas, nubes, automatización de pruebas, confiabilidad del sitio, equipos de scrum líderes, infosec u otras áreas de tecnología de la información, tendrá cada vez más oportunidades y requisitos para trabajar con datos, análisis y aprendizaje automático. .

Tech Spotlight: análisis

  • Cómo elegir una plataforma de análisis de datos ()
  • 6 mejores prácticas para la visualización de datos empresariales (Computerworld)
  • Análisis sanitario: 4 casos de éxito (CIO)
  • SD-WAN y análisis: una unión hecha para la nueva normalidad (Network World)
  • Cómo proteger algoritmos como propiedad intelectual (CSO)

Su exposición a la analítica puede provenir de datos de TI, como el desarrollo de métricas y conocimientos a partir de métricas ágiles, devops o de sitios web. No hay mejor manera de aprender las habilidades y herramientas básicas en torno a los datos, el análisis y el aprendizaje automático que aplicarlas a los datos que conoce y que puede extraer para obtener información para impulsar acciones.

Las cosas se vuelven un poco más complejas una vez que se ramifica fuera del mundo de los datos de TI y brinda servicios a equipos de científicos de datos, científicos de datos ciudadanos y otros analistas de negocios que realizan visualizaciones de datos, análisis y aprendizaje automático.

Primero, los datos deben cargarse y limpiarse. Luego, según el volumen, la variedad y la velocidad de los datos, es probable que encuentre varias bases de datos de back-end y tecnologías de datos en la nube. Por último, en los últimos años, lo que solía ser una elección entre la inteligencia empresarial y las herramientas de visualización de datos se ha convertido en una matriz compleja de análisis de ciclo de vida completo y plataformas de aprendizaje automático.

La importancia de la analítica y el aprendizaje automático aumenta las responsabilidades de TI en varias áreas. Por ejemplo:

  • A menudo, TI proporciona servicios en torno a todas las integraciones de datos, bases de datos back-end y plataformas de análisis.
  • Los equipos de Devops a menudo implementan y escalan la infraestructura de datos para permitir experimentar en modelos de aprendizaje automático y luego respaldar el procesamiento de datos de producción.
  • Los equipos de operaciones de red establecen conexiones seguras entre las herramientas de análisis SaaS, las nubes múltiples y los centros de datos.
  • Los equipos de gestión de servicios de TI responden a las solicitudes e incidentes de servicios de análisis y datos.
  • Infosec supervisa las implementaciones y el gobierno de la seguridad de los datos.
  • Los desarrolladores integran modelos de análisis y aprendizaje automático en las aplicaciones.

Dada la explosión de la analítica, las plataformas de datos en la nube y las capacidades de aprendizaje automático, aquí hay una introducción para comprender mejor el ciclo de vida de la analítica, desde la integración y limpieza de datos hasta los bucles de datos y modelops, las bases de datos, las plataformas de datos y las ofertas de análisis en sí.

La analítica comienza con la integración y limpieza de datos

Antes de que los analistas, los científicos de datos ciudadanos o los equipos de ciencia de datos puedan realizar análisis, deben poder acceder a las fuentes de datos necesarias en sus plataformas de análisis y visualización de datos.

Para comenzar, puede haber requisitos comerciales para integrar datos de múltiples sistemas empresariales, extraer datos de aplicaciones SaaS o transmitir datos de sensores de IoT y otras fuentes de datos en tiempo real.

Estos son todos los pasos para recopilar, cargar e integrar datos para análisis y aprendizaje automático. Dependiendo de la complejidad de los datos y los problemas de calidad de los datos, existen oportunidades para involucrarse en bucles de datos, catalogación de datos, administración de datos maestros y otras iniciativas de gobierno de datos.

Todos conocemos la frase "entra basura, sale basura". Los analistas deben preocuparse por la calidad de sus datos, y los científicos de datos deben estar preocupados por los sesgos en sus modelos de aprendizaje automático. Además, la puntualidad de la integración de nuevos datos es fundamental para las empresas que buscan estar más impulsadas por los datos en tiempo real. Por estas razones, las canalizaciones que cargan y procesan datos son de vital importancia en el análisis y el aprendizaje automático.

Bases de datos y plataformas de datos para todo tipo de desafíos de gestión de datos

La carga y el procesamiento de datos es un primer paso necesario, pero luego las cosas se complican al seleccionar bases de datos óptimas. Las opciones de hoy incluyen almacenes de datos empresariales, lagos de datos, plataformas de procesamiento de big data y bases de datos de columnas, de valores clave, de gráficos y de NoSQL especializadas. Para admitir el almacenamiento y el análisis de datos a gran escala, existen plataformas como Snowflake, Redshift, BigQuery, Vertica y Greenplum. Por último, están las plataformas de big data, incluidas Spark y Hadoop.

Es probable que las grandes empresas tengan varios repositorios de datos y utilicen plataformas de datos en la nube como Cloudera Data Platform o MapR Data Platform, o plataformas de orquestación de datos como InfoWorks DataFoundy, para que todos esos repositorios sean accesibles para análisis.

Las principales nubes públicas, incluidas AWS, GCP y Azure, tienen plataformas y servicios de administración de datos para examinar. Por ejemplo, Azure Synapse Analytics es el almacén de datos SQL de Microsoft en la nube, mientras que Azure Cosmos DB proporciona interfaces para muchos almacenes de datos NoSQL, incluidos Cassandra (datos en columnas), MongoDB (datos clave-valor y de documentos) y Gremlin (datos gráficos). .

Los lagos de datos son muelles de carga populares para centralizar datos no estructurados para un análisis rápido, y uno puede elegir entre Azure Data Lake, Amazon S3 o Google Cloud Storage para cumplir ese propósito. Para procesar macrodatos, las nubes AWS, GCP y Azure también tienen ofertas de Spark y Hadoop.

Las plataformas de análisis apuntan al aprendizaje automático y la colaboración

Con los datos cargados, limpios y almacenados, los científicos y analistas de datos pueden comenzar a realizar análisis y aprendizaje automático. Las organizaciones tienen muchas opciones según los tipos de análisis, las habilidades del equipo de análisis que realiza el trabajo y la estructura de los datos subyacentes.

Los análisis se pueden realizar en herramientas de visualización de datos de autoservicio como Tableau y Microsoft Power BI. Ambas herramientas se dirigen a los científicos de datos ciudadanos y exponen visualizaciones, cálculos y análisis básicos. Estas herramientas admiten la integración de datos básicos y la reestructuración de datos, pero a menudo se produce una disputa de datos más compleja antes de los pasos de análisis. Tableau Data Prep y Azure Data Factory son las herramientas complementarias para ayudar a integrar y transformar los datos.

Los equipos de análisis que quieran automatizar algo más que la integración y la preparación de datos pueden buscar plataformas como Alteryx Analytics Process Automation. Esta plataforma colaborativa de extremo a extremo conecta a los desarrolladores, analistas, científicos de datos ciudadanos y científicos de datos con la automatización del flujo de trabajo y el procesamiento de datos de autoservicio, el análisis y las capacidades de procesamiento de aprendizaje automático.

Alan Jacobson, director de análisis y datos de Alteryx, explica: “La aparición de la automatización de procesos analíticos (APA) como categoría subraya una nueva expectativa de que cada trabajador de una organización sea un trabajador de datos. Los desarrolladores de TI no son una excepción, y la extensibilidad de la plataforma APA de Alteryx es especialmente útil para estos trabajadores del conocimiento ".

Existen varias herramientas y plataformas dirigidas a los científicos de datos que tienen como objetivo hacerlos más productivos con tecnologías como Python y R, al tiempo que simplifican muchos de los pasos operativos y de infraestructura. Por ejemplo, Databricks es una plataforma operativa de ciencia de datos que permite implementar algoritmos en Apache Spark y TensorFlow, mientras autogestiona los clústeres informáticos en la nube de AWS o Azure. 

Ahora, algunas plataformas como SAS Viya combinan preparación de datos, análisis, previsión, aprendizaje automático, análisis de texto y gestión de modelos de aprendizaje automático en una única plataforma modelops. SAS está operacionalizando el análisis y apunta a científicos de datos, analistas de negocios, desarrolladores y ejecutivos con una plataforma colaborativa de extremo a extremo.

David Duling, director de investigación y desarrollo de gestión de decisiones en SAS, dice: “Vemos modelops como la práctica de crear una línea de operaciones repetible y auditable para implementar todos los análisis, incluidos los modelos de IA y ML, en sistemas operativos. Como parte de modelops, podemos usar prácticas modernas de devops para la administración, prueba y monitoreo de código. Esto ayuda a mejorar la frecuencia y confiabilidad de la implementación del modelo, lo que a su vez mejora la agilidad de los procesos comerciales basados ​​en estos modelos ”.

Dataiku es otra plataforma que se esfuerza por llevar la preparación de datos, el análisis y el aprendizaje automático a los equipos de ciencia de datos en crecimiento y a sus colaboradores. Dataiku tiene un modelo de programación visual para permitir la colaboración y cuadernos de código para desarrolladores de SQL y Python más avanzados.

Otras plataformas de análisis y aprendizaje automático de los principales proveedores de software empresarial tienen como objetivo llevar las capacidades de análisis al centro de datos y las fuentes de datos en la nube. Por ejemplo, Oracle Analytics Cloud y SAP Analytics Cloud tienen como objetivo centralizar la inteligencia y automatizar los conocimientos para permitir decisiones de un extremo a otro.

Elegir una plataforma de análisis de datos

La selección de herramientas de análisis, almacenamiento y integración de datos solía ser más sencilla antes del auge del big data, el aprendizaje automático y la gobernanza de datos. Hoy en día, existe una combinación de terminología, capacidades de plataforma, requisitos operativos, necesidades de gobernanza y personas de usuario específicas que hacen que la selección de plataformas sea más compleja, especialmente porque muchos proveedores admiten múltiples paradigmas de uso. 

Las empresas difieren en los requisitos y necesidades de análisis, pero deben buscar nuevas plataformas desde el punto de vista de lo que ya existe. Por ejemplo:

  • Las empresas que han tenido éxito con los programas de ciencia de datos ciudadanos y que ya cuentan con herramientas de visualización de datos pueden querer ampliar este programa con tecnologías de preparación de datos o automatización de procesos de análisis.
  • Las empresas que desean una cadena de herramientas que permita a los científicos de datos que trabajan en diferentes partes del negocio pueden considerar plataformas de análisis de extremo a extremo con capacidades modelops.
  • Las organizaciones con múltiples plataformas de datos de back-end dispares pueden beneficiarse de las plataformas de datos en la nube para catalogarlas y administrarlas de forma centralizada.
  • Las empresas que estandarizan todas o la mayoría de las capacidades de datos en un solo proveedor de nube pública deben investigar la integración de datos, la gestión de datos y las plataformas de análisis de datos que se ofrecen.

Con la analítica y el aprendizaje automático convirtiéndose en una competencia central importante, los tecnólogos deberían considerar profundizar su comprensión de las plataformas disponibles y sus capacidades. El poder y el valor de las plataformas de análisis solo aumentarán, al igual que su influencia en toda la empresa.