4 razones por las que fracasan los proyectos de big data y 4 formas de tener éxito

Los proyectos de big data son, bueno, de gran tamaño y alcance, a menudo muy ambiciosos y, con demasiada frecuencia, fracasos completos. En 2016, Gartner estimó que el 60 por ciento de los proyectos de big data fracasaron. Un año más tarde, el analista de Gartner Nick Heudecker dijo que su compañía era "demasiado conservadora" con su estimación del 60 por ciento y puso la tasa de fracaso en más cerca del 85 por ciento. Hoy, dice que nada ha cambiado.

Gartner no está solo en esa evaluación. El ejecutivo de Microsoft desde hace mucho tiempo y (hasta hace poco) el director ejecutivo de Snowflake Computing, Bob Muglia, dijo al sitio de análisis Datanami: “No puedo encontrar un cliente de Hadoop feliz. Es tan simple como eso. … El número de clientes que han domesticado con éxito a Hadoop probablemente sea menos de 20 y podría ser menos de diez. Eso es una locura dado el tiempo que ese producto, esa tecnología ha estado en el mercado y cuánta energía de la industria general se ha invertido ". Hadoop, por supuesto, es el motor que lanzó la manía del big data.

Otras personas familiarizadas con big data también dicen que el problema sigue siendo real, severo y no completamente de tecnología. De hecho, la tecnología es una causa menor de fallas en relación con los verdaderos culpables. Estas son las cuatro razones clave por las que fracasan los proyectos de macrodatos y cuatro formas clave en las que puede tener éxito.

Problema de big data n. ° 1: mala integración

Heudecker dijo que hay un problema tecnológico importante detrás de las fallas de big data, y es la integración de datos en silos de múltiples fuentes para obtener la información que desean las empresas. Crear conexiones con sistemas heredados en silos simplemente no es fácil. Los costos de integración son de cinco a diez veces el costo del software, dijo. “El mayor problema es la integración simple: ¿cómo se vinculan varias fuentes de datos para obtener algún tipo de resultado? Muchos van por la ruta del lago de datos y piensan que si vinculo todo con algo sucederá magia. Ese no es el caso ”, dijo.

Los datos en silos son parte del problema. Los clientes le han dicho que extrajeron datos de los sistemas de registro en un entorno común como un lago de datos y no pudieron averiguar qué significaban los valores. "Cuando ingresa datos en un lago de datos, ¿cómo sabe qué significa ese número 3?" Preguntó Heudecker.

Debido a que están trabajando en silos o creando lagos de datos que son solo pantanos de datos, solo están rascando la superficie de lo que podrían lograr, dijo Alan Morrison, investigador principal de PwC. “No comprenden todas las relaciones en los datos que deben extraerse o inferirse y hacerse explícitas para que las máquinas puedan interpretar esos datos de manera adecuada. Necesitan crear una capa de gráfico de conocimiento para que las máquinas puedan interpretar todos los datos de instancia que se asignan debajo. De lo contrario, solo tiene un lago de datos que es un pantano de datos ”, dijo.

Problema de big data n. ° 2: objetivos indefinidos

Uno pensaría que la mayoría de las personas que emprenden un proyecto de big data en realidad tienen un objetivo en mente, pero un número sorprendente no lo tiene. Simplemente lanzan el proyecto con el objetivo como una ocurrencia tardía.

“Hay que analizar bien el problema. Las personas creen que pueden conectar datos estructurados y no estructurados y obtener la información que necesita. Tienes que definir bien el problema desde el principio. ¿Cuál es la información que desea obtener? Es tener una definición clara del problema y definirlo bien desde el principio ”, dijo Ray Christopher, gerente de marketing de productos de Talend, una empresa de software de integración de datos.

Joshua Greenbaum, analista principal de Enterprise Application Consulting, dijo que parte de lo que ha afectado tanto a los proyectos de big data como a los de almacenamiento de datos es que el criterio principal es la acumulación de grandes cantidades de datos y no la resolución de problemas comerciales específicos.

“Si reúne grandes cantidades de datos, obtiene un volcado de datos. Yo lo llamo relleno sanitario. Los vertederos no son un buen lugar para encontrar soluciones ”, dijo Greenbaum. "Siempre les digo a los clientes que deciden qué problema comercial específico debe resolverse primero y lo hago, y luego observo la calidad de los datos disponibles y resuelvo el problema de datos una vez que se ha identificado el problema comercial".

“¿Por qué fracasan la mayoría de los proyectos de big data? Para empezar, la mayoría de los líderes de proyectos de big data carecen de visión ”, dijo Morrison de PwC. “Las empresas están confundidas acerca del big data. La mayoría solo piensa en datos numéricos o NLP de caja negra y motores de reconocimiento que realizan minería de texto simple y otros tipos de reconocimiento de patrones ".

Problema de big data n. ° 3: la brecha de habilidades

Con demasiada frecuencia, las empresas piensan que las habilidades internas que han desarrollado para el almacenamiento de datos se traducirán en big data, cuando claramente ese no es el caso. Para empezar, el almacenamiento de datos y los macrodatos manejan los datos de manera totalmente opuesta: el almacenamiento de datos tiene un esquema en la escritura, lo que significa que los datos se limpian, procesan, estructuran y organizan antes de que entren en el almacén de datos.

En big data, los datos se acumulan y se aplica el esquema de lectura, donde los datos se procesan a medida que se leen. Entonces, si el procesamiento de datos retrocede de una metodología a otra, puede apostar que las habilidades y herramientas también lo son. Y ese es solo un ejemplo.

“Las habilidades siempre serán un desafío. Si hablamos de big data dentro de 30 años, todavía habrá un desafío ”, dijo Heudecker. “Mucha gente cuelga su sombrero en Hadoop. Mis clientes tienen el desafío de encontrar recursos de Hadoop. Spark es un poco mejor porque esa pila es más pequeña y más fácil de entrenar. Hadoop consta de docenas de componentes de software ".

Problema de big data n. ° 4: la brecha generacional tecnológica

Los proyectos de big data con frecuencia toman de silos de datos más antiguos e intentan fusionarlos con nuevas fuentes de datos, como sensores, tráfico web o redes sociales. Eso no es del todo culpa de la empresa, que recopiló esos datos antes de la idea del análisis de big data, pero de todos modos es un problema.

“Casi la mayor habilidad que falta es la habilidad para entender cómo combinar estas dos partes interesadas para que trabajen juntas para resolver problemas complejos”, dijo el consultor Greenbaum. “Los silos de datos pueden ser una barrera para los proyectos de big data porque no hay nada estándar. Entonces, cuando comienzan a considerar la planificación, encuentran que estos sistemas no se han implementado de manera que estos datos se reutilicen ”, dijo.

"Con diferentes arquitecturas, es necesario realizar el procesamiento de manera diferente", dijo Christopher de Talend. “Las habilidades tecnológicas y las diferencias de arquitectura fueron una razón común por la que no se pueden tomar las herramientas actuales para un almacén de datos local e integrarlas con un proyecto de big data, porque esas tecnologías serán demasiado costosas para procesar nuevos datos. Entonces necesitas Hadoopand Spark, y necesitas aprender nuevos idiomas ".

Solución de big data n. ° 1: planifique con anticipación

Es un viejo cliché pero aplicable aquí: si no planifica, planifique fracasar. “Las empresas exitosas son las que tienen un resultado”, dijo Heudecker de Gartner. “Elija algo pequeño, alcanzable y nuevo. No tome casos de uso heredados porque tiene limitaciones ".

“Primero deben pensar en los datos y modelar sus organizaciones de una manera legible por máquina para que los datos sirvan a esa organización”, dijo Morrison de PwC.

Solución de big data n. ° 2: trabajen juntos

Con demasiada frecuencia, las partes interesadas quedan fuera de los proyectos de big data, las mismas personas que utilizarían los resultados. Si todas las partes interesadas colaboran, pueden superar muchos obstáculos, dijo Heudecker. "Si las personas capacitadas trabajan juntas y trabajan con el lado comercial para ofrecer resultados procesables, eso puede ayudar", dijo.

Heudecker señaló que las empresas que tienen éxito en big data invierten mucho en las habilidades necesarias. Él ve esto más en empresas basadas en datos, como servicios financieros, Uber, Lyft y Netflix, donde la fortuna de la empresa se basa en tener datos buenos y procesables.

“Conviértalo en un deporte de equipo para ayudar a seleccionar, recopilar datos y depurarlos. Hacer eso también puede aumentar la integridad de los datos ”, dijo Christopher de Talend.

Solución de big data n. ° 3: Focus

La gente parece tener la mentalidad de que un proyecto de big data debe ser masivo y ambicioso. Como todo lo que está aprendiendo por primera vez, la mejor manera de tener éxito es comenzar poco a poco y luego expandir gradualmente su ambición y alcance.

“Deberían definir de manera muy estricta lo que están haciendo”, dijo Heudecker. "Deben elegir un dominio problemático y poseerlo, como la detección de fraudes, la microsegmentación de los clientes o averiguar qué producto nuevo introducir en un mercado Millennial".

“Al final del día, debe solicitar la información que desea o que se digitalice el proceso comercial”, dijo Christopher. “No se limita a lanzar la tecnología a un problema empresarial; tienes que definirlo desde el principio. El lago de datos es una necesidad, pero no desea recopilar datos si nadie en el negocio los va a utilizar ".

En muchos casos, eso también significa no inflar demasiado su propia empresa. “En todas las empresas que he estudiado, solo hay unos pocos cientos de conceptos y relaciones clave sobre los que se basa toda la empresa. Una vez que entiendes eso, te das cuenta de que todos estos millones de distinciones son sólo pequeñas variaciones de esos pocos cientos de cosas importantes ”, dijo Morrison de PwC. “De hecho, descubres que muchas de las ligeras variaciones no son variaciones en absoluto. Son realmente las mismas cosas con diferentes nombres, diferentes estructuras o diferentes etiquetas ”, agregó.

Solución de macrodatos n. ° 4: eliminar el legado

Si bien es posible que desee utilizar esos terabytes de datos recopilados y almacenados en su almacén de datos, el hecho es que es mejor que se concentre en los datos recién recopilados en sistemas de almacenamiento diseñados para big data y diseñados para no estar integrados.

"Definitivamente recomendaría no estar necesariamente en deuda con una infraestructura tecnológica existente solo porque su empresa tenga una licencia para ella", dijo el consultor Greenbaum. “A menudo, los nuevos problemas complejos pueden requerir nuevas soluciones complejas. Recurrir a viejas herramientas en la corporación durante una década no es el camino correcto a seguir. Muchas empresas utilizan herramientas antiguas y eso acaba con el proyecto ".

Morrison o = señaló: "Las empresas deben dejar de enredarse los pies en su propia ropa interior y simplemente deshacerse de la arquitectura heredada que crea más silos". También dijo que deben dejar de esperar que los proveedores les resuelvan los complejos problemas del sistema. “Durante décadas, muchos parecen asumir que pueden salir con compra de un problema de big data. Cualquier problema de big data es un problema sistémico. Cuando se trata de cualquier cambio de sistemas complejos, hay que construir una salida ”, dijo.