Data Lakes versus Data Mesh: navegando por el futuro de las estrategias de datos organizacionales
Data Lakes versus Data Mesh: navegando por el futuro de las estrategias de datos organizacionales
Durante más de una década, las organizaciones han adoptado los lagos de datos para superar las limitaciones técnicas de los almacenes de datos y evolucionar hacia entidades más centradas en los datos. Si bien muchas organizaciones han utilizado lagos de datos para explorar nuevos casos de uso de datos y mejorar sus enfoques basados ​​en datos, a otras les ha resultado difícil lograr los beneficios prometidos. Como resultado, la eficacia y el retorno de la inversión de muchas iniciativas de lagos de datos están ahora bajo escrutinio.
Navegando por los obstáculos: cuando los lagos de datos se convierten en pantanos de datos
La visión de la comunidad tecnológica sobre los lagos de datos ha evolucionado a medida que algunas organizaciones enfrentan desafíos para administrar grandes almacenes de datos y evitar los «pantanos de datos», donde los datos se almacenan pero no se utilizan. Estos pantanos de datos son depósitos masivos donde los datos se vierten indiscriminadamente, lo que genera problemas de descubrimiento y usabilidad. La centralización puede crear cuellos de botella que ralentizan el acceso y el análisis, y sin una gobernanza rigurosa, la calidad de los datos puede deteriorarse rápidamente. Además, el enfoque único de los lagos de datos no logra abordar las necesidades específicas de los diferentes dominios comerciales. El potencial de los lagos de datos a menudo permanece sin explotar porque los usuarios luchan por extraer valor debido a la falta de herramientas adecuadas o a la complejidad de los datos en sí.
Lagos de datos bien implementadosLagos de datos mal implementados
Fuente única de verdadSilos de datos de difícil acceso
Almacenamiento rentableSe almacenan muchos datos innecesarios (“Los datos son el nuevo petróleo”)
Democratización de datosHabilidades especializadas necesarias para acceder a los datos
Flexibilidad en formatos de datos.Mala calidad de los datos e inconsistencia
Análisis avanzado y aprendizaje automáticoDificultades para obtener valor de grandes cantidades de datos no estructurados
Información más rápidaComunicación prolongada y falta de herramientas, interfaces y habilidades.
Gestión de datos optimizadaLa gestión se vuelve engorrosa a medida que el lago crece
Productores de datos versus consumidores: el abismo organizacional
La causa fundamental de estos problemas es la interacción organizacional entre los productores y consumidores de datos, por un lado, y el equipo central del lago de datos, por el otro. Los productores de datos suelen estar más motivados para desarrollar nuevas funciones de aplicación que para poner los datos a disposición de casos de uso analítico. Su enfoque en cargas de trabajo transaccionales en lugar de analíticas significa que sus datos compartidos pueden ser de mala calidad. También carecen de conexión con los consumidores de sus datos, lo que genera un desajuste entre lo que se produce y lo que se necesita.

Los equipos del lago de datos tienen sus propios problemas: están abrumados con fuentes de datos, tienen que realizar un mantenimiento técnico complejo y hacer malabares constantemente con prioridades cambiantes. Exacerbados por sus limitadas capacidades analíticas y su desconexión con los productores de datos, los consumidores se sienten frustrados por la falta de transparencia, el valor poco claro y la baja priorización de sus necesidades. Los consumidores y productores de datos no suelen interactuar directamente; esta comunicación está bloqueada por la organización proxy del lago de datos, donde todos los datos se almacenan de forma centralizada.

Empoderar a los equipos con Data Mesh: el camino hacia un ecosistema de datos distribuidos

El debate en la comunidad tecnológica se ha desplazado hacia una estrategia de datos más matizada y adaptable llamada malla de datos. Su objetivo es superar algunas limitaciones de los lagos de datos centralizados mediante la promoción de un enfoque de gestión de datos más distribuido, centrado en el ser humano y específico del contexto.

La malla de datos es un enfoque alternativo a los problemas de centralización. Asigna la responsabilidad de los datos analíticos a los equipos de dominios específicos que crean y ejecutan aplicaciones y producen datos transaccionales, como los equipos de comercio electrónico, y aquellos que consumen datos y los utilizan para obtener información. Por ejemplo, el equipo propietario de la página de pago en una tienda web y almacena los datos de ventas en una base de datos transaccional también es responsable de hacer que esos datos de ventas estén disponibles para análisis, informes y casos de uso de IA/ML, como marketing o finanzas. La malla de datos hace que sea más fácil y sencillo para los consumidores utilizar estos datos analíticos.

No es una interfaz más implementada; los datos se ponen a disposición como un producto de datos independiente que proporciona un beneficio específico a un consumidor real. Este producto de datos consta de los datos específicos y sus metadatos, el código fuente necesario para preparar y entregar los datos, la infraestructura de prueba y producción necesaria (como IaC) y su configuración.
Fomento de la alfabetización en datos: introducción de nuevos roles en los equipos de malla de datos
Los equipos que crean y utilizan datos, como el equipo de pago del comercio electrónico y el departamento de marketing en mi ejemplo, a menudo carecen de la experiencia necesaria para desarrollar y gestionar datos para análisis. Sin embargo, su profundo conocimiento del contexto empresarial de sus datos es invaluable. En un marco de malla de datos, es esencial capitalizar este conocimiento mejorando las habilidades de estos equipos para implementar casos de uso analíticos. Esto incluye brindar capacitación exhaustiva a los miembros existentes y crear funciones especializadas adicionales. Dos funciones clave son fundamentales: un propietario de productos de datos para guiar la dirección estratégica de los datos y un ingeniero de datos para manejar los aspectos técnicos de la creación y gestión de estos productos de datos.

El propietario de un producto de datos es una persona de datos orientada a los negocios que conoce muy bien el dominio empresarial desde una perspectiva transaccional y analítica. Se comunican directamente con los consumidores del producto de datos y definen el producto, su estrategia y su hoja de ruta.

Un ingeniero de datos es un amplio generalista en ingeniería de datos y ciencia de datos con una experiencia más profunda en un área relacionada con los datos que necesita la empresa. Esta persona crea los productos de datos reales y es el punto de contacto para preguntas técnicas de otros equipos.
Creando una base para el éxito: la plataforma Data Mesh
Para aprovechar todo el potencial de la malla de datos, recomiendo integrar ambos roles directamente en los equipos de producción y consumo. Una variante válida pero subóptima, porque reintroduce un equipo proxy, es establecer un equipo de malla de datos separado para cada dominio empresarial (por ejemplo, comercio electrónico). Una plataforma de malla de datos apoya a productores y consumidores, haciendo su trabajo más fácil y eficiente. Los equipos de la plataforma de malla de datos no crean productos de datos ni almacenan ni procesan datos.

La plataforma de malla de datos tiene tres funciones: (1) proporcionar herramientas e infraestructura, como un catálogo de datos, control de acceso, canalización de CI/CD, monitoreo y entornos de prueba y desarrollo preparatorio; (2) capacitar y asesorar a productores y consumidores y, si es necesario, apoyarlos con capacidad adicional de desarrollo; y (3) moderar estándares y procedimientos comunes en un enfoque federado que debe cumplirse en toda la organización. La misión de la plataforma de malla de datos es hacer la vida simple, eficiente y libre de estrés para productores y consumidores.

Lamentablemente, gestionar una plataforma de forma exitosa y sostenible no es tan fácil como sugieren algunos miembros de la comunidad tecnológica. He resumido mis experiencias en la publicación de mi blog sobre cómo configurar una plataforma que respalde eficazmente a sus equipos de desarrollo.

Cuando se hace correctamente, el modelo de malla de datos promueve un enfoque proactivo para mantener la calidad, relevancia y accesibilidad de los datos, así como la adaptación de productos de datos para satisfacer las necesidades únicas de diferentes unidades de negocios. Al alinear estrechamente los datos analíticos con su contexto operativo, una malla de datos facilita un uso más eficaz y el intercambio de datos en toda la organización. Aprovecha los principios de la arquitectura distribuida moderna, como los derivados de las arquitecturas de microservicios, no solo para almacenar datos de manera más eficiente sino también para que estén fácilmente disponibles para el consumo, generando información procesable estrechamente alineada con los objetivos comerciales.

Para ver un buen ejemplo de una exhibición de malla de datos, consulte la presentación del director de análisis y datos de GoDaddy, Travis Muhlestein, sobre la creación de arquitecturas de malla de datos en AWS de re:Invent 2022. —Matthias
Matthias Patzak (25 de marzo, 2024). NData Lakes versus Data Mesh: navegando por el futuro de las estrategias de datos organizacionales.
https://aws.amazon.com/es/blogs/enterprise-strategy/data-lakes-vs-data-mesh-navigating-the-future-of-organizational-data-strategies/?trk=60154dc2-3191-4bb1-b499-adda6b895d6d&sc_channel=el
Scroll al inicio