Blogk3r | Marketing Digital

Data Lake vs Data Warehouse

¿Qué es y para qué nos sirve el Data Lake?

El análisis de información es hoy en día muy relevante en el Business Intelligence a la hora de tomar una decisión, como la de invertir, comprar o incursionar en nuevos mercados

Tal vez, ya hayas escuchado este nuevo termino que se ha empezado a utilizar recientemente, hablamos del Data Lake, que en definición es algo muy parecido al tradicional Data Warehouse o Almacenamiento de Datos, pero con la diferencia de que el Data Lake nos permite obtener datos o información estructurada y no estructurada.

Un Data Lake (Lago de Datos) es un método alternativo para el almacenamiento de datos. En cierto modo, los Data Lakes sustituyen a los Data Warehouse (almacenes de datos), pero también se pueden utilizar ambos, además del almacenamiento de datos gobernados.

Esta tendencia del 2016 es para muchos expertos un conflicto, mientras que para otros les causa emoción al explorar este potencial de almacenamientos de datos.

En esta infografía, podremos aprender un poco acerca de la forma en que los Data Lakes corren un riesgo, que es convertirse en “Data Swamp” (Datos Pantanosos) en lugar de datos claros y medibles, un término originado por el ganador del “Premio Turing” en 2014, Michael Stonebraker.

Las principales diferencias entre el Data Lake y el Data Warehouse, se explican a través de una metáfora de la pesca (ver infografía), e incluyen detalles acerca de los profesionales a cargo de las prácticas de almacenamiento de datos.

Un ejemplo es cuando tienes un repositorio o “storage” con información que va desde datos estructurados como fechas, códigos postales, salarios, etc; hasta datos no estructurados como lo son imágenes, videos, mensajes instantáneos, etc. Para después obtener los datos mediante la aplicación de esquemas específicos que ayuden a la interpretación de estos datos, obteniendo la información necesaria para la toma de decisiones con base en información que respalde dicha decisión.

¿Qué hace que la información se convierta en Data Swamp o Datos Pantanosos?

  1. La ingesta de datos por el armado de información desde diferentes fuentes
  2. Transformación o “munge”, que es el acto de la consolidación de 2 o más conjuntos de datos mutuamente excluyentes o secciones de código informático evitando la necesidad de escribir una carga inmensa de código complejo.
  3. Integración, esquemas que solicitan los mismos datos pero que se codifican de la misma forma.
  4. Limpia, son los datos que presentan conflicto y se solucionan al momento
  5. Consolidación, es la recopilación de información que contengan los mismos datos para complementarlos en uno solo y evitar la redundancia.

Los expertos de Tableau, Qlik y Logi Analytics nos ofrecen sus consejos y predicciones. También se han incluido comentarios de Gartner en esta tendencia.

En conclusión, podemos decir que el Data Lake es una estancia en el almacenamiento de datos, que nos permite tener en un mismo lugar datos cuantitativos como también, cualitativos para después obtener la información necesaria para la toma de decisiones en la empresa o negocio, para de esta manera poder respaldar de la mejor manera dicha decisión.

Para más información visita la publicación original en Better Buys


 

En Brok3r puedes tener obtener la ayuda que necesitas para lograr el éxito de tu empresa, contamos con profesionales experimentados en el área de Consultoría, Business Inteligence (Inteligencia de Negocios), Desarrollo web, Marketing Digital, Diseño Gráfico.  Empieza la transformación de tu negocio! CONTACTANOS!

Cuando leí esto en #Brok3r, quise compartírtelo