Hola a todos!
En esta ocasión, dándole un vistazo al AZ-305, continuamos con Azure Data Bricks.
Un tema muy interesante que es Azure Data Bricks, Databricks es una plataforma unificada de análisis de datos basada en la nube, creada por los fundadores de Apache Spark. Permite trabajar con grandes volúmenes de datos y aplicar inteligencia artificial (IA) de forma colaborativa.
Data Bricks se basa en Spark y es una plataforma de macrodatos y aprendizaje automático; ¿qué quiere decir esto? que nosotros vamos a tener esta solución administrada y 100% en la nube, que no s ahorrará todo el trabajo de despliegue, ya que cuando nosotros instalamos un clúster de Data Bricks tenemos que desplegar los clústeres, tenemos que instalar Apache Spark, tenemos que configurarlos, tenemos que básicamente hacer todo, pero con Data Bricks estén disponibles.
Como este modelo está administrado totalmente en la nube por Microsoft, nosotros nos vamos a concentrar en la parte de IA (inteligencia artificial) y en la innovación en cuanto a ciencia de datos, nosotros con Azure Data Bricks vamos a tener 3 entornos el primero es Data Bricks SQL que va a proporcionar una plataforma para analistas que desean ejecutar consultas en un Data Lake, básicamente para crear visualizaciones, ya sea exportarlos a Power BI, crear por ejemplo paneles de información en Power BI, etcétera.
Data Bricks funciona como un entorno de trabajo para científicos de datos, ingenieros de datos y analistas, para que puedan:
- Preparar los datos: Limpiándolos y organizarlos según sus necesidades.
- Analizar los datos: Pueden usar para ello distintas opciones como por ejemplo SQL, Python, R, Scala, etc…
- Crear distintos modelos de machine learning e IA (inteligencia artificial).
- Visualizar los resultados de distintas maneras, por ejemplo, mediante Power BI.
- Automatizar los flujos de trabajo de los datos.
En resumen, Data Bricks nos servirá para el procesamiento de grandes volúmenes de datos, gracias a Spark, que puede trabajar con grandes volúmenes de datos o lo que es lo mismo, datos a gran escala, y además lo puede hacer rápidamente.
Por otro lado, puede usarse para Machine Learning, además de para modelos de IA, ya que tiene herramientas integradas para crear, para entrenar y para desplegar los modelos de aprendizaje automático necesarios.
También permite realizar la colaboración entre equipos ya que permite que varios usuarios trabajen juntos en distintos “notebooks” compartidos, cómo por ejemplo los de Jupyter, usando (para no liala jejeje) control de versiones.
Además, lo podemos usar para ETL, o lo que es lo mismo “Extract, Transform, Load”, ya que automatiza el flujo de datos desde el origen hasta el destino, usando, por ejemplo, para informes o dashboards.
Por último, tenemos el Data Lake (Lago de datos) más el almacén de datos que componen el “Lakehouse”. En este se combina lo mejor de un Data Lake que nos da un almacenamiento barato y flexible y un Data Warehouse que proporciona consultas rápidas y organizadas.
Los casos de uso de Azure Data Bricks son los proyectos de Big Data o inteligencia artificial, lo entornos de análisis avanzado de datos, o las grandes empresas que manejan grandes volúmenes da datos.
Seguiremos hablando más adelante.
Un abrazo!