Microsoft Azure Data Fundamentals DP-900

Ingediend door Dirk Hornstra op 29-nov-2023 22:26

Op 26 oktober 2023, de jaarlijkse TRES-studiedag heb ik mijn certificaat voor AZ-204 weer voor een jaar verlengd. Dat was een paar dagen studie, op die dag ook nog wat theorie doorlopen, oefenexamen en vervolgens het echte verleng-examen doorgelopen.

Daarmee was dit in vergelijking met mijn eerdere Microsoft certificeringen appeltje-eitje, redelijk snel klaar en in één keer gehaald. Ik heb dus al de Azure Fundamentals (AZ-900) en de Developing Solutions for Microsoft Azure (AZ-204) die nu weer voor een jaar verlengd is. Maar wat zou ik nog meer kunnen doen?

Na een korte zoektocht kom ik uit op dit document van Microsoft: aka.ms/AzureTrainCertDeck

Dat is een PDF met de verschillende studies. Ik heb even doorgeklikt op "Training journey for developers". Daar zie ik dat er nog 2 Fundamental Courses zijn, Data Fundamentals (DP-900) en AI Fundamentals (AI-900).

Ik heb (nog) niet zoveel met AI, maar Data, dat ken ik door mijn werk (ik werk onder andere met Umbraco en dus met MS SQL Server databases) en door de "algemene fundamentals" en de AZ-204 heb ik ook al veel meegekregen van de andere type databases van Microsoft/Azure. Dus deze studie zou ook niet erg moeilijk voor mij moeten zijn, zou ik deze ook binnen korte tijd moeten kunnen halen en is het ook een stukje bevestiging van kennis en kunde wat ik heb: goed voor je CV dus!

Dit is de pagina waar je moet zijn: link.

Module 1

Dit is een algemeen verhaal over structured, semi-structured en non-structured data. CSV, JSON, XML, het komt voorbij. Wel kom ik iets tegen wat ik niet kende, "optimized file formats". Zo heb je Avro (rij-gebaseerd, opgestart door Apache waarbij de header in JSON-formaat is en de data binair). ORC (optimized row columnar format) organiseert data meer in kolommen dan in rijen. HortonWorks heeft dit uitgewerkt, voor optimalisatie van read/write in Apache Hive. Parquet is data ook kolom-gewijs. Opgestart door Cloudera en Twitter. Het schijnt heel goed compressie te ondersteunen.

Module 2

Hier komen de verschillende rollen voorbij. Je hebt de database administrators, data engineers (die zorgen voor infra en processen, zoals het opschonen van data). En de data-analysten.

Je SQL database migreren?

Azure Database Migration Service documentatie: link.
Azure SQL Managed Instance: link.
Migreren naar SQL Managed Instance? Gebruik de data migratie tool: link.

Module 3

Het is inmiddels 29 november, bijna een maand later. Dat laat zien dat ik "het druk heb", want elke woensdag heb ik 1 uur Microsoft Learn op de planning staan (en dus niet gedaan). Door met deze modules!

Deze module gaat over non-relational data in Azure. Onderverdeeld in 2 onderdelen, Azure Storage en Azure Cosmos DB.

Met de noSQL structuur kun je documenten, graphs, key-value en "column family stores" opslaan.
Met Cosmos DB krijg je een container waarin de ruimte in partities onderverdeeld kan worden.
Zo'n partitie kan maximaal 10 GB groot worden. Indexen wordt automatisch bijgewerkt, geen gedoe.

Microsoft maakt zelf ook gebruik van Cosmos (eat your own dogfood) voor Skype, Xbox, Microsoft 365, Azure.
Kan gebruikt worden voor:

Iot en telematics, komt er data binnen, dan kun je Azure Functions triggeren. Je kunt er Azure Machine Learning op toepassen, Azure HDInsight, Power BI.
Retail en marketing, Windows Store en Xbox Live gebruiken het.
Gaming, voor in-game statistieken, social-media integratie, high-score leaderboards.
Web en mobiele applicaties, onder andere via het Xamarin framework fraaie Android en iOS applicaties kunnen aanbieden.

Als je meer voorbeelden (en wat plaatjes wilt zien), dat kan hier.

Bij het aanmaken van een database, kun je kiezen waar deze op draait zoals PostgreSQL, MongoDB en Apache Cassandra. Gremlin gebruik je voor een "grafen-netwerk".

Module 4

Deze module gaat over data analytics in Azure.

Je start met de fundamentals over large-scale analysis.

Je hebt data, die laad je ergens in en "transform" je. Of je hebt de data, past deze aan en laad het vervolgens in.
We zien een pijplijn om de data te verwerken. Dat kan met Azure Data Factory, met Azure Synapse Analytics en met Microsoft Fabric.

Er zijn 3 platformen as a service (PAAS) om een analytische "store" op grote schaal te bouwen:

Azure Synapse Analytics
Azure Databricks (gebaseerd op Apache Spark)
Azure HDInsight, niet zo gebruiksvriendelijk als de andere, maar goed te gebruiken als je afhankelijk bent van verschillende open-source frameworks of als je een bestaande Hadoop oplossing die op je eigen netwerk wilt gebruiken

Het volgende blok gaat over fundamentals van real-time analytics.

De verschillen (en voor- en nadelen) van batch-processing en stream-processing worden besproken.

Technieken voor het verwerken van real-time analytics:

Azure Stream Analytics
Spark Structured Streaming
Azure Data Explorer

Bronnen voor stream-processing:

Azure Event Hubs
Azure IoT Hub
Azure Data Lake Store Gen 2
Apache Kafka

Sink voor stream-processing (dus waar gaat het heen):

Azure Event Hubs
Azure Data Lake Store Gen 2 of Azure blob storage
Azure SQL Database of Azure Synape Analytics of Azure Databricks
Microsoft Power BI

Wil je meer over Azure Stream Analytics weten, hier is documentatie te vinden.

Wil je meer over Spark Structured Streaming weten, hier is documentatie te vinden.

Delta Lake is een open-source oplossing om warehouse-features op een datalake uit te kunnen voeren.
Wil je meer weten, hier is documentatie te vinden.

Het laatste blok gaat over visualisatie.

Dus Power BI.

Klaar!

Binnenkort nog eens wat gedetailleerder doornemen.
En dan de online proeftoets maken om te kijken of ik daar een voldoende haal.

Die proeftoets kun je hier vinden.

De oefeningen heb ik (nog) niet gedaan, maar mocht ik daar tijd voor hebben dan zou ik ze nog kunnen uitvoeren:

https://learn.microsoft.com/en-us/training/modules/explore-provision-deploy-relational-database-offerings-azure/4-exercise-provision-relational-azure-data-services?pivots=azuresql

https://learn.microsoft.com/en-us/training/modules/explore-provision-deploy-non-relational-data-services-azure/6-exercise-azure-storage

https://microsoftlearning.github.io/DP-900T00A-Azure-Data-Fundamentals/Instructions/Labs/dp900-03-cosmos-lab.html

https://microsoftlearning.github.io/DP-900T00A-Azure-Data-Fundamentals/Instructions/Labs/dp900-04-synapse-lab.html

https://microsoftlearning.github.io/DP-900T00A-Azure-Data-Fundamentals/Instructions/Labs/dp900-04b-fabric-lake-lab.html

Om deze oefening te doen heb je een Microsoft Fabrial trial licentie nodig. Uitleg staat hier.

https://microsoftlearning.github.io/DP-900T00A-Azure-Data-Fundamentals/Instructions/Labs/dp900-05-stream-lab.html

https://aka.ms/dp900-spark-lab

https://aka.ms/dp900-fabric-rta-lab

Om deze oefening te doen heb je een Microsoft Fabrial trial licentie nodig. Uitleg staat hier.

https://aka.ms/dp900-pbi-lab