Azure 4-daagse van Master IT

Ingediend door Dirk Hornstra op 28-jun-2022 21:33

Mijn collega Dirk-Jan kwam op de site van Master IT een actie tegen: de Azure 4-daagse. De sessies gingen over Microsoft 365 Security, Azure Artificial Intelligence AI-900,  Power Platform, Azure Fundamentals AZ-900 en Azure Data DP-900.

Qua relevantie leek Azure DP-900 wel interessant (Azure Fundamentals AZ-900 hebben Dirk-Jan en ik al behaald), dus op donderdagavond 11 februari 2021 tussen 19.00 en 21.00 de sessie gevolgd die gepresenteerd wordt door Bjorn Mevissen.

Iets wat nu in 4 uur besproken wordt is iets wat anders in één dag behandeld wordt. En ook dan slaat Bjorn soms nog delen over om de stof goed door te nemen. Het is dus duidelijk dat we hiermee een introductie in de materie krijgen en je zelf na de tijd nog aan de slag moet. Maar dat is geen probleem.

Ik heb aantekeningen gemaakt, die moet je eigenlijk direct gaan uitwerken, want nu het een week later is, begin ik me af te vragen wat ik nou opgeschreven heb.

Goed, we beginnen;

Je hebt de verschillende rollen die gebruikt worden voor data. De Database Administrator, Data Engineer en de Data Analyst. De Data Analyst zit meer in het gebied dat er data aangeleverd wordt en daar gaat hij/zij in filteren, sorteren en andere acties om betekenis aan de data te geven. De Administrator en Engineer zijn de partijen die ervoor zorgen dat de data "in het systeem komt".

De Database Administrator heeft een aantal tools ter beschikking, Azure Data Studio, SQL Server Management Studio en de Azure Portal/CLI.

De Database Engineer gebruikt ook de SQL Server Management Studio en Azure Portal/CLI, maar in plaats van de Azure Data Studio gebruikt hij/zij Azure Synapse Studio.

De Data Analyst gebruikt de tools uit het Power BI arsenaal (Desktop / Portal/Service / Report Builder).

Maak een keuze uit deze type rollen (er is ook nog een Data Scientist) die bij je past en baseer daar je certificering op: link.

De verschillende soorten data kun je onderverdelen naar structured ("ouderwets" database-werk), semi-structured (json-data) en unstructured (afbeeldingen, wav-bestanden).

Hierna zien we de verwerking van data, via data ingestion, data storage, data processing naar data visualisation.

Je hebt ETL: Extract, Transform en Load. Je haalt de data ergens uit, maakt het geschikt om te importeren en laadt het dan in je systeem.

Ik zie het zo niet meer terug, maar volgens mij was er ook een ELT variant: Extract, Load en Transform. Dat is bij big-data, waarbij het niet te doen is om voor het inladen alles te gaan filteren. Alle data wordt ingeladen en daar voer je vervolgens je transformaties op uit.

Descriptive: er wordt gelogd, maar pas bij calamiteiten gaan we daarin kijken.

Diagnostic: de data is inzichtelijk op bijvoorbeeld een dashboard, waardoor je het verloop (en incidenten) in de gaten kunt houden.

Predictive: data wordt gebruikt om voorspellingen te doen.

Prescriptive: op basis van ervaring worden acties uitgevoerd om deze te voorkomen.

Cognitive: wij zien gebeurtenis X, maar door de hoeveelheid data kan het systeem bepalen dat actie M in het traject ervoor de oorzaak is dat gebeurtenis X optreedt.

Als je structured data wilt opslaan in (Microsoft) SQL in Azure, dan heb je de keuze uit SQL Server op een virtuele machine (Infrastructure as a service), Azure SQL als een managed instance en een Azure SQL Database (beide Platform as a service). De alternatieven hiervoor zijn PostgreSQL, MySQL en MariaDB. Bjorn geeft aan dat hij niet echt een goed gevoel heeft over de richting die MySQL opgaat, omdat de developers voor het grootste deel overstappen naar PostgreSQL.

Voor semi-structured data zit je al gauw bij Azure Cosmos DB. Er zit een SQL API op, Table API, MongoDB API, Cassandra API en Gremlin API. Het is schaalbaar, goede performance, uitstekende beschikbaarheid en het een programmeerbaar model.

Voor de unstructed data zitten we bij BLOBS. Je kunt dan kiezen voor Block Blobs (4.7 TB max), Page Blobs (8 TB max) en Append Blobs (195 GB max). Blobk Blobs kun je het beste gebruiken voor grote brokken binaire data die bijna niet wijzigen. Page Blobs worden vaak gebruikt voor virtuele schijven, omdat deze uit 512-bytes pagina's bestaan (een soort bestandssysteem). En de Append Blobs zijn hoe ze klinken: als ergens "nog wat data bij moet", dan kan dat eigenlijk niet en daarvoor gebruik je een Append Blob.

Voor opslag en verwerking heb je Data warehousing en processing, Azure Data Factory voor data-transformaties, Azure Databricks is tot 10x sneller dan Vanilla Spark. Azure Synapse Analytics, Azure Data Lake Storage.

We zien de uitleg wat Azure Data Factory is. Je begint met gekoppelde diensten, Data Lake Storage/Azure Databricks, hieraan zitten triggers gekoppeld waar het naar een dataset gaat.

Azure Databricks is een Apache gebaseerd platform. Het maakt het provisionen simpeler en koppelt met Apache Spark gebaseerde systemen. Enterprise Security zorgt voor de beveiliging. En kan geïntegreerd worden met veel Azure datadiensten en Power BI.

Azure HDInsight, daar zien we een groot scherm met onderdelen. Hadoop storage, bestanden, Azure Data Lake, Databases, Azure Blob storage en sensors en apparaten. Via databrick notebooks (met Spark libraries) kunnen er modellen, grafieken en rapporten van gemaakt worden.

 

We zien het overzicht van Compute - Access - Data. Maar je hebt pas wat aan Data als je het koppelt/interpreteert zodat het Informatie wordt.

Met Streaming Analytics blijft er data binnenkomen (bijvoorbeeld weer-data) waarmee je het systeem "voedt".

De Face-recognition-service werd door zoveel partijen gebruikt, ook voor zaken waar het niet voor bedoeld was, waardoor Microsoft deze dienst aan het "knijpen" is om die voor iedereen beschikbaar te houden.

Bjorn vindt wel dat het privacy-deel onderbelicht blijft.
 

Cosmos DB is de interface naar documentDB. Mongodb.

Cassandra bestaat uit key en column.

Een blob werkt als een file-systeem. Hadoop (azure HD inside) is statisch. Web hdfs een data lake

De Azure Data Factory is een pipeline op basis an tijd en triggers.

Tresorit: dropbox op Azure Storage.

Als je van een Access-database over wilt naar een online Azure-oplossing, dan zijn de kosten afhankelijk van wat je gaat doen. Dat kan van een paar euro per maand, maar als het hoge beschikbaarheid e.d. moet hebben kan dit oplopen tot 100/150 euro per maand.

Je hebt de Azure Pricing Calculator, maar zoals Bjorn zegt: dan moet je wel weten welke producten je gaat kiezen.