DP-700: waar Microsoft Fabric en Databricks overlappen en botsen

DP-700 is in maart 2024 gelanceerd als de opvolger van DP-203 (Azure Data Engineer Associate). Het is volledig gericht op Microsoft Fabric, een platform dat op papier veel lijkt op Databricks: gedistribueerde data-verwerking, Delta Lake als opslagformaat, notebooks voor transformaties, een Unity Catalog-achtige governance-laag. Maar de implementaties zijn anders, de terminologie is anders en het examen toetst Fabric-specifieke kennis, ook voor concepten die je misschien al denkt te begrijpen vanuit Databricks.

Het Spark-oppervlak: gelijk maar anders

Zowel Microsoft Fabric als Databricks draaien op Apache Spark. PySpark-code werkt in beide omgevingen. Maar de manier waarop je Spark configureert, opstart en beheert verschilt.

In Databricks heb je clusters: je configureert een cluster (node type, autoscaling, runtime versie) en notebooks draaien op dat cluster. In Fabric draai je op Spark-pools die bij een Fabric-capaciteit horen: de configuratie is minder granulair maar ook minder complex.

Het examen toetst dit via scenario’s zoals: “Een Fabric Lakehouse-notebook duurt te lang. Welke acties kunnen de performance verbeteren?” De verwachte antwoorden draaien om Fabric-concepten: Spark properties instellen in de notebook, partitionering aanpassen, een Fabric Spark-pool met hogere capaciteit gebruiken. Niet: “zet autoscaling aan op het cluster” zoals je bij Databricks zou doen.

Delta Lake: gedeeld concept, verschillende implementatie

Beide platforms slaan data op in Delta-formaat. Maar de manier waarop je Delta-tabellen beheert en optimiseert verschilt.

In Databricks heb je OPTIMIZE en VACUUM als SQL-commando’s en kun je Z-ordering instellen voor specifieke kolommen. In Microsoft Fabric bestaan deze ook, maar Fabric heeft bovendien automatisch onderhoud via de Lakehouse-instellingen, en de beheerlaag is anders geintegreerd.

Examenvragen die hierop mikken: “Een Fabric Lakehouse-tabel groeit snel en queries worden trager. Welke stap is aanbevolen?” Antwoord: OPTIMIZE uitvoeren, eventueel gecombineerd met V-Order (een Fabric-specifieke optimalisatiemethode voor Parquet-bestanden die leesspeed verbetert voor Power BI-queries).

V-Order is Fabric-specifiek. Als je van Databricks komt, ken je dit niet. Het examen vraagt er wel naar.

OneLake versus Unity Catalog

Microsoft Fabric werkt met OneLake: een enkelvoudige, logische data lake die je hele Fabric-tenant overspant. Alle Fabric-werkruimten en items slaan data op in OneLake. Het is conceptueel vergelijkbaar met Unity Catalog als governance-laag, maar de implementatie is heel anders.

Waar Unity Catalog draait op het concept van catalogs, schema’s en tabellen in Databricks, werkt Fabric met werkruimten, lakehouses, warehouses en shortcuts.

Shortcuts zijn een Fabric-specifiek concept zonder directe Databricks-tegenhanger: een shortcut is een verwijzing naar data die elders staat (in Azure Data Lake Storage, AWS S3 of een ander Fabric lakehouse) zonder die data te kopiëren. Voor het examen is het belangrijk te weten dat shortcuts alleen-lezen zijn vanuit het perspectief van de doelwerkruimte en dat ze geen data dupliceren.

Examenvragen over shortcuts: “Een team heeft toegang nodig tot data in een ander Fabric lakehouse zonder die data te dupliceren. Welke aanpak is het meest geschikt?” Antwoord: een shortcut aanmaken naar het andere lakehouse.

Pipelines: Data Factory in Fabric versus ADF

Fabric heeft een eigen implementatie van data pipelines, gebouwd op Azure Data Factory-technologie. De UI en het conceptuele model zijn grotendeels gelijk aan ADF: activities, triggers, linked services. Maar er zijn verschillen.

Fabric pipelines werken binnen de Fabric-werkruimte en hebben directe toegang tot Fabric-items (lakehouses, warehouses) zonder aparte linked services. ADF vereist linked services voor elke verbinding, ook naar Azure-native services.

Het examen toetst dit via vragen over wanneer je een Fabric-pipeline gebruikt versus wanneer je een extern ADF-account of Databricks-job gebruikt. Als de situatie beschrijft dat alle data al in Fabric staat, is Fabric-native altijd het verwachte antwoord. Als er externe systemen in het spel zijn die geen Fabric-connector hebben, kan een externe tool gerechtvaardigd zijn.

Warehouse versus Lakehouse

Dit is waar het examen mensen regelmatig pakt, ook mensen met Databricks-ervaring.

In Fabric zijn dit twee aparte items:

Lakehouse: bestandsgebaseerde Delta-opslag, toegankelijk via Spark (notebooks), SQL endpoint en shortcuts. Geschikt voor data engineering-workloads.
Warehouse: een volledig transactioneel SQL-datawarehouse op Fabric. Geen Spark, wel T-SQL. Geschikt voor BI en analytische workloads.

In Databricks bestaat dit onderscheid niet op dezelfde manier: Delta-tabellen zijn toegankelijk via Spark en SQL Warehouse (de Databricks SQL-service) tegelijk.

Examenvragen laten scenario’s zien waarbij een team Power BI-rapporten wil bouwen direct op top van verwerkte data. Welk Fabric-item gebruik je? Als de data niet veel mutaties meer nodig heeft en BI de primaire use case is, is een Warehouse of een Lakehouse met directe Power BI-integratie het antwoord. Als je data in een warehouse hebt maar ook nog Spark-transformaties nodig hebt, is de flow: Lakehouse voor processing, Warehouse voor analytische consumptie.

Wat je vanuit Databricks kunt meenemen

Als je Databricks-achtergrond hebt, zijn dit de concepten die direct overdraagbaar zijn:

Delta Lake-bestandsformaat en transacties (ACID-properties)
PySpark als taal
Incrementele data-laadpatronen (merge, upsert)
Medallion-architectuur (bronze/silver/gold lagen)

Wat je opnieuw moet leren:

V-Order en Fabric-specifieke optimalisaties
OneLake-structuur en shortcuts
Fabric-werkruimten en capaciteiten
Fabric-specific terminologie in de UI en in examenvragen

Plan 2 tot 4 weken extra als je van Databricks komt. Niet omdat de concepten moeilijk zijn, maar omdat de terminologieverschillen je op het examen kunnen misleiden als je ze niet bewust aandacht hebt gegeven.

Bekijk onze DP-700 trainingspagina voor een overzicht van trainingsopties.

DP-700: waar Microsoft Fabric en Databricks overlappen en botsen

Het Spark-oppervlak: gelijk maar anders

Delta Lake: gedeeld concept, verschillende implementatie

OneLake versus Unity Catalog

Pipelines: Data Factory in Fabric versus ADF

Warehouse versus Lakehouse

Wat je vanuit Databricks kunt meenemen

Gerelateerde artikelen

AI-102 en RAG: wat het examen werkelijk toetst

AI-102: van AI-900 naar AI Engineer in vier weken

MLOps zonder buzzwords: hoe begin je