DP-750 Implementing Data Engineering Solutions with Azure Databricks

Preis
Netto
MwSt.

Preis
Preis auf Anfrage

Dauer
4 Tage

Für Unternehmen und Arbeitssuchende:
dieser Kurs ist zu 100 % förderfähig!
 

Standort

Kurssprache
englisch

Trainingslösungen
Online Live

Datenmengen wachsen dynamisch, Prozesse werden komplexer und moderne Unternehmen benötigen leistungsfähige Plattformen für Analyse, Automatisierung und intelligente Auswertung. Cloudbasierte Data-Engineering-Lösungen gewinnen deshalb massiv an Bedeutung. Azure Databricks verbindet skalierbare Datenverarbeitung mit flexiblen Workflows und schafft die technische Grundlage für performante Datenarchitekturen in modernen IT-Umgebungen.

Zentrale Themen

  • Entwicklung skalierbarer Datenpipelines
  • Verarbeitung großer Datenmengen mit Apache Spark
  • Aufbau moderner Lakehouse-Architekturen
  • Integration unterschiedlicher Datenquellen
  • Optimierung von Performance und Datenqualität
  • Automatisierung cloudbasierter Datenprozesse
  • Verwaltung strukturierter und unstrukturierter Daten
  • Analyse von Streaming- und Echtzeitdaten

Voraussetzung
Grundkenntnisse in Datenbanken, SQL sowie Cloud-Technologien. Technisches Verständnis für Datenprozesse und analytische Strukturen ist hilfreich.

Zielgruppe
Geeignet für Fachkräfte aus Data Engineering, Cloud Computing, Analytics, Business Intelligence, Softwareentwicklung und IT-Projekten.

Moderne Datenplattformen prägen digitale Geschäftsprozesse, KI-Anwendungen und datengetriebene Entscheidungen. Aktuelles Fachwissen rund um Azure Databricks eröffnet starke Perspektiven für anspruchsvolle Projekte mit hoher technologischer Relevanz.

Als PDF drucken/speichern
Kursinhalte
  • Auswahl geeigneter Computetypen
  • Konfiguration von Leistung und Skalierung
  • Einrichtung von Photon, Runtime, Spark und ML
  • Installation von Bibliotheken
  • Verwaltung von Zugriffsrechten
  • Namenskonventionen anwenden
  • Kataloge und Schemas erstellen
  • Volumes anlegen
  • Tabellen, Views und materialisierte Views erstellen
  • Externe Kataloge konfigurieren
  • DDL-Operationen für Tabellen umsetzen
  • AI/BI Genie für Data Discovery konfigurieren
  • Berechtigungen für Unity-Catalog-Objekte vergeben
  • Tabellen-, Spalten- und Zeilensicherheit umsetzen
  • Azure-Key-Vault-Schlüssel in Azure Databricks nutzen
  • Datenzugriff mit Dienstprinzipalen authentifizieren
  • Ressourcenzugriff mit Managed Identities authentifizieren
  • Pflege von Tabellen- und Spaltendefinitionen
  • Konfiguration von ABAC mit Tags und Richtlinien
  • Einrichtung von Zeilenfiltern und Spaltenmaskierungen
  • Umsetzung von Datenaufbewahrungsrichtlinien
  • Verwaltung von Data Lineage im Catalog Explorer
  • Konfiguration von Audit-Logs
  • Entwicklung sicherer Delta-Sharing-Strategien
  • Datenaufnahme und Datenquellen konfigurieren
  • Geeignetes Ingestion-Tool auswählen (z. B. Lakeflow Connect, Notebooks, Azure Data Factory)
  • Batch- oder Streaming-Ladevorgang wählen
  • Tabellenformat auswählen (Parquet, Delta, CSV, JSON, Iceberg)
  • Partitionierungsschema definieren
  • SCD-Typ auswählen
  • Passende Daten-Granularität festlegen
  • Zeitverlauf von Änderungen abbilden
  • Clustering-Strategie definieren (Liquid Clustering, Z-Ordering, Deletion Vectors)
  • Zwischen Managed und Unmanaged Tables wählen
  • Datenaufnahme mit Lakeflow Connect (Batch & Streaming)
  • Datenerfassung mit Notebooks (Batch & Streaming)
  • Datenaufnahme per SQL (CTAS, CREATE OR REPLACE, COPY INTO)
  • Datenintegration über CDC-Feeds
  • Datenaufnahme mit Spark Structured Streaming
  • Streaming-Daten aus Azure Event Hubs erfassen
  • Datenintegration mit Lakeflow Spark Declarative Pipelines inkl. Auto Loader
  • Daten profilieren und Verteilungen analysieren
  • Geeignete Spaltentypen auswählen
  • Duplikate, fehlende und Nullwerte bereinigen
  • Daten filtern, gruppieren und aggregieren
  • Daten mit Join, Union und Intersect verknüpfen
  • Daten pivotieren und denormalisieren
  • Daten per Merge, Insert und Append laden
  • Validierungsprüfungen für Nullwerte, Kardinalität und Wertebereiche umsetzen
  • Datentypprüfungen implementieren
  • Schemakontrolle und Schemaabweichungen verwalten
  • Datenqualität mit Pipeline-Erwartungen in Lakeflow Spark Declarative Pipelines steuern
  • Abläufe für Datenpipelines definieren
  • Auswahl zwischen Notebook und Lakeflow Pipelines
  • Aufgabenlogik für Lakeflow entwickeln
  • Fehlerbehandlung für Pipelines und Jobs
  • Datenpipeline mit Notebook erstellen
  • Datenpipeline mit Lakeflow Pipelines erstellen
  • Erstellen eines Auftrags, einschließlich Einrichtung und Konfiguration
  • Konfiguration von Job-Triggern
  • Ein Projekt planen
  • Konfiguration von Benachrichtigungen für einen Job
  • Konfiguration automatischer Neustarts für einen Job oder eine Datenpipeline
  • Versionsverwaltung mit Git anwenden
  • Branches, Pull Requests und Konflikte verwalten
  • Teststrategien implementieren (Komponenten-, Integrations-, E2E- und UAT-Tests)
  • Databricks Asset Bundles konfigurieren und paketieren
  • Bundles per Azure Databricks CLI bereitstellen
  • Bundles per REST-API bereitstellen
  • Verwaltung der Clusterauslastung zur Leistungs- und Kostenoptimierung
  • Fehlerbehebung in Lakeflow-Jobs inkl. Repair-, Restart-, Pause- und Run-Funktionen
  • Fehlerbehebung und Performance-Optimierung in Apache Spark-Jobs und Notebooks
  • Analyse und Behebung von Caching-, Skew-, Spill- und Shuffle-Problemen mithilfe von DAG, Spark UI und Query Profile
  • Optimierung von Delta-Tabellen mit OPTIMIZE und VACUUM
  • Implementierung von Log-Streaming mit Log Analytics in Azure Monitor
  • Konfiguration von Alerts in Azure Monitor

Häufig gestellte Fragen

  • Datenpipelines entwickeln, große Datenmengen verarbeiten und skalierbare Lösungen mit Azure Databricks produktiv umsetzen.
  • Der Kurs zeigt, wie Echtzeitdaten, Analytics und Cloud-Workflows effizient in einer Plattform zusammenlaufen.
  • Azure Databricks, Apache Spark, Delta Lake und moderne Data-Engineering-Workflows für produktive Cloud-Projekte.
  • Schnellere Datenverarbeitung, automatisierte Pipelines und stabile Analytics-Lösungen für große Datenmengen.
  • Für alle, die Data Engineering mit Azure professionell aufbauen oder bestehende Cloud-Skills gezielt erweitern wollen.
  • Der Fokus liegt auf skalierbaren Architekturen, performanter Verarbeitung und praxisnahen Databricks-Lösungen.
  • Mehr Datenqualität, zuverlässige Pipelines und schnellere Analysen durch moderne Lakehouse-Technologien.
  • Weil Datenintegration, KI und Analytics in einer leistungsstarken Plattform effizient kombiniert werden können.

Hast du weitere Fragen? Bitte kontaktiere uns.