Kursbeschreibung
Zielgruppe
- Data Engineers und Analytics Engineers
- Data Architects und Cloud Architects
- BI-Verantwortliche und Data Product Owner
- ML Engineers und AI Engineers mit Datenverantwortung
- Für alle, die Data Lakes und Data Warehouses als Grundlage für KI in der Cloud aufbauen oder verbessern wollen.
Voraussetzung für die Schulung
- Grundverständnis von Datenbanken und SQL ist hilfreich.
- Erste Berührungspunkte mit Cloud-Services oder Analytics-Projekten sind von Vorteil.
Kursinhalte
- KI braucht Daten: Architektur-Entscheidungen
- Data Lake, Data Warehouse, Lakehouse: Abgrenzung und Einsatz
- Batch vs. Streaming: wann welche Pipeline sinnvoll ist
- Compute- und Storage-Entkopplung in der Cloud
- Typische Anti-Patterns, die KI-Projekte ausbremsen
- Datenaufnahme und -integration
- Ingestion-Muster: Landing Zone, Raw, Curated
- ELT vs. ETL und Auswirkungen auf Qualität und Kosten
- CDC-Grundlagen und inkrementelle Loads
- Umgang mit semi-strukturierten Daten (JSON, Logs)
- Datenmodellierung für Analytics und KI
- Star Schema, Data Vault: wann es sich lohnt
- Feature-taugliche Daten: Aggregationen, Zeitbezug, Leakage
- Dimensionen, Slowly Changing Dimensions (SCD)
- Semantische Schicht und Self-Service-Analytics
- Datenqualität, Governance und Sicherheit
- Data Quality Checks: Vollständigkeit, Plausibilität, Drift
- Data Catalog, Lineage und Ownership
- IAM, Rollenmodelle, Row- und Column-Level Security
- DSGVO-Praxis: Pseudonymisierung, Aufbewahrung, Löschung
- Formate, Tabellen und Performance
- Parquet, ORC, JSON: Auswirkungen auf Kosten und Laufzeit
- Partitionierung, Clustering und Dateigrößen
- ACID-Tabellen im Lake (z. B. Delta/Apache Iceberg/Hudi)
- Abfrage-Optimierung und Kostenkontrolle
- Bereitstellung für KI-Workloads
- Trainingsdaten-Sets reproduzierbar bereitstellen
- Feature Store Grundlagen und wann er sinnvoll ist
- Offline/Online-Serving: Datenpfade für Inferenz
- Monitoring: Datendrift, Schema-Änderungen, SLAs





















