Kursbeschreibung
Zielgruppe
- Data Engineers mit erster Pipeline-Erfahrung
- Analytics Engineers, die KI-Use-Cases bedienen
- ML Engineers, die Datenflüsse produktiv machen
- Plattform- und Cloud Engineers im Datenumfeld
- Alle, die KI-Systeme mit verlässlichen Datenpipelines versorgen wollen
Voraussetzung für die Schulung
- Grundverständnis von Datenpipelines (z. B. ETL/ELT, Batch oder Streaming).
- Basiswissen zu SQL und Datenmodellierung ist hilfreich.
Kursinhalte
- Architektur für KI-Datenpipelines
- Batch vs. Streaming und typische KI-Workloads
- Lakehouse, Data Warehouse, Feature Store: Abgrenzung
- Schichtenmodell: Raw, Clean, Curated, Serving
- Schnittstellen zu Training und Inferenz
- Ingestion und Datenverträge
- Quellen anbinden: APIs, Events, Dateien, Datenbanken
- Schema Evolution und Contract Testing
- Idempotenz, Reprocessing, Backfills
- PII-Handling und Zugriffskonzepte
- Transformationen, Qualität und Lineage
- ELT/ETL-Patterns und inkrementelle Modelle
- Data Quality Checks und Anomalie-Erkennung
- Lineage und Impact Analysis für Änderungen
- Dokumentation und Datenkatalog-Grundlagen
- Orchestrierung und zuverlässiger Betrieb
- DAG-Design, Abhängigkeiten, SLAs und Retries
- Scheduling, Event-driven Trigger, Sensoren
- Observability: Logs, Metriken, Traces
- Runbooks und Incident-Playbooks
- Feature Engineering als Produkt
- Offline/Online Features und Konsistenz
- Point-in-time Correctness und Leakage vermeiden
- Feature Versioning und Wiederverwendbarkeit
- Serving Patterns für Low Latency
- Governance, Sicherheit und Kosten
- Rollen, Policies, Secrets und Audit Trails
- Retention, Löschkonzepte und Datenminimierung
- Kostenhebel: Storage, Compute, Egress
- FinOps-Prinzipien für Datenplattformen
- Produktionsreife KI-Datenflüsse
- Drift-Signale: Daten, Features, Labels
- Monitoring für Datenqualität und Freshness
- Reproduzierbarkeit: Snapshots und Time Travel
- Übergabe an MLOps: Artefakte und Schnittstellen





















