Kursbeschreibung
Zielgruppe
- Data Analysts und Business Analysts mit Statistikbezug
- Data Scientists, die Clustering belastbar einsetzen wollen
- Marketing-, CRM- und Product-Teams mit Segmentbedarf
- BI- und Analytics-Engineers an der Schnittstelle zu Fachbereichen
- Alle, die Segmentierungen nicht nur berechnen, sondern im Alltag nutzbar machen wollen
Voraussetzung für die Schulung
- Grundkenntnisse in Statistik und Datenaufbereitung (z. B. Skalierung, Ausreißer, Missing Values).
- Grundverständnis von Machine Learning Begriffen; Programmierung ist hilfreich, aber nicht zwingend.
Kursinhalte
- Problemverständnis und Datenbasis
- Use-Cases: Kundensegmente, Anomalien, Produktgruppen
- Feature-Auswahl, Skalierung, Missing Values
- Bias, Leakage und typische Datenfallen
- Clustering-Verfahren richtig auswählen
- K-Means, MiniBatchKMeans und Grenzen
- Hierarchisches Clustering und Linkage-Strategien
- DBSCAN und HDBSCAN für dichtebasierte Cluster
- Gaussian Mixture Models für weiche Zuordnung
- Distanz, Ähnlichkeit und Geometrie
- Euclidean, Cosine, Manhattan, Mahalanobis
- Kategoriale Daten: One-Hot, Embeddings, Gower
- High-Dimensionality und Curse of Dimensionality
- Dimensionality Reduction für Segmentierung
- PCA als robuste Basis für Clusterbarkeit
- UMAP und t-SNE für Visualisierung, richtig eingesetzt
- Interpretierbarkeit vs. Projektionseffekte
- Cluster-Qualität, Stabilität und Auswahl von k
- Silhouette, Calinski-Harabasz, Davies-Bouldin
- Elbow, Gap Statistic und praktische Heuristiken
- Stabilität über Resampling und Zeitfenster
- Interpretation und Business-Übersetzung
- Cluster-Profile, Treiberanalyse und Naming
- Segment-Regeln, Scorecards und einfache Deployments
- Monitoring: Drift, Re-Training, Governance





















