Kursbeschreibung
Die wichtigsten Themen im Überblick
- Dimensionalitätsreduktion für ML und Visualisierung nutzen
- PCA mit Skalierung, Varianz und Loadings sicher anwenden
- t-SNE-Parameter wie Perplexity und Learning Rate verstehen
- Plots richtig interpretieren und Abstände nicht überdehnen
- Leakage, falsche Skalierung und Overplotting vermeiden
- PCA und t-SNE für Analysefragen sauber vergleichen
- Robuste Workflows mit Train/Test und Cross-Validation aufbauen
- Ausreißer, Cluster und Klassen in echten Datensätzen bewerten
Zielgruppe
- Data Analysts und BI-Professionals, die hochdimensionale Daten visualisieren
- Data Scientists, die PCA oder t-SNE in Exploration und Modellvorstufen nutzen
- Machine-Learning-Engineers, die robuste Pipelines und Auswertungen bauen
- Fachkräfte aus Forschung und Produktanalyse, die Muster und Ausreißer belastbar erklären müssen
- Für alle, die PCA und t-SNE verstehen und Ergebnisse sauber interpretieren wollen
Voraussetzung für die Schulung
- Grundkenntnisse in Statistik (Mittelwert, Varianz, Korrelation) und sicherer Umgang mit Tabellen- und Diagrammbegriffen.
- Erste Erfahrung mit Datenanalyse in Python oder R ist hilfreich, aber nicht zwingend.
Kursinhalte
- Warum Dimensionalitätsreduktion überhaupt?
- Curse of Dimensionality und Distanzprobleme
- Visualisierung, Kompression, Rauschreduktion
- Was „Struktur“ in Daten wirklich bedeutet
- PCA von Grund auf richtig
- Zentrieren, Skalieren, Kovarianz und Eigenvektoren
- Erklärte Varianz, Scree-Plot, Komponentenwahl
- Loadings lesen und Features interpretieren
- Typische Fehler: Leakage, falsche Skalierung
- t-SNE verstehen statt nur klicken
- Perplexity, Learning Rate, Iterationen
- Warum globale Abstände täuschen können
- Stabilität, Random Seed und Reproduzierbarkeit
- Overplotting und sinnvolle Visualisierungen
- PCA und t-SNE sauber vergleichen
- Welche Fragen beantwortet welches Verfahren?
- Vorverarbeitung: StandardScaler, PCA-Prestep
- Qualitätschecks: Trustworthiness, Nachbarschaften
- Praxis-Workflow für echte Datensätze
- Pipeline-Denken mit Train/Test und Cross-Validation
- Visual Analytics: Klassen, Cluster, Ausreißer
- Dokumentation: Plot-Interpretation ohne Überdehnung
- Grenzen, Alternativen und Entscheidungen
- Wann UMAP sinnvoll sein kann
- Wann Feature Selection besser ist als Projektion
- Checkliste für belastbare Aussagen





















