Linux Administration für KI-Workloads mit GPUs Kurs

Kursbeschreibung

Kurs-ID:KKC_0240
Kursdauer:3 Tage

Du betreibst Linux-Systeme, auf denen Data Science, Training oder Inference laufen sollen, und willst weniger „mysteriöse“ GPU-Probleme und mehr reproduzierbare Ergebnisse? Dieses Seminar führt Dich durch die entscheidenden Bausteine eines stabilen KI-Stacks auf Linux. Du beginnst bei den NVIDIA-Treibern und lernst, wie Kernel, Module, DKMS und Secure Boot zusammenspielen. Du übst, wie Du Treiber-Updates und Kernel-Updates so orchestrierst, dass Du Rollbacks beherrschst und Ausfälle vermeidest. Darauf aufbauend setzt Du CUDA, cuDNN und NCCL so ein, dass die Kompatibilität nachvollziehbar bleibt. Du lernst, welche Checks wirklich aussagekräftig sind, wie Du Persistenced einordnest und wie Du mit kurzen Tests die GPU-Funktion und grundlegende Performance verifizierst. Multi-GPU-Aspekte wie PCIe-Topologie, NVLink und NUMA werden so erklärt, dass Du sie in Troubleshooting und Kapazitätsplanung einsetzen kannst. Ein zentraler Teil ist der Container-Betrieb: Docker mit NVIDIA Container Toolkit, GPU-Durchreichung, Berechtigungen und typische Ursachen für fehlschlagende Jobs trotz „grünem“ Container-Start. Ergänzend behandelst Du Ressourcensteuerung mit cgroups v2, ulimits und Shared Memory sowie Performance-Tuning bei Storage und Netzwerk. Abschließend baust Du ein Betriebsset aus Monitoring-Pfaden, Incident-Playbooks und einer Go-Live-Checkliste, damit KI-Workloads nicht nur starten, sondern dauerhaft zuverlässig laufen.

Die wichtigsten Themen im Überblick

GPU-Stack unter Linux stabil aufsetzen
NVIDIA-Treiber, CUDA, cuDNN und NCCL sicher abstimmen
KI-Container mit Docker reproduzierbar bauen
GPU-Ressourcen mit cgroups v2 und MIG gezielt isolieren
Training und Inference mit NUMA und Storage optimieren
GPU-Monitoring für Auslastung und Thermals einrichten
Treiber- und Kernel-Probleme systematisch beheben
Go-Lives mit Checks, Runbooks und Rollback absichern

Zielgruppe

Linux-Administratorinnen und Linux-Administratoren mit Betriebsverantwortung für GPU-Server
DevOps- und Platform-Engineers, die KI-Workloads containerisiert ausrollen
ML-Engineers und MLOps-Verantwortliche mit Bedarf an stabilem Infrastruktur-Setup
IT-Betrieb und SRE-Teams, die Training und Inference absichern
Für alle, die GPU-Workloads unter Linux reproduzierbar, performant und wartbar betreiben wollen

Voraussetzung für die Schulung

Sichere Linux-Kenntnisse (Shell, Systemdienste, Paketmanagement, Logs)
Grundverständnis von Docker ist hilfreich, aber nicht zwingend

Kursinhalte

GPU-Stack unter Linux stabil aufsetzen
- NVIDIA-Treiber: Versionierung, DKMS, Secure Boot, Kernel-Updates
- CUDA, cuDNN, NCCL: Kompatibilität und typische Fallstricke
- Multi-GPU-Grundlagen: Topologie, PCIe, NVLink, NUMA
- Validierung: nvidia-smi, Persistenced, Smoke-Tests
Container für KI: Docker, NVIDIA Container Toolkit
- GPU in Containern: Runtime, Device-Plugin-Logik, Berechtigungen
- Images reproduzierbar bauen: Base-Images, Pinning, SBOM-Idee
- Fehlerbilder: „CUDA driver too old“, fehlende Libs, Mount-Probleme
- Best Practices für Training vs. Inference
Ressourcen, Scheduling und Isolation
- cgroups v2: CPU, RAM, IO und GPU-Device-Zugriff
- MIG und GPU-Slicing (Überblick): sinnvolle Einsatzmuster
- Ulimits, Shared Memory, Hugepages: typische KI-Engpässe
- Mehrbenutzerbetrieb: Rechte, Gruppen, Policy-Ansätze
Performance-Tuning für Training und Inference
- Storage-Pfade: NVMe, RAID, Filesystem-Optionen, Dataset-Caching
- Netzwerk: MTU/Jumbo Frames, RDMA-Grundlagen, Latenz-Checks
- CPU-Pinning, NUMA-Affinität, IRQ-Balancing
- Monitoring: GPU-Utilization, Thermals, Power-Limits
Observability, Troubleshooting und Betrieb
- Logs und Metriken: journald, dmesg, DCGM-Ansatz, Exporter-Idee
- Kernel- und Treiber-Debugging: Module, Signaturen, tainted Kernel
- Incident-Playbooks: Rollback, Canary, Wartungsfenster
- Hardening: Updates, Repo-Strategie, minimaler Angriffsvektor
Praxis: Referenz-Setup und Abnahmecheck
- Golden Path: von Bare Metal bis Container-Workload
- Kompatibilitätsmatrix als Betriebsdokument
- Checkliste für Go-Live: Tests, Limits, Monitoring, Backup
- Übergabe an Betrieb: Runbooks und Verantwortlichkeiten

Termin finden

Plätze frei Wenige Plätze frei Nicht buchbar

21 Standorte erwarten dich

Als bundesweit tätiger und renommierter Seminaranbieter bietet dir die Kebel Training GmbH ein umfangreiches Angebot an IT-Schulungen und Soft-Skills Trainings an. Unser Linux Administration für KI-Workloads mit GPUs Kurs findet als Präsenzseminar in Berlin, Bremen, Dortmund, Dresden, Düsseldorf, Erfurt, Essen, Frankfurt, Hamburg, Hannover, Koblenz, Köln, Krefeld, Leipzig, München, Münster, Nürnberg, Regensburg, Saarbrücken, Siegen und Stuttgart statt.

Alternativ kann deine Fortbildung als Inhouse-Schulung bei dir vor Ort, Workshop und als Live Online Training organisiert werden.

Zur Standortübersicht

eKomi Seminarbewertungen für www.kebel.de

eKomi Bewertungen

Qualität ist bei Kebel kein Versprechen, sondern belegbar. Deshalb setzen wir auf das unabhängige Bewertungsportal eKomi. Nach jeder Schulung – online oder in Präsenz – erhalten unsere Teilnehmer:innen die Möglichkeit, uns anonym und freiwillig zu bewerten.

Mit über 1.600 Bewertungen in den letzten 12 Monaten zählen wir zu den bestbewerteten Anbietern für IT-Weiterbildungen. Alle Bewertungen, ob positiv oder kritisch, fließen transparent in unsere offizielle Bewertungsstatistik ein und bilden die Grundlage unserer eKomi Trust-Zertifikate.

Für dich als Personalverantwortliche, IT-Fachkraft oder Entscheider:in bedeutet das: verifizierte Teilnehmerstimmen, geprüfte Qualität und maximale Transparenz bei der Auswahl deines Weiterbildungspartners.

Zum Bewertungsportal

Kebel Training – Das spricht dafür…

Über 1.200 Kurse im Portfolio
Wähle deinen passenden Kurs zu einem festen Termin und erhalte dein Zertifikat. Lerne Live Online oder in Präsenz. Unser Kebel Team berät dich kostenlos und unverbindlich.
Seminarprogramm entdecken
Durchführungs- und Qualitätsgarantie
Dein Seminar findet garantiert statt, wenn es von uns bestätigt wurde – schon ab dem ersten Teilnehmenden. Und falls du nicht zufrieden warst, kannst du es kostenlos wiederholen.
Firmenschulungen nach Maß – In Präsenz, Live Online oder hybrid
Wir richten unsere Trainings individuell nach euren Anforderungen und Zielen aus. Auf Wunsch kann eure Schulung vor Ort als Inhouse- Schulung organisiert werden.
Mehr als 30 Jahre Schulungserfahrung
Seit 1995 planen wir erfolgreich und zuverlässig Weiterbildungen im IT- und Soft-Skills Bereich.
21 Standorte in deiner Nähe
Deutschlandweit stehen dir unsere modernen Schulungszentren für deine berufliche Fortbildung zur Verfügung.
21 Schulungszentren
Familienunternehmen in zweiter Generation
Als Familienunternehmen in zweiter Generation verbinden wir Tradition mit Zukunft.

FAQ

Ja, nach erfolgreicher Teilnahme am Linux Administration für KI-Workloads mit GPUs Kurs erhältst Du ein Teilnahmezertifikat. Dieses bestätigt Deine erweiterten Kenntnisse im professionellen Einsatz von Linux Administration für KI-Workloads mit GPUs Kurs .

Ja, wir garantieren die Durchführung aller von uns bestätigten Termine. Der Linux Administration für KI-Workloads mit GPUs Kurs findet auch bereits ab einem Teilnehmer statt, sodass Du Deine Weiterbildung sicher und zuverlässig planen kannst.

Ja, wir bieten den Linux Administration für KI-Workloads mit GPUs Kurs als Inhouse Training oder Firmenschulung an. Zusätzlich kann die Schulung auch als Online-Firmenschulung durchgeführt werden. Inhalte, Prozesse und Schwerpunkte passen wir individuell an die Anforderungen Deines Unternehmens an.

Unser Kebel Team hilft dir gerne weiterKostenlose Beratung

Du hast Fragen zu unseren Kursen und Schulungen, du möchtest eine individuelle Beratung oder uns einfach ein Feedback geben? Wir sind von montags bis freitags von 8:00 bis 17:00 Uhr für dich telefonisch erreichbar. Alternativ nutze gerne unser Kontakt-Formular.

Linux Administration für KI-Workloads mit GPUs Kurs

Kursbeschreibung

Die wichtigsten Themen im Überblick

Zielgruppe

Voraussetzung für die Schulung

Kursinhalte

Termin finden

21 Standorte erwarten dich

eKomi Bewertungen

Kebel Training – Das spricht dafür…

Über 1.200 Kurse im Portfolio

Durchführungs- und Qualitätsgarantie

Firmenschulungen nach Maß – In Präsenz, Live Online oder hybrid

Mehr als 30 Jahre Schulungserfahrung

21 Standorte in deiner Nähe

Familienunternehmen in zweiter Generation

FAQ

Erhältst Du nach dem Kurs ein Zertifikat?

Gibt es eine Durchführungsgarantie?

Bieten Sie den Kurs auch als Inhouse Training oder Firmenschulung an?

Unser Kebel Team hilft dir gerne weiterKostenlose Beratung