RKE2 NVIDIA GPU Operator Failure

caleb.brewer · December 9, 2025, 5:23pm

Hello,

I am trying to get GPU operator working on a kubernetes cluster. For reference, we are using rke2 version 1.33.5. Our cluster nodes are running RHEL 8.9.

We have followed the following rke2 installation guide for GPU operator on an rke2 cluster.

Debug commands return the following on our nodes:

[admin@xxxx ~]$ lsmod | grep nvidia
nvidia_uvm 4694016 0
nvidia_drm 98304 4
nvidia_modeset 1536000 2 nvidia_drm
video 53248 1 nvidia_modeset
drm_kms_helper 180224 4 ast,nvidia_drm
nvidia_peermem 16384 0
ib_core 442368 11 rdma_cm,ib_ipoib,nvidia_peermem,nvme_rdma,nvmet_rdma,iw_cm,ib_umad,rdma_ucm,ib_uverbs,mlx5_ib,ib_cm
nvidia_fs 253952 0
nvidia 9629696 56 nvidia_uvm,nvidia_peermem,nvidia_fs,nvidia_modeset
drm 598016 11 drm_kms_helper,ast,drm_shmem_helper,nvidia,nvidia_drm

[admin@xxxx ~]$ cat /proc/driver/nvidia/version
NVRM version: NVIDIA UNIX Open Kernel Module for x86_64 560.35.05 Release Build (dvs-builder@U16-I3-C06-4-3) Wed Oct 30 01:39:34 UTC 2024
GCC version: gcc version 8.5.0 20210514 (Red Hat 8.5.0-20) (GCC)

±----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 10073 G /usr/libexec/Xorg 4MiB |
| 1 N/A N/A 10073 G /usr/libexec/Xorg 4MiB |
±----------------------------------------------------------------------------------------+

Kubectl get pods returns the following list:

NAME gpu-feature-discovery-5jv8p gpu-feature-discovery-97clf gpu-feature-discovery-bjwpk gpu-feature-discovery-fmgl5 gpu-feature-discovery-lnrc7 gpu-feature-discovery-rcnrf gpu-feature-discovery-v9mf7 gpu-feature-discovery-z8p55 gpu-feature-discovery-zdzsq gpu-operator-74f857bc49-kmv4t gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco gpu-operator-node-feature-disco nvidia-dcgm-exporter-lr9bt nvidia-dcgm-exporter-q2546 nvidia-dcgm-exporter-s2wnq nvidia-dcgm-exporter-sdgdl nvidia-dcgm-exporter-tllzq nvidia-dcgm-exporter-tx9k8 nvidia-dcgm-exporter-vc2mt nvidia-dcgm-exporter-wdfmv nvidia-dcgm-exporter-xnpv2 nvidia-device-plugin-daemonset-4vhhd nvidia-device-plugin-daemonset-bxnqn nvidia-device-plugin-daemonset-cpwdg nvidia-device-plugin-daemonset-ct9tf nvidia-device-plugin-daemonset-jck5z nvidia-device-plugin-daemonset-jl4p8 nvidia-device-plugin-daemonset-t9zdm nvidia-device-plugin-daemonset-v6jlr nvidia-device-plugin-daemonset-z6l5k nvidia-operator-validator-4788k nvidia-operator-validator-8gcdg nvidia-operator-validator-jdntk nvidia-operator-validator-knzn5 nvidia-operator-validator-n8fw4 nvidia-operator-validator-nfhwc nvidia-operator-validator-qjq8b nvidia-operator-validator-rgd5d nvidia-operator-validator-zhr6l READY STATUS RESTARTS AGE
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 1 3h29m
0/1 Init:0/1 0 3h29m
1/1 Running 0 3h30m
very-gc-74dd579c7f-hznrm 1/1 Running 0 3h30m
very-master-5645495d9c-4tgpg 1/1 Running 0 3h30m
very-worker-85vtp 1/1 Running 1 (3h24m ago) 3h30m
very-worker-9bnld 1/1 Running 0 3h30m
very-worker-9qw68 1/1 Running 0 3h30m
very-worker-hhj49 1/1 Running 0 3h30m
very-worker-jpgb6 1/1 Running 0 3h30m
very-worker-lgr6v 1/1 Running 0 3h30m
very-worker-lxdz7 1/1 Running 0 3h30m
very-worker-tnq6w 1/1 Running 0 3h30m
very-worker-zrz92 1/1 Running 0 3h30m
0/1 Init:0/1 1 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 1 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:0/1 0 3h29m
0/1 Init:CrashLoopBackOff 45 (4m44s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (3m58s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (3m27s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (5m10s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (4m28s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (4m28s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (3m6s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (4m10s ago) 3h29m
0/1 Init:CrashLoopBackOff 45 (4m15s ago) 3h29m

The daemonset pod logs are returning:

“waiting for nvidia container stack to be setup”

We installed GPU operator once and it was working. Our server rack had a power outage and now we can’t get the pods back up .. this is my first time debugging this issue so i’m not really sure what to check. Where should i start?

Topic		Replies	Views
GPU operator deployment fails with nvidia-driver-daemonset pod crached Linux vmware-solutions , esxi	7	2096	September 30, 2025
Network operator in RKE2 cluster for GPUDirect Workloads RDMA Software For GPU	9	1019	June 29, 2023
NVIDIA GPU Operator: Simplifying GPU Management in Kubernetes Technical Blog	0	522	August 25, 2020
GPU Operator helm chat deployment issues NVIDIA NeMo containers	3	74	November 10, 2025
NVIDIA GPU driver installation failure - (nvidia-driver-daemonset) openshift/NVIDIA GPU Operator NGC GPU Cloud kernel , driver	0	1406	October 7, 2021
Completely purge and reinstall nvidia gpu operator TAO Toolkit	41	6919	September 5, 2023
GPU Operator Validator Pods Are Failing Docker and NVIDIA Docker kubernetes	4	2297	September 2, 2022
Verifying Kata Manager, Confidential Computing Manager, and VFIO Manager FAILED Confidential Computing	0	353	January 5, 2024
Failed to create pod sandbox: rpc error: code = Unknown desc = failed to get sandbox runtime: no runtime for "nvidia" is configured Docker and NVIDIA Docker	2	2006	July 8, 2024
vGPU pods stuck after the installation General Discussion kubernetes	0	308	September 27, 2024

RKE2 NVIDIA GPU Operator Failure

Related topics