Wire workload preemption into pod group cycle

Argh4k · Argh4k · commit b16287aac8cd · 2026-03-11T13:27:41.000Z
diff --git a/pkg/scheduler/schedule_one_podgroup.go b/pkg/scheduler/schedule_one_podgroup.go
@@ -25,12 +25,16 @@ import (
 
 	v1 "k8s.io/api/core/v1"
 	utilruntime "k8s.io/apimachinery/pkg/util/runtime"
+	"k8s.io/apimachinery/pkg/util/sets"
 	utilfeature "k8s.io/apiserver/pkg/util/feature"
 	corev1helpers "k8s.io/component-helpers/scheduling/corev1"
 	"k8s.io/klog/v2"
+	extenderv1 "k8s.io/kube-scheduler/extender/v1"
 	fwk "k8s.io/kube-scheduler/framework"
 	"k8s.io/kubernetes/pkg/features"
 	"k8s.io/kubernetes/pkg/scheduler/framework"
+	"k8s.io/kubernetes/pkg/scheduler/framework/plugins/names"
+	"k8s.io/kubernetes/pkg/scheduler/framework/preemption"
 	"k8s.io/kubernetes/pkg/scheduler/metrics"
 	"k8s.io/utils/ptr"
 )
@@ -217,13 +221,63 @@ func (sched *Scheduler) podGroupCycle(ctx context.Context, schedFwk framework.Fr
 		return
 	}
 
-	result := sched.podGroupSchedulingAlgorithm(podGroupCycleCtx, schedFwk, podGroupInfo)
+	postFilterMode := runAllPostFilter
+	if utilfeature.DefaultFeatureGate.Enabled(features.WorkloadAwarePreemption) {
+		postFilterMode = runWithoutDefaultPreemption
+	}
+
+	result := sched.podGroupSchedulingDefaultAlgorithm(podGroupCycleCtx, schedFwk, podGroupInfo, postFilterMode)
 	metrics.PodGroupSchedulingAlgorithmLatency.Observe(metrics.SinceInSeconds(start))
 
+	// Run workload aware preemption if required. If the preemption is successful,
+	// we need to put the victims back into the queue.
+	if result.status == podGroupRequiresWorkloadAwarePreemption {
+		status := sched.workloadAwarePreemption(podGroupCycleCtx, result, schedFwk, podGroupInfo)
+		if status.IsSuccess() {
+			result.status = podGroupWaitingOnPreemption
+		} else {
+			result.status = podGroupUnschedulable
+		}
+	}
+
 	// submitPodGroupAlgorithmResult can dispatch binding goroutines, so should be called with the noncancelable ctx.
 	sched.submitPodGroupAlgorithmResult(ctx, schedFwk, podGroupInfo, result, start)
 }
 
+func (sched *Scheduler) workloadAwarePreemption(ctx context.Context, schedRes podGroupAlgorithmResult, schedFwk framework.Framework, podGroupInfo *framework.QueuedPodGroupInfo) *fwk.Status {
+	revertFn := sched.nodeInfoSnapshot.SaveSnapshot()
+	defer revertFn()
+	executor := preemption.NewWorkloadEvaluator(fmt.Sprintf("%s-preeemption", podGroupInfo.GetName()), schedFwk, func(ctx context.Context) *fwk.Status {
+		res := sched.podGroupSchedulingDefaultAlgorithm(ctx, schedFwk, podGroupInfo, runWithoutPostFilter)
+		if res.status == podGroupFeasible {
+			return fwk.NewStatus(fwk.Success)
+		}
+		return fwk.NewStatus(fwk.Unschedulable, "pod group is not schedulable")
+	})
+
+	cycleStates := make([]fwk.CycleState, len(schedRes.podResults))
+	for i, podResult := range schedRes.podResults {
+		cycleStates[i] = podResult.podCtx.state
+	}
+
+	pg, err := schedFwk.SharedInformerFactory().Scheduling().V1alpha2().PodGroups().Lister().PodGroups(podGroupInfo.Namespace).Get(podGroupInfo.Name)
+	if err != nil {
+		return fwk.AsStatus(fmt.Errorf("failed to get pod group %s/%s", podGroupInfo.Namespace, podGroupInfo.Name))
+	}
+
+	status, victims := executor.Preempt(ctx, pg, cycleStates, podGroupInfo.UnscheduledPods)
+
+	if !status.IsSuccess() {
+		return status
+	}
+
+	v := &extenderv1.Victims{
+		Pods: victims,
+	}
+
+	return schedFwk.PreemptionExecutor().ActuatePodGroupPreemption(ctx, v, podGroupInfo.UnscheduledPods, pg, "workload-preemption")
+}
+
 // algorithmResult stores the scheduling result and status for a scheduling attempt of a single pod.
 type algorithmResult struct {
 	// scheduleResult is a scheduling algorithm result.
@@ -257,6 +311,24 @@ const (
 	// waiting for resources to be released.
 	// Should be set when the pod group would be feasible, but any member pod requires preemption.
 	podGroupWaitingOnPreemption podGroupAlgorithmStatus = "waiting_on_preemption"
+	// podGroupRequiresWorkloadAwarePreemption means that the pod group requires workload aware preemption
+	// Should be set when the pod group is not feasible, but workload aware preemption is enabled.
+	podGroupRequiresWorkloadAwarePreemption podGroupAlgorithmStatus = "requires_workload_aware_preemption"
+)
+
+type podGroupPostFilterMode int
+
+const (
+	// The pod group algorithm should try to run default post filter in pod by pod cycle.
+	runAllPostFilter podGroupPostFilterMode = iota
+	// The pod group algorithm should not try post filter at all. This is can be used
+	// by workload aware preemption that tries to check if after removing some
+	// pods the pod group can be scheduled.
+	runWithoutPostFilter
+	// The pod group algorithm should run post filter without running default
+	// preemption. This mode is expected when workload aware preemption
+	// is enabled.
+	runWithoutDefaultPreemption
 )
 
 // podGroupAlgorithmResult stores the scheduling pod scheduling results for a pod group
@@ -272,7 +344,7 @@ type podGroupAlgorithmResult struct {
 // It tries to schedule each pod using standard filtering and scoring logic in a fixed order.
 // If a pod requires preemption to be schedulable, subsequent pods in the algorithm
 // treat that pod as already scheduled on that node with victims being already removed in memory.
-func (sched *Scheduler) podGroupSchedulingDefaultAlgorithm(ctx context.Context, schedFwk framework.Framework, podGroupInfo *framework.QueuedPodGroupInfo) podGroupAlgorithmResult {
+func (sched *Scheduler) podGroupSchedulingDefaultAlgorithm(ctx context.Context, schedFwk framework.Framework, podGroupInfo *framework.QueuedPodGroupInfo, postFilterMode podGroupPostFilterMode) podGroupAlgorithmResult {
 	result := podGroupAlgorithmResult{
 		podResults: make([]algorithmResult, 0, len(podGroupInfo.QueuedPodInfos)),
 		status:     podGroupUnschedulable,
@@ -283,7 +355,7 @@ func (sched *Scheduler) podGroupSchedulingDefaultAlgorithm(ctx context.Context,
 
 	requiresPreemption := false
 	for _, podInfo := range podGroupInfo.QueuedPodInfos {
-		podResult, revertFn := sched.podGroupPodSchedulingAlgorithm(ctx, schedFwk, podGroupInfo, podInfo)
+		podResult, revertFn := sched.podGroupPodSchedulingAlgorithm(ctx, schedFwk, podGroupInfo, podInfo, postFilterMode)
 		result.podResults = append(result.podResults, podResult)
 		if !podResult.status.IsSuccess() && !podResult.requiresPreemption {
 			// When a pod is not feasible and doesn't require preemption, it means that it failed scheduling.
@@ -306,12 +378,17 @@ func (sched *Scheduler) podGroupSchedulingDefaultAlgorithm(ctx context.Context,
 		}
 	}
 
+	// If the pod group is unschedulable and workload aware preemption is enabled, we need to run workload aware preemption.
+	if result.status == podGroupUnschedulable && utilfeature.DefaultFeatureGate.Enabled(features.WorkloadAwarePreemption) {
+		result.status = podGroupRequiresWorkloadAwarePreemption
+	}
+
 	return result
 }
 
 // podGroupPodSchedulingAlgorithm runs a scheduling algorithm for individual pod from a pod group.
 // It returns the algorithm result and, if successful or the preemption is required, the permit status together with the revert function.
-func (sched *Scheduler) podGroupPodSchedulingAlgorithm(ctx context.Context, schedFwk framework.Framework, podGroupInfo *framework.QueuedPodGroupInfo, podInfo *framework.QueuedPodInfo) (algorithmResult, func()) {
+func (sched *Scheduler) podGroupPodSchedulingAlgorithm(ctx context.Context, schedFwk framework.Framework, podGroupInfo *framework.QueuedPodGroupInfo, podInfo *framework.QueuedPodInfo, postFilterMode podGroupPostFilterMode) (algorithmResult, func()) {
 	pod := podInfo.Pod
 	podCtx := sched.initPodSchedulingContext(ctx, pod)
 	logger := podCtx.logger
@@ -320,6 +397,17 @@ func (sched *Scheduler) podGroupPodSchedulingAlgorithm(ctx context.Context, sche
 
 	logger.V(4).Info("Attempting to schedule a pod belonging to a pod group", "podGroup", klog.KObj(podGroupInfo), "pod", klog.KObj(pod))
 
+	switch postFilterMode {
+	case runWithoutPostFilter:
+		podCtx.state.SetSkipAllPostFilterPlugins(true)
+	case runWithoutDefaultPreemption:
+		skipPostFilterPlugins := podCtx.state.GetSkipPostFilterPlugins()
+		if skipPostFilterPlugins == nil {
+			skipPostFilterPlugins = sets.Set[string]{}
+		}
+		podCtx.state.SetSkipPostFilterPlugins(skipPostFilterPlugins.Insert(names.DefaultPreemption))
+	}
+
 	requiresPreemption := false
 	scheduleResult, status := sched.schedulingAlgorithm(ctx, podCtx.state, schedFwk, podInfo, start)
 	if !status.IsSuccess() {
@@ -505,7 +593,7 @@ func (sched *Scheduler) podGroupSchedulingPlacementAlgorithm(ctx context.Context
 		if err != nil {
 			return sched.podGroupAlgorithmFailure(ctx, podGroupInfo, fwk.AsStatus(err))
 		}
-		result := sched.podGroupSchedulingDefaultAlgorithm(ctx, schedFwk, podGroupInfo)
+		result := sched.podGroupSchedulingDefaultAlgorithm(ctx, schedFwk, podGroupInfo, runAllPostFilter)
 		sched.nodeInfoSnapshot.ForgetPlacement()
 
 		results[i] = placementResult{
@@ -543,10 +631,10 @@ func (sched *Scheduler) podGroupAlgorithmFailure(ctx context.Context, podGroupIn
 }
 
 // podGroupSchedulingAlgorithm attempts to schedule pods in the pod group according to the policy and constraints and returns the scheduling result for each pod in the pod group.
-func (sched *Scheduler) podGroupSchedulingAlgorithm(ctx context.Context, schedFwk framework.Framework, podGroupInfo *framework.QueuedPodGroupInfo) podGroupAlgorithmResult {
+func (sched *Scheduler) podGroupSchedulingAlgorithm(ctx context.Context, schedFwk framework.Framework, podGroupInfo *framework.QueuedPodGroupInfo, postFilterMode podGroupPostFilterMode) podGroupAlgorithmResult {
 	if utilfeature.DefaultFeatureGate.Enabled(features.TopologyAwareWorkloadScheduling) {
 		return sched.podGroupSchedulingPlacementAlgorithm(ctx, schedFwk, podGroupInfo)
 	} else {
-		return sched.podGroupSchedulingDefaultAlgorithm(ctx, schedFwk, podGroupInfo)
+		return sched.podGroupSchedulingDefaultAlgorithm(ctx, schedFwk, podGroupInfo, postFilterMode)
 	}
 }
diff --git a/pkg/scheduler/schedule_one_podgroup_test.go b/pkg/scheduler/schedule_one_podgroup_test.go
@@ -408,12 +408,13 @@ func TestPodGroupSchedulingAlgorithm(t *testing.T) {
 	}
 
 	tests := []struct {
-		name                string
-		plugin              *fakePodGroupPlugin
-		expectedGroupStatus podGroupAlgorithmStatus
-		expectedPodStatus   map[string]*fwk.Status
-		expectedPreemption  map[string]bool
-		skipForTAS          bool
+		name                       string
+		plugin                     *fakePodGroupPlugin
+		expectedGroupStatus        podGroupAlgorithmStatus
+		expectedPodStatus          map[string]*fwk.Status
+		expectedPreemption         map[string]bool
+		useWorkloadAwarePreemption bool
+		skipForTAS                 bool
 	}{
 		{
 			name: "All pods feasible",
@@ -680,6 +681,35 @@ func TestPodGroupSchedulingAlgorithm(t *testing.T) {
 				"p3": fwk.NewStatus(fwk.Unschedulable),
 			},
 		},
+		{
+			name: "One pod require preemption, returning wait on preemption for workload aware preemption",
+			plugin: &fakePodGroupPlugin{
+				filterStatus: map[string]*fwk.Status{
+					"p1": fwk.NewStatus(fwk.Unschedulable),
+					"p2": nil,
+					"p3": nil,
+				},
+				// This should be returned by postfilter plugins if we exclude preemption from it
+				postFilterStatus: map[string]*fwk.Status{
+					"p1": fwk.NewStatus(fwk.Unschedulable),
+				},
+				postFilterResult: map[string]*fwk.PostFilterResult{
+					"p1": nil,
+				},
+				permitStatus: map[string]*fwk.Status{
+					"p2": fwk.NewStatus(fwk.Wait),
+					"p3": fwk.NewStatus(fwk.Wait),
+				},
+			},
+			expectedGroupStatus: podGroupRequiresWorkloadAwarePreemption,
+			expectedPodStatus: map[string]*fwk.Status{
+				"p1": fwk.NewStatus(fwk.Unschedulable),
+				"p2": nil,
+				"p3": nil,
+			},
+			useWorkloadAwarePreemption: true,
+			skipForTAS:                 true,
+		},
 	}
 
 	for _, tasEnabled := range []bool{true, false} {
@@ -744,7 +774,17 @@ func TestPodGroupSchedulingAlgorithm(t *testing.T) {
 					t.Fatalf("Failed to update snapshot: %v", err)
 				}
 
-				result := sched.podGroupSchedulingAlgorithm(ctx, schedFwk, pgInfo)
+				postFilterMode := runAllPostFilter
+				if tt.useWorkloadAwarePreemption {
+					postFilterMode = runWithoutDefaultPreemption
+					featuregatetesting.SetFeatureGatesDuringTest(t, utilfeature.DefaultFeatureGate, featuregatetesting.FeatureOverrides{
+						features.GenericWorkload:         true,
+						features.GangScheduling:          true,
+						features.WorkloadAwarePreemption: true,
+					})
+				}
+
+				result := sched.podGroupSchedulingAlgorithm(ctx, schedFwk, pgInfo, postFilterMode)
 
 				if result.status != tt.expectedGroupStatus {
 					t.Errorf("Expected group status: %v, got: %v", tt.expectedGroupStatus, result.status)
diff --git a/test/integration/scheduler/podgroup/podgroup_test.go b/test/integration/scheduler/podgroup/podgroup_test.go
@@ -73,6 +73,15 @@ func TestPodGroupScheduling(t *testing.T) {
 	lowPriorityBlockerPod := st.MakePod().Name("low-priority-blocker").Req(map[v1.ResourceName]string{v1.ResourceCPU: "2"}).Container("image").
 		ZeroTerminationGracePeriod().Priority(10).Obj()
 
+	lowP1 := st.MakePod().Name("low-p1").Req(map[v1.ResourceName]string{v1.ResourceCPU: "1"}).Container("image").
+		ZeroTerminationGracePeriod().Priority(10).Obj()
+	lowP2 := st.MakePod().Name("low-p2").Req(map[v1.ResourceName]string{v1.ResourceCPU: "1"}).Container("image").
+		ZeroTerminationGracePeriod().Priority(10).Obj()
+	lowP3 := st.MakePod().Name("low-p3").Req(map[v1.ResourceName]string{v1.ResourceCPU: "1"}).Container("image").
+		ZeroTerminationGracePeriod().Priority(10).Obj()
+	lowP4 := st.MakePod().Name("low-p4").Req(map[v1.ResourceName]string{v1.ResourceCPU: "1"}).Container("image").
+		ZeroTerminationGracePeriod().Priority(10).Obj()
+
 	otherP1 := st.MakePod().Name("other-p1").Req(map[v1.ResourceName]string{v1.ResourceCPU: "1"}).Container("image").
 		PodGroupName("pg2").Priority(100).Obj()
 	otherP2 := st.MakePod().Name("other-p2").Req(map[v1.ResourceName]string{v1.ResourceCPU: "1"}).Container("image").
@@ -95,12 +104,14 @@ func TestPodGroupScheduling(t *testing.T) {
 		waitForPodsGatedOnPreEnqueue []string
 		waitForPodsUnschedulable     []string
 		waitForPodsScheduled         []string
+		waitForPodsRemoved           []string
 		waitForAnyPodsScheduled      *waitForAnyPodsScheduled
 	}
 
 	tests := []struct {
-		name  string
-		steps []step
+		name                          string
+		enableWorkloadAwarePreemption bool
+		steps                         []step
 	}{
 		{
 			name: "gang schedules when pod group and resources are available",
@@ -384,13 +395,44 @@ func TestPodGroupScheduling(t *testing.T) {
 				},
 			},
 		},
+		{
+			name:                          "gang schedules with workload-aware preemption",
+			enableWorkloadAwarePreemption: true,
+			steps: []step{
+				{
+					name:       "Create low priority pods that take up all node resources",
+					createPods: []*v1.Pod{lowP1, lowP2, lowP3, lowP4},
+				},
+				{
+					name:                 "Wait for all low priority pods to be scheduled",
+					waitForPodsScheduled: []string{"low-p1", "low-p2", "low-p3", "low-p4"},
+				},
+				{
+					name:           "Create the Workload object",
+					createPodGroup: gangPodGroup,
+				},
+				{
+					name:       "Create high priority gang pods",
+					createPods: []*v1.Pod{p1, p2, p3, p4},
+				},
+				{
+					name:                 "Verify all gang pods are scheduled successfully (after workload-aware preemption)",
+					waitForPodsScheduled: []string{"p1", "p2", "p3", "p4"},
+				},
+				{
+					name:               "Verify preemption victims were removed",
+					waitForPodsRemoved: []string{"low-p1", "low-p2", "low-p3", "low-p4"},
+				},
+			},
+		},
 	}
 
 	for _, tt := range tests {
 		t.Run(tt.name, func(t *testing.T) {
 			featuregatetesting.SetFeatureGatesDuringTest(t, utilfeature.DefaultFeatureGate, featuregatetesting.FeatureOverrides{
-				features.GenericWorkload: true,
-				features.GangScheduling:  true,
+				features.GenericWorkload:         true,
+				features.GangScheduling:          true,
+				features.WorkloadAwarePreemption: tt.enableWorkloadAwarePreemption,
 			})
 
 			podgroupmanager.DefaultSchedulingTimeoutDuration = 5 * time.Second
@@ -473,6 +515,14 @@ func TestPodGroupScheduling(t *testing.T) {
 							t.Fatalf("Step %d: Failed to wait for pod %s to be scheduled: %v", i, podName, err)
 						}
 					}
+				case step.waitForPodsRemoved != nil:
+					for _, podName := range step.waitForPodsRemoved {
+						err := wait.PollUntilContextTimeout(testCtx.Ctx, 100*time.Millisecond, wait.ForeverTestTimeout, false,
+							testutils.PodDeleted(testCtx.Ctx, cs, ns, podName))
+						if err != nil {
+							t.Fatalf("Step %d: Failed to wait for pod %s to be removed: %v", i, podName, err)
+						}
+					}
 				case step.waitForAnyPodsScheduled != nil:
 					err := wait.PollUntilContextTimeout(testCtx.Ctx, 100*time.Millisecond, wait.ForeverTestTimeout, false,
 						func(ctx context.Context) (bool, error) {