feat(config): add 'reasoning_effort' parameter to GPT-5 model configurations across multiple files

yichieh-lu · yichieh-lu · commit cd90c30be6af · 2025-08-08T18:56:24.000+08:00
diff --git a/deployment/kustomizations/base/cm.yaml b/deployment/kustomizations/base/cm.yaml
@@ -81,18 +81,21 @@ data:
         max_completion_tokens: 4096
         n: 1
         seed: 0
+        reasoning_effort: minimal
     - model: gpt-5-mini-2025-08-07
       context_window_size: 380000
       kwargs:
         max_completion_tokens: 4096
         n: 1
         seed: 0
+        reasoning_effort: minimal
     - model: gpt-5-2025-08-07
       context_window_size: 380000
       kwargs:
         max_completion_tokens: 4096
         n: 1
         seed: 0
+        reasoning_effort: minimal
     ---
     type: embedder
     provider: litellm_embedder
diff --git a/docker/config.example.yaml b/docker/config.example.yaml
@@ -30,19 +30,21 @@ models:
       max_completion_tokens: 4096
       n: 1
       seed: 0
+      reasoning_effort: minimal
   - model: gpt-5-mini-2025-08-07
     context_window_size: 380000
     kwargs:
       max_completion_tokens: 4096
       n: 1
       seed: 0
+      reasoning_effort: minimal
   - model: gpt-5-2025-08-07
     context_window_size: 380000
     kwargs:
       max_completion_tokens: 4096
       n: 1
       seed: 0
-
+      reasoning_effort: minimal
 ---
 type: embedder
 provider: litellm_embedder
diff --git a/wren-ai-service/src/providers/llm/litellm.py b/wren-ai-service/src/providers/llm/litellm.py
@@ -7,7 +7,8 @@
     _convert_message_to_openai_format,
 )
 from haystack.dataclasses import ChatMessage, StreamingChunk
-from litellm import Router, acompletion
+from litellm import acompletion
+from litellm.router import Router
 
 from src.core.provider import LLMProvider
 from src.providers.llm import (
@@ -99,11 +100,16 @@ async def _run(
                 **(generation_kwargs or {}),
             }
 
+            allowed_params = (
+                ["reasoning_effort"] if self._model.startswith("gpt-5") else None
+            )
+
             if self._has_fallbacks:
                 completion = await self._router.acompletion(
                     model=self._model,
                     messages=openai_formatted_messages,
                     stream=streaming_callback is not None,
+                    allowed_openai_params=allowed_params,
                     mock_testing_fallbacks=self._enable_fallback_testing,
                     **generation_kwargs,
                 )
@@ -116,6 +122,7 @@ async def _run(
                     timeout=self._timeout,
                     messages=openai_formatted_messages,
                     stream=streaming_callback is not None,
+                    allowed_openai_params=allowed_params,
                     **generation_kwargs,
                 )
 
diff --git a/wren-ai-service/tools/config/config.example.yaml b/wren-ai-service/tools/config/config.example.yaml
@@ -30,19 +30,21 @@ models:
       max_completion_tokens: 4096
       n: 1
       seed: 0
+      reasoning_effort: minimal
   - model: gpt-5-mini-2025-08-07
     context_window_size: 380000
     kwargs:
       max_completion_tokens: 4096
       n: 1
       seed: 0
+      reasoning_effort: minimal
   - model: gpt-5-2025-08-07
     context_window_size: 380000
     kwargs:
       max_completion_tokens: 4096
       n: 1
       seed: 0
-
+      reasoning_effort: minimal
 ---
 type: embedder
 provider: litellm_embedder
diff --git a/wren-ai-service/tools/config/config.full.yaml b/wren-ai-service/tools/config/config.full.yaml
@@ -30,19 +30,21 @@ models:
       max_completion_tokens: 4096
       n: 1
       seed: 0
+      reasoning_effort: minimal
   - model: gpt-5-mini-2025-08-07
     context_window_size: 380000
     kwargs:
       max_completion_tokens: 4096
       n: 1
       seed: 0
+      reasoning_effort: minimal
   - model: gpt-5-2025-08-07
     context_window_size: 380000
     kwargs:
       max_completion_tokens: 4096
       n: 1
       seed: 0
-
+      reasoning_effort: minimal
 ---
 type: embedder
 provider: litellm_embedder