fix: update context size precedence to prioritize backend configuration over model configuration

ilopezluna · ilopezluna · commit 24a171010fa9 · 2026-04-08T12:40:31.000+02:00
diff --git a/pkg/inference/backends/llamacpp/llamacpp_config.go b/pkg/inference/backends/llamacpp/llamacpp_config.go
@@ -95,16 +95,16 @@ func (c *Config) GetArgs(bundle types.ModelBundle, socket string, mode inference
 }
 
 func GetContextSize(modelCfg types.ModelConfig, backendCfg *inference.BackendConfiguration) *int32 {
-	// Model config takes precedence
+	// Backend config takes precedence (runtime configuration via docker model configure / Ollama API num_ctx)
+	if backendCfg != nil && backendCfg.ContextSize != nil && (*backendCfg.ContextSize == UnlimitedContextSize || *backendCfg.ContextSize > 0) {
+		return backendCfg.ContextSize
+	}
+	// Fallback to model config (set at packaging time via docker model package --context-size)
 	if modelCfg != nil {
 		if ctxSize := modelCfg.GetContextSize(); ctxSize != nil && (*ctxSize == UnlimitedContextSize || *ctxSize > 0) {
 			return ctxSize
 		}
 	}
-	// Fallback to backend config
-	if backendCfg != nil && backendCfg.ContextSize != nil && (*backendCfg.ContextSize == UnlimitedContextSize || *backendCfg.ContextSize > 0) {
-		return backendCfg.ContextSize
-	}
 	return nil
 }
 
diff --git a/pkg/inference/backends/llamacpp/llamacpp_config_test.go b/pkg/inference/backends/llamacpp/llamacpp_config_test.go
@@ -191,7 +191,7 @@ func TestGetArgs(t *testing.T) {
 			),
 		},
 		{
-			name: "context size from model config",
+			name: "backend config takes precedence over model config",
 			mode: inference.BackendModeEmbedding,
 			bundle: &fakeBundle{
 				ggufPath: modelPath,
@@ -206,7 +206,25 @@ func TestGetArgs(t *testing.T) {
 				"--model", modelPath,
 				"--host", socket,
 				"--embeddings",
-				"--ctx-size", "2096", // model config takes precedence
+				"--ctx-size", "1234", // backend config takes precedence
+				"--jinja",
+			),
+		},
+		{
+			name: "model config used when no backend config",
+			mode: inference.BackendModeEmbedding,
+			bundle: &fakeBundle{
+				ggufPath: modelPath,
+				config: &types.Config{
+					ContextSize: int32ptr(2096),
+				},
+			},
+			config: nil,
+			expected: append(slices.Clone(baseArgs),
+				"--model", modelPath,
+				"--host", socket,
+				"--embeddings",
+				"--ctx-size", "2096", // model config used as fallback
 				"--jinja",
 			),
 		},
diff --git a/pkg/inference/backends/mlx/mlx_config.go b/pkg/inference/backends/mlx/mlx_config.go
@@ -61,8 +61,8 @@ func (c *Config) GetArgs(bundle types.ModelBundle, socket string, mode inference
 	return args, nil
 }
 
-// GetMaxTokens returns the max tokens (context size) from model config or backend config.
-// Model config takes precedence over backend config.
+// GetMaxTokens returns the max tokens (context size) from backend config or model config.
+// Backend config takes precedence over model config (runtime configuration).
 // Returns nil if neither is specified (MLX will use model defaults).
 func GetMaxTokens(modelCfg types.ModelConfig, backendCfg *inference.BackendConfiguration) *uint64 {
 	return nil
diff --git a/pkg/inference/backends/sglang/sglang_config.go b/pkg/inference/backends/sglang/sglang_config.go
@@ -63,18 +63,18 @@ func (c *Config) GetArgs(bundle types.ModelBundle, socket string, mode inference
 	return args, nil
 }
 
-// GetContextLength returns the context length (context size) from model config or backend config.
-// Model config takes precedence over backend config.
+// GetContextLength returns the context length (context size) from backend config or model config.
+// Backend config takes precedence over model config (runtime configuration).
 // Returns nil if neither is specified (SGLang will auto-derive from model).
 func GetContextLength(modelCfg types.ModelConfig, backendCfg *inference.BackendConfiguration) *int32 {
-	// Model config takes precedence
-	if cs := modelCfg.GetContextSize(); cs != nil && *cs > 0 {
-		return cs
-	}
-	// Fallback to backend config
+	// Backend config takes precedence (runtime configuration via docker model configure / Ollama API num_ctx)
 	if backendCfg != nil && backendCfg.ContextSize != nil && *backendCfg.ContextSize > 0 {
 		return backendCfg.ContextSize
 	}
+	// Fallback to model config (set at packaging time via docker model package --context-size)
+	if cs := modelCfg.GetContextSize(); cs != nil && *cs > 0 {
+		return cs
+	}
 	// Return nil to let SGLang auto-derive from model config
 	return nil
 }
diff --git a/pkg/inference/backends/sglang/sglang_config_test.go b/pkg/inference/backends/sglang/sglang_config_test.go
@@ -103,7 +103,7 @@ func TestGetArgs(t *testing.T) {
 			},
 		},
 		{
-			name: "with model context size (takes precedence)",
+			name: "backend config takes precedence over model config",
 			bundle: &mockModelBundle{
 				safetensorsPath: "/path/to/model/model.safetensors",
 				runtimeConfig: &types.Config{
@@ -114,6 +114,29 @@ func TestGetArgs(t *testing.T) {
 			config: &inference.BackendConfiguration{
 				ContextSize: int32ptr(8192),
 			},
+			expected: []string{
+				"-m",
+				"sglang.launch_server",
+				"--model-path",
+				"/path/to/model",
+				"--host",
+				"127.0.0.1",
+				"--port",
+				"30000",
+				"--context-length",
+				"8192",
+			},
+		},
+		{
+			name: "model config used when no backend config",
+			bundle: &mockModelBundle{
+				safetensorsPath: "/path/to/model/model.safetensors",
+				runtimeConfig: &types.Config{
+					ContextSize: int32ptr(16384),
+				},
+			},
+			mode:   inference.BackendModeCompletion,
+			config: nil,
 			expected: []string{
 				"-m",
 				"sglang.launch_server",
@@ -225,14 +248,14 @@ func TestGetContextLength(t *testing.T) {
 			expectedValue: int32ptr(8192),
 		},
 		{
-			name: "model config takes precedence",
+			name: "backend config takes precedence",
 			modelCfg: &types.Config{
 				ContextSize: int32ptr(16384),
 			},
 			backendCfg: &inference.BackendConfiguration{
 				ContextSize: int32ptr(4096),
 			},
-			expectedValue: int32ptr(16384),
+			expectedValue: int32ptr(4096),
 		},
 		{
 			name:     "zero context size in backend config returns nil",
diff --git a/pkg/inference/backends/vllm/vllm_config.go b/pkg/inference/backends/vllm/vllm_config.go
@@ -87,20 +87,20 @@ func (c *Config) GetArgs(bundle types.ModelBundle, socket string, mode inference
 	return args, nil
 }
 
-// GetMaxModelLen returns the max model length (context size) from model config or backend config.
-// Model config takes precedence over backend config.
+// GetMaxModelLen returns the max model length (context size) from backend config or model config.
+// Backend config takes precedence over model config (runtime configuration).
 // Returns nil if neither is specified (vLLM will auto-derive from model).
 func GetMaxModelLen(modelCfg types.ModelConfig, backendCfg *inference.BackendConfiguration) *int32 {
-	// Model config takes precedence
+	// Backend config takes precedence (runtime configuration via docker model configure / Ollama API num_ctx)
+	if backendCfg != nil && backendCfg.ContextSize != nil && *backendCfg.ContextSize > 0 {
+		return backendCfg.ContextSize
+	}
+	// Fallback to model config (set at packaging time via docker model package --context-size)
 	if modelCfg != nil {
 		if ctxSize := modelCfg.GetContextSize(); ctxSize != nil {
 			return ctxSize
 		}
 	}
-	// Fallback to backend config
-	if backendCfg != nil && backendCfg.ContextSize != nil && *backendCfg.ContextSize > 0 {
-		return backendCfg.ContextSize
-	}
 	// Return nil to let vLLM auto-derive from model config
 	return nil
 }
diff --git a/pkg/inference/backends/vllm/vllm_config_test.go b/pkg/inference/backends/vllm/vllm_config_test.go
@@ -109,7 +109,7 @@ func TestGetArgs(t *testing.T) {
 			},
 		},
 		{
-			name: "with model context size (takes precedence)",
+			name: "backend config takes precedence over model config",
 			bundle: &mockModelBundle{
 				safetensorsPath: "/path/to/model",
 				runtimeConfig: &types.Config{
@@ -119,6 +119,24 @@ func TestGetArgs(t *testing.T) {
 			config: &inference.BackendConfiguration{
 				ContextSize: int32ptr(8192),
 			},
+			expected: []string{
+				"serve",
+				"/path/to",
+				"--uds",
+				"/tmp/socket",
+				"--max-model-len",
+				"8192",
+			},
+		},
+		{
+			name: "model config used when no backend config",
+			bundle: &mockModelBundle{
+				safetensorsPath: "/path/to/model",
+				runtimeConfig: &types.Config{
+					ContextSize: int32ptr(16384),
+				},
+			},
+			config: nil,
 			expected: []string{
 				"serve",
 				"/path/to",
@@ -458,14 +476,14 @@ func TestGetMaxModelLen(t *testing.T) {
 			expectedValue: int32ptr(8192),
 		},
 		{
-			name: "model config takes precedence",
+			name: "backend config takes precedence",
 			modelCfg: &types.Config{
 				ContextSize: int32ptr(16384),
 			},
 			backendCfg: &inference.BackendConfiguration{
 				ContextSize: int32ptr(4096),
 			},
-			expectedValue: int32ptr(16384),
+			expectedValue: int32ptr(4096),
 		},
 	}
 

Original file line number	Diff line number	Diff line change
`@@ -95,16 +95,16 @@ func (c *Config) GetArgs(bundle types.ModelBundle, socket string, mode inference`
`95`	`95`	`}`
`96`	`96`
`97`	`97`	`func GetContextSize(modelCfg types.ModelConfig, backendCfg inference.BackendConfiguration) int32 {`
`98`		`- // Model config takes precedence`
	`98`	`+ // Backend config takes precedence (runtime configuration via docker model configure / Ollama API num_ctx)`
	`99`	`+ if backendCfg != nil && backendCfg.ContextSize != nil && (backendCfg.ContextSize == UnlimitedContextSize \|\| backendCfg.ContextSize > 0) {`
	`100`	`+ return backendCfg.ContextSize`
	`101`	`+ }`
	`102`	`+ // Fallback to model config (set at packaging time via docker model package --context-size)`
`99`	`103`	`if modelCfg != nil {`
`100`	`104`	`if ctxSize := modelCfg.GetContextSize(); ctxSize != nil && (ctxSize == UnlimitedContextSize \|\| ctxSize > 0) {`
`101`	`105`	`return ctxSize`
`102`	`106`	`}`
`103`	`107`	`}`
`104`		`- // Fallback to backend config`
`105`		`- if backendCfg != nil && backendCfg.ContextSize != nil && (backendCfg.ContextSize == UnlimitedContextSize \|\| backendCfg.ContextSize > 0) {`
`106`		`- return backendCfg.ContextSize`
`107`		`- }`
`108`	`108`	`return nil`
`109`	`109`	`}`
`110`	`110`