Fix offload-strategy parameter passing to CUDA backend

- Add offload_strategy to kwargs in _load_default_model and _load_model_by_name - Fix parameter name: ram -> manual_ram_gb to match backend expectation - Also pass load_in_4bit, load_in_8bit, and max_gpu_percent

Fix offload-strategy parameter passing to CUDA backend
- Add offload_strategy to kwargs in _load_default_model and _load_model_by_name - Fix parameter name: ram -> manual_ram_gb to match backend expectation - Also pass load_in_4bit, load_in_8bit, and max_gpu_percent
bf1d3f52 · Your Name · beded066 · bf1d3f52
Commit bf1d3f52 authored Mar 20, 2026 by Your Name
Hide whitespace changes
Inline Side-by-side

Showing with 18 additions and 2 deletions

manager.py codai/models/manager.py +18 -2

No files found.
--- a/codai/models/manager.py
+++ b/codai/models/manager.py
@@ -527,11 +527,19 @@ class MultiModelManager:
                if hasattr(global_args, 'offload_dir'):
                    kwargs['offload_dir'] = global_args.offload_dir
                if hasattr(global_args, 'ram'):
-                    kwargs['ram'] = global_args.ram
+                    kwargs['manual_ram_gb'] = global_args.ram
                if hasattr(global_args, 'flash_attn'):
                    kwargs['flash_attn'] = global_args.flash_attn
                if hasattr(global_args, 'no_ram'):
                    kwargs['no_ram'] = global_args.no_ram
+                if hasattr(global_args, 'offload_strategy'):
+                    kwargs['offload_strategy'] = global_args.offload_strategy
+                if hasattr(global_args, 'load_in_4bit'):
+                    kwargs['load_in_4bit'] = global_args.load_in_4bit
+                if hasattr(global_args, 'load_in_8bit'):
+                    kwargs['load_in_8bit'] = global_args.load_in_8bit
+                if hasattr(global_args, 'max_gpu_percent'):
+                    kwargs['max_gpu_percent'] = global_args.max_gpu_percent
            print(f"Loading default model on demand: {self.default_model}")
            model_manager.load_model(self.default_model, backend_type=backend_type, **kwargs)
@@ -578,11 +586,19 @@ class MultiModelManager:
                if hasattr(global_args, 'offload_dir'):
                    kwargs['offload_dir'] = global_args.offload_dir
                if hasattr(global_args, 'ram'):
-                    kwargs['ram'] = global_args.ram
+                    kwargs['manual_ram_gb'] = global_args.ram
                if hasattr(global_args, 'flash_attn'):
                    kwargs['flash_attn'] = global_args.flash_attn
                if hasattr(global_args, 'no_ram'):
                    kwargs['no_ram'] = global_args.no_ram
+                if hasattr(global_args, 'offload_strategy'):
+                    kwargs['offload_strategy'] = global_args.offload_strategy
+                if hasattr(global_args, 'load_in_4bit'):
+                    kwargs['load_in_4bit'] = global_args.load_in_4bit
+                if hasattr(global_args, 'load_in_8bit'):
+                    kwargs['load_in_8bit'] = global_args.load_in_8bit
+                if hasattr(global_args, 'max_gpu_percent'):
+                    kwargs['max_gpu_percent'] = global_args.max_gpu_percent
            print(f"Loading model on demand: {model_name}")
            model_manager.load_model(model_name, backend_type=backend_type, **kwargs)