Merge pull request #121 from 0FL01/feat/nim-provider-clean-v2

hydropix · web-flow · commit 728ddcfaab82 · 2026-03-28T08:41:57.000+01:00
Feat/nim provider clean
diff --git a/.env.example b/.env.example
@@ -57,6 +57,15 @@ POE_MODEL=Claude-Sonnet-4
 # Popular models: Claude-Sonnet-4, Claude-Opus-4.1, GPT-4o, Gemini-2.5-Pro, Llama-3.1-405B, Grok-4
 # Poe also provides access to millions of community-created bots
 
+# NVIDIA NIM Settings (Hosted cloud API for Llama, Mistral, and other models)
+# Get your API key at: https://build.nvidia.com/
+NIM_API_KEY=
+NIM_MODEL=meta/llama-3.1-8b-instruct
+# Available models: meta/llama-3.1-8b-instruct, meta/llama-3.1-70b-instruct,
+#                   meta/llama-3.1-405b-instruct, mistralai/mixtral-8x7b-instruct-v0.1
+# See all models at: https://build.nvidia.com/explore/discover
+# NIM_API_ENDPOINT=https://integrate.api.nvidia.com/v1/chat/completions  # Optional, default endpoint
+
 # Translation Settings
 # Source language: Auto-detected from uploaded file (uses langdetect library)
 # Target language: Auto-detected from browser language (can be changed in UI)
diff --git a/src/api/blueprints/config_routes.py b/src/api/blueprints/config_routes.py
@@ -45,6 +45,8 @@ def get_config_path():
     DEEPSEEK_API_KEY,
     DEEPSEEK_MODEL,
     POE_API_KEY,
+    NIM_API_KEY,
+    NIM_MODEL,
     POE_MODEL,
     MAX_TOKENS_PER_CHUNK,
     OUTPUT_FILENAME_PATTERN
@@ -119,6 +121,8 @@ def get_available_models():
             return _get_deepseek_models(api_key)
         elif provider == 'poe':
             return _get_poe_models(api_key)
+        elif provider == 'nim':
+            return _get_nim_models(api_key)
         elif provider == 'openai':
             # Get endpoint from request for LM Studio support
             if request.method == 'POST':
@@ -158,12 +162,14 @@ def mask_api_key(key):
             "mistral_api_key": mask_api_key(MISTRAL_API_KEY),
             "deepseek_api_key": mask_api_key(DEEPSEEK_API_KEY),
             "poe_api_key": mask_api_key(POE_API_KEY),
+            "nim_api_key": mask_api_key(NIM_API_KEY),
             "gemini_api_key_configured": bool(GEMINI_API_KEY),
             "openai_api_key_configured": bool(OPENAI_API_KEY),
             "openrouter_api_key_configured": bool(OPENROUTER_API_KEY),
             "mistral_api_key_configured": bool(MISTRAL_API_KEY),
             "deepseek_api_key_configured": bool(DEEPSEEK_API_KEY),
             "poe_api_key_configured": bool(POE_API_KEY),
+            "nim_api_key_configured": bool(NIM_API_KEY),
             "output_filename_pattern": OUTPUT_FILENAME_PATTERN
         }
 
@@ -412,6 +418,95 @@ def _get_poe_models(provided_api_key=None):
                 "error": f"Error connecting to Poe API: {str(e)}"
             })
 
+    def _get_nim_models(provided_api_key=None):
+        """Get available models from NVIDIA NIM API"""
+        from src.config import NIM_API_ENDPOINT
+
+        api_key = _resolve_api_key(provided_api_key, 'NIM_API_KEY', NIM_API_KEY)
+
+        # Use NIM_MODEL from .env, fallback to meta/llama-3.1-8b-instruct
+        default_model = NIM_MODEL if NIM_MODEL else "meta/llama-3.1-8b-instruct"
+
+        if not api_key:
+            return jsonify({
+                "models": [],
+                "model_names": [],
+                "default": default_model,
+                "status": "api_key_missing",
+                "count": 0,
+                "error": "NVIDIA NIM API key is required. Get your key at https://build.nvidia.com/"
+            })
+
+        try:
+            # Determine base URL from endpoint
+            base_url = NIM_API_ENDPOINT.replace('/chat/completions', '').rstrip('/')
+            models_url = f"{base_url}/models"
+            headers = {'Authorization': f'Bearer {api_key}'}
+
+            response = requests.get(models_url, headers=headers, timeout=10)
+
+            if response.status_code == 200:
+                data = response.json()
+                models_data = data.get('data', [])
+
+                if models_data:
+                    # Filter and format models
+                    models = []
+                    for m in models_data:
+                        model_id = m.get('id', '')
+                        # Skip embedding models and other non-chat models
+                        if 'embedding' in model_id.lower() or 'whisper' in model_id.lower():
+                            continue
+                        models.append({
+                            'id': model_id,
+                            'name': model_id,
+                            'owned_by': m.get('owned_by', 'nvidia')
+                        })
+
+                    # Sort models by name
+                    models.sort(key=lambda x: x['name'].lower())
+
+                    if models:
+                        model_ids = [m['id'] for m in models]
+                        if default_model not in model_ids and model_ids:
+                            default_model = model_ids[0]
+                        return jsonify({
+                            "models": models,
+                            "model_names": model_ids,
+                            "default": default_model,
+                            "status": "nim_connected",
+                            "count": len(models)
+                        })
+
+            # If API call failed, return empty with error
+            return jsonify({
+                "models": [],
+                "model_names": [],
+                "default": default_model,
+                "status": "nim_error",
+                "count": 0,
+                "error": f"Failed to retrieve NVIDIA NIM models (HTTP {response.status_code})"
+            })
+
+        except requests.exceptions.ConnectionError:
+            return jsonify({
+                "models": [],
+                "model_names": [],
+                "default": default_model,
+                "status": "nim_error",
+                "count": 0,
+                "error": "Could not connect to NVIDIA NIM API. Check your internet connection."
+            })
+        except Exception as e:
+            return jsonify({
+                "models": [],
+                "model_names": [],
+                "default": default_model,
+                "status": "nim_error",
+                "count": 0,
+                "error": f"Error connecting to NVIDIA NIM API: {str(e)}"
+            })
+
     def _get_openai_models(provided_api_key=None, api_endpoint=None):
         """Get available models from OpenAI-compatible API
 
@@ -777,6 +872,8 @@ def save_settings():
             'DEEPSEEK_MODEL',
             'POE_API_KEY',
             'POE_MODEL',
+            'NIM_API_KEY',
+            'NIM_MODEL',
             'DEFAULT_MODEL',
             'LLM_PROVIDER',
             'API_ENDPOINT',
@@ -830,6 +927,7 @@ def get_settings():
             "mistral_api_key_configured": bool(MISTRAL_API_KEY),
             "deepseek_api_key_configured": bool(DEEPSEEK_API_KEY),
             "poe_api_key_configured": bool(POE_API_KEY),
+            "nim_api_key_configured": bool(NIM_API_KEY),
             "default_model": DEFAULT_MODEL or "",
             "llm_provider": os.getenv('LLM_PROVIDER', 'ollama'),
             "api_endpoint": DEFAULT_OLLAMA_API_ENDPOINT or "",
diff --git a/src/api/handlers.py b/src/api/handlers.py
@@ -275,6 +275,7 @@ def _openrouter_cost_callback(cost_data):
             mistral_api_key=config.get('mistral_api_key', ''),
             deepseek_api_key=config.get('deepseek_api_key', ''),
             poe_api_key=config.get('poe_api_key', ''),
+            nim_api_key=config.get('nim_api_key', ''),
             context_window=config.get('context_window', 2048),
             auto_adjust_context=config.get('auto_adjust_context', True),
             min_chunk_size=config.get('min_chunk_size', 5),
diff --git a/src/config.py b/src/config.py
@@ -205,6 +205,10 @@
 POE_API_KEY = os.getenv('POE_API_KEY', '')
 POE_MODEL = os.getenv('POE_MODEL', 'Claude-Sonnet-4')
 POE_API_ENDPOINT = os.getenv('POE_API_ENDPOINT', 'https://api.poe.com/v1/chat/completions')
+# NVIDIA NIM configuration (hosted cloud API for Llama, Mistral, and other models)
+NIM_API_KEY = os.getenv('NIM_API_KEY', '')
+NIM_MODEL = os.getenv('NIM_MODEL', 'meta/llama-3.1-8b-instruct')
+NIM_API_ENDPOINT = os.getenv('NIM_API_ENDPOINT', 'https://integrate.api.nvidia.com/v1/chat/completions')
 
 # SRT-specific configuration
 SRT_LINES_PER_BLOCK = int(os.getenv('SRT_LINES_PER_BLOCK', '5'))
@@ -449,6 +453,7 @@ class TranslationConfig:
     mistral_api_key: str = MISTRAL_API_KEY
     deepseek_api_key: str = DEEPSEEK_API_KEY
     poe_api_key: str = POE_API_KEY
+    nim_api_key: str = NIM_API_KEY
 
     # LLM parameters
     timeout: int = REQUEST_TIMEOUT
@@ -487,6 +492,7 @@ def from_cli_args(cls, args) -> 'TranslationConfig':
             mistral_api_key=getattr(args, 'mistral_api_key', MISTRAL_API_KEY),
             deepseek_api_key=getattr(args, 'deepseek_api_key', DEEPSEEK_API_KEY),
             poe_api_key=getattr(args, 'poe_api_key', POE_API_KEY),
+            nim_api_key=getattr(args, 'nim_api_key', NIM_API_KEY),
             max_tokens_per_chunk=getattr(args, 'max_tokens_per_chunk', MAX_TOKENS_PER_CHUNK),
             soft_limit_ratio=getattr(args, 'soft_limit_ratio', SOFT_LIMIT_RATIO)
         )
@@ -515,6 +521,7 @@ def from_web_request(cls, request_data: dict) -> 'TranslationConfig':
             mistral_api_key=request_data.get('mistral_api_key', MISTRAL_API_KEY),
             deepseek_api_key=request_data.get('deepseek_api_key', DEEPSEEK_API_KEY),
             poe_api_key=request_data.get('poe_api_key', POE_API_KEY),
+            nim_api_key=request_data.get('nim_api_key', NIM_API_KEY),
             max_tokens_per_chunk=request_data.get('max_tokens_per_chunk', MAX_TOKENS_PER_CHUNK),
             soft_limit_ratio=request_data.get('soft_limit_ratio', SOFT_LIMIT_RATIO)
         )
@@ -537,6 +544,7 @@ def to_dict(self) -> dict:
             'mistral_api_key': self.mistral_api_key,
             'deepseek_api_key': self.deepseek_api_key,
             'poe_api_key': self.poe_api_key,
+            'nim_api_key': self.nim_api_key,
             'max_tokens_per_chunk': self.max_tokens_per_chunk,
             'soft_limit_ratio': self.soft_limit_ratio
         }
diff --git a/src/core/adapters/translate_file.py b/src/core/adapters/translate_file.py
@@ -42,6 +42,7 @@ async def translate_file(
     mistral_api_key: Optional[str] = None,
     deepseek_api_key: Optional[str] = None,
     poe_api_key: Optional[str] = None,
+    nim_api_key: Optional[str] = None,
     context_window: Optional[int] = None,
     auto_adjust_context: bool = True,
     min_chunk_size: int = 5,
@@ -77,6 +78,7 @@ async def translate_file(
         mistral_api_key: Mistral API key (required for mistral provider)
         deepseek_api_key: DeepSeek API key (required for deepseek provider)
         poe_api_key: Poe API key (required for poe provider)
+        nim_api_key: NVIDIA NIM API key
         context_window: Maximum context window size in tokens
         auto_adjust_context: Whether to automatically adjust context size
         min_chunk_size: Minimum chunk size for text splitting
@@ -155,6 +157,7 @@ async def translate_file(
             mistral_api_key=mistral_api_key,
             deepseek_api_key=deepseek_api_key,
             poe_api_key=poe_api_key,
+            nim_api_key=nim_api_key,
             context_window=context_window or 2048,
             auto_adjust_context=auto_adjust_context,
             min_chunk_size=min_chunk_size,
diff --git a/src/core/epub/translator.py b/src/core/epub/translator.py
@@ -47,6 +47,7 @@ async def translate_epub_file(
     mistral_api_key: Optional[str] = None,
     deepseek_api_key: Optional[str] = None,
     poe_api_key: Optional[str] = None,
+    nim_api_key: Optional[str] = None,
     context_window: int = 2048,
     auto_adjust_context: bool = True,
     min_chunk_size: int = 5,
@@ -89,6 +90,7 @@ async def translate_epub_file(
         mistral_api_key: Mistral API key
         deepseek_api_key: DeepSeek API key
         poe_api_key: Poe API key
+        nim_api_key: NVIDIA NIM API key
         context_window: Context window size for LLM
         auto_adjust_context: Auto-adjust context based on model
         min_chunk_size: Minimum chunk size
@@ -137,6 +139,7 @@ async def translate_epub_file(
         mistral_api_key=mistral_api_key,
         deepseek_api_key=deepseek_api_key,
         poe_api_key=poe_api_key,
+        nim_api_key=nim_api_key,
         cli_api_endpoint=cli_api_endpoint,
         initial_context=initial_context,
         log_callback=log_callback
@@ -344,6 +347,7 @@ def _create_llm_client(
     mistral_api_key: Optional[str],
     deepseek_api_key: Optional[str],
     poe_api_key: Optional[str],
+    nim_api_key: Optional[str],
     cli_api_endpoint: str,
     initial_context: int,
     log_callback: Optional[Callable] = None
@@ -355,6 +359,7 @@ def _create_llm_client(
         llm_provider, gemini_api_key, cli_api_endpoint, model_name,
         openai_api_key, openrouter_api_key, mistral_api_key, deepseek_api_key,
         poe_api_key=poe_api_key,
+        nim_api_key=nim_api_key,
         context_window=initial_context,
         log_callback=log_callback
     )
diff --git a/src/core/llm/factory.py b/src/core/llm/factory.py
@@ -13,7 +13,8 @@
     OPENROUTER_API_KEY, OPENROUTER_MODEL,
     MISTRAL_API_KEY, MISTRAL_MODEL, MISTRAL_API_ENDPOINT,
     DEEPSEEK_API_KEY, DEEPSEEK_MODEL, DEEPSEEK_API_ENDPOINT,
-    POE_API_KEY, POE_MODEL, POE_API_ENDPOINT
+    POE_API_KEY, POE_MODEL, POE_API_ENDPOINT,
+    NIM_API_KEY, NIM_MODEL, NIM_API_ENDPOINT
 )
 from .base import LLMProvider
 from .providers.ollama import OllamaProvider
@@ -139,5 +140,17 @@ def create_llm_provider(provider_type: str = "ollama", **kwargs) -> LLMProvider:
             model=kwargs.get("model", POE_MODEL),
             api_endpoint=POE_API_ENDPOINT
         )
+    elif provider_type.lower() == "nim":
+        api_key = kwargs.get("api_key") or kwargs.get("nim_api_key")
+        if not api_key:
+            api_key = os.getenv("NIM_API_KEY", NIM_API_KEY)
+            if not api_key:
+                raise ValueError("NVIDIA NIM provider requires an API key. Get your key at https://build.nvidia.com/")
+        return OpenAICompatibleProvider(
+            api_key=api_key,
+            model=kwargs.get("model", NIM_MODEL),
+            api_endpoint=kwargs.get("api_endpoint", NIM_API_ENDPOINT)
+        )
+
     else:
         raise ValueError(f"Unknown provider type: {provider_type}")
diff --git a/src/core/llm_client.py b/src/core/llm_client.py
@@ -170,13 +170,14 @@ def create_llm_client(llm_provider: str, gemini_api_key: Optional[str],
                       mistral_api_key: Optional[str] = None,
                       deepseek_api_key: Optional[str] = None,
                       poe_api_key: Optional[str] = None,
+                      nim_api_key: Optional[str] = None,
                       context_window: Optional[int] = None,
                       log_callback: Optional[callable] = None) -> Optional[LLMClient]:
     """
     Factory function to create LLM client based on provider or custom endpoint
 
     Args:
-        llm_provider: Provider type ('ollama', 'gemini', 'openai', 'openrouter', 'mistral', 'deepseek', or 'poe')
+        llm_provider: Provider type ('ollama', 'gemini', 'openai', 'openrouter', 'mistral', 'deepseek', or 'poe', or 'nim')
         gemini_api_key: API key for Gemini provider
         api_endpoint: API endpoint for custom Ollama instance or OpenAI-compatible API
         model_name: Model name to use
@@ -185,6 +186,7 @@ def create_llm_client(llm_provider: str, gemini_api_key: Optional[str],
         mistral_api_key: API key for Mistral provider
         deepseek_api_key: API key for DeepSeek provider
         poe_api_key: API key for Poe provider
+        nim_api_key: API key for NVIDIA NIM provider
         context_window: Context window size for the model
         log_callback: Callback function for logging
 
@@ -204,6 +206,8 @@ def create_llm_client(llm_provider: str, gemini_api_key: Optional[str],
         return LLMClient(provider_type="deepseek", model=model_name, api_key=deepseek_api_key)
     if llm_provider == "poe":
         return LLMClient(provider_type="poe", model=model_name, api_key=poe_api_key)
+    if llm_provider == "nim":
+        return LLMClient(provider_type="nim", model=model_name, api_key=nim_api_key)
     if llm_provider == "ollama":
         # Always create a new client for Ollama to ensure proper configuration
         return LLMClient(provider_type="ollama", api_endpoint=api_endpoint, model=model_name,
diff --git a/src/web/static/img/providers/nvidia.png b/src/web/static/img/providers/nvidia.png
@@ -0,0 +1 @@
+<svg fill="#76B900" role="img" viewBox="0 0 24 24" xmlns="http://www.w3.org/2000/svg"><title>NVIDIA</title><path d="M8.948 8.798v-1.43a6.7 6.7 0 0 1 .424-.018c3.922-.124 6.493 3.374 6.493 3.374s-2.774 3.851-5.75 3.851c-.398 0-.787-.062-1.158-.185v-4.346c1.528.185 1.837.857 2.747 2.385l2.04-1.714s-1.492-1.952-4-1.952a6.016 6.016 0 0 0-.796.035m0-4.735v2.138l.424-.027c5.45-.185 9.01 4.47 9.01 4.47s-4.08 4.964-8.33 4.964c-.37 0-.733-.035-1.095-.097v1.325c.3.035.61.062.91.062 3.957 0 6.82-2.023 9.593-4.408.459.371 2.34 1.263 2.73 1.652-2.633 2.208-8.772 3.984-12.253 3.984-.335 0-.653-.018-.971-.053v1.864H24V4.063zm0 10.326v1.131c-3.657-.654-4.673-4.46-4.673-4.46s1.758-1.944 4.673-2.262v1.237H8.94c-1.528-.186-2.73 1.245-2.73 1.245s.68 2.412 2.739 3.11M2.456 10.9s2.164-3.197 6.5-3.533V6.201C4.153 6.59 0 10.653 0 10.653s2.35 6.802 8.948 7.42v-1.237c-4.84-.6-6.492-5.936-6.492-5.936z"/></svg>
diff --git a/src/web/static/js/providers/provider-manager.js b/src/web/static/js/providers/provider-manager.js
@@ -26,7 +26,8 @@ const PROVIDER_LOGOS = {
     mistral: '/static/img/providers/mistral.png',
     gemini: '/static/img/providers/gemini.png',
     openai: '/static/img/providers/openai.png',
-    openrouter: '/static/img/providers/openrouter.png'
+    openrouter: '/static/img/providers/openrouter.png',
+    nim: '/static/img/providers/nvidia.png'
 };
 
 /**
@@ -39,7 +40,8 @@ const PROVIDER_META = {
     mistral: { name: 'Mistral', description: 'Cloud API' },
     gemini: { name: 'Gemini', description: 'Cloud' },
     openai: { name: 'OpenAI', description: 'Compatible' },
-    openrouter: { name: 'OpenRouter', description: '200+ models' }
+    openrouter: { name: 'OpenRouter', description: '200+ models' },
+    nim: { name: 'NVIDIA NIM', description: 'Cloud API' }
 };
 
 /**
@@ -141,6 +143,23 @@ const POE_FALLBACK_MODELS = [
     { value: 'exa-search', label: 'Exa Search', group: 'Poe Bots' }
 ];
 
+/**
+ * Fallback NVIDIA NIM models list (used when API fetch fails)
+ * See all models at: https://build.nvidia.com/explore/discover
+ */
+const NIM_FALLBACK_MODELS = [
+    { value: 'meta/llama-3.1-8b-instruct', label: 'Llama 3.1 8B Instruct (128k ctx)' },
+    { value: 'meta/llama-3.1-70b-instruct', label: 'Llama 3.1 70B Instruct (128k ctx)' },
+    { value: 'meta/llama-3.1-405b-instruct', label: 'Llama 3.1 405B Instruct (128k ctx)' },
+    { value: 'meta/llama-3.2-1b-instruct', label: 'Llama 3.2 1B Instruct (128k ctx)' },
+    { value: 'meta/llama-3.2-3b-instruct', label: 'Llama 3.2 3B Instruct (128k ctx)' },
+    { value: 'mistralai/mistral-nemo-12b-instruct', label: 'Mistral Nemo 12B Instruct (128k ctx)' },
+    { value: 'mistralai/mixtral-8x7b-instruct-v0.1', label: 'Mixtral 8x7B Instruct v0.1 (32k ctx)' },
+    { value: 'nvidia/llama-3.1-nemotron-70b-instruct', label: 'Llama 3.1 Nemotron 70B Instruct (128k ctx)' },
+    { value: 'deepseek-ai/deepseek-v3', label: 'DeepSeek V3 (128k ctx)' },
+    { value: 'deepseek-ai/deepseek-r1', label: 'DeepSeek R1 (128k ctx)' }
+];
+
 /**
  * Fallback OpenRouter models list (used when API fetch fails)
  * Sorted by cost: cheap first
diff --git a/src/web/templates/translation_interface.html b/src/web/templates/translation_interface.html
@@ -282,6 +282,14 @@ <h3>Drop files to translate</h3>
                                 <input type="password" class="form-control" id="poeApiKey" placeholder="Get key at poe.com/api_key" autocomplete="new-password">
                             </div>
                         </div>
+
+                        <!-- NVIDIA NIM API Key -->
+                        <div class="form-group" id="nimSettings" style="display: none; margin-bottom: 0;">
+                            <label>API Key <span id="nimKeyStatus" class="key-status"></span></label>
+                            <div class="neu-inset-light">
+                                <input type="password" class="form-control" id="nimApiKey" placeholder="Get key at build.nvidia.com" autocomplete="new-password">
+                            </div>
+                        </div>
                     </div>
 
                     <!-- Model Selection Row (Full Width) -->
diff --git a/translate.py b/translate.py