Spaces:

alrahrooh
/

cgt-llm-chatbot

Runtime error

App Files Files Community

arahrooh commited on 14 days ago

Commit

084bec8

1 Parent(s): 272b3bb

Add HF_TOKEN support for gated models

Browse files

Files changed (1) hide show

bot.py +20 -2

bot.py CHANGED Viewed

@@ -258,10 +258,20 @@ class RAGBot:
             logger.info(f"Loading model: {model_name}...")
             from transformers import AutoTokenizer, AutoModelForCausalLM
             # Load tokenizer
             self.tokenizer = AutoTokenizer.from_pretrained(
                 model_name,
-                trust_remote_code=True
             )
             # Determine appropriate torch dtype based on device and model
@@ -280,6 +290,10 @@ class RAGBot:
                 "trust_remote_code": True,
             }
             # For MPS, use device_map; for CUDA, let it auto-detect
             if self.device == "mps":
                 model_kwargs["device_map"] = self.device
@@ -309,7 +323,11 @@ class RAGBot:
         except Exception as e:
             logger.error(f"Failed to load model {self.args.model}: {e}")
             logger.error("Make sure the model name is correct and you have access to it on HuggingFace")
-            logger.error("For private models, ensure you're logged in: huggingface-cli login")
             sys.exit(2)
     def _setup_vector_retriever(self):

             logger.info(f"Loading model: {model_name}...")
             from transformers import AutoTokenizer, AutoModelForCausalLM
+            # Get Hugging Face token from environment (for gated models)
+            hf_token = os.getenv("HF_TOKEN") or os.getenv("HUGGING_FACE_HUB_TOKEN")
             # Load tokenizer
+            tokenizer_kwargs = {
+                "trust_remote_code": True
+            }
+            if hf_token:
+                tokenizer_kwargs["token"] = hf_token
+                logger.info("Using HF_TOKEN for authentication")
             self.tokenizer = AutoTokenizer.from_pretrained(
                 model_name,
+                **tokenizer_kwargs
             )
             # Determine appropriate torch dtype based on device and model
                 "trust_remote_code": True,
             }
+            # Add token if available (for gated models)
+            if hf_token:
+                model_kwargs["token"] = hf_token
             # For MPS, use device_map; for CUDA, let it auto-detect
             if self.device == "mps":
                 model_kwargs["device_map"] = self.device
         except Exception as e:
             logger.error(f"Failed to load model {self.args.model}: {e}")
             logger.error("Make sure the model name is correct and you have access to it on HuggingFace")
+            logger.error("For gated models (like Llama), you need to:")
+            logger.error("  1. Request access at: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct")
+            logger.error("  2. Add HF_TOKEN as a secret in your Hugging Face Space settings")
+            logger.error("  3. Get your token from: https://huggingface.co/settings/tokens")
+            logger.error("For local use, ensure you're logged in: huggingface-cli login")
             sys.exit(2)
     def _setup_vector_retriever(self):