Spaces:

sgAtdbd
/

Hateshield-bn

Sleeping

App Files Files Community

sgAtdbd commited on Nov 10

Commit

249be5e

verified ·

1 Parent(s): 387ca50

Update models/train_model.py

Browse files

Files changed (1) hide show

models/train_model.py +66 -3

models/train_model.py CHANGED Viewed

@@ -7,6 +7,7 @@ Compares multiple algorithms and saves the best one
 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
 from sklearn.ensemble import RandomForestClassifier
@@ -169,6 +170,58 @@ def analyze_distribution(df: pd.DataFrame, name: str):
         label_name = label_names.get(label, f'Unknown({label})')
         print(f"  {label} - {label_name:20s}: {count:6,} ({percentage:5.1f}%)")
 def train_single_model(X_train, X_test, y_train, y_test, model_type: str, language: str) -> Dict:
     """Train a single model and return results"""
     print(f"\n  🔧 Training {model_type.upper()}...")
@@ -182,7 +235,10 @@ def train_single_model(X_train, X_test, y_train, y_test, model_type: str, langua
             n_jobs=-1
         )
     elif model_type == 'svm':
-        model = LinearSVC(
             random_state=RANDOM_STATE,
             class_weight='balanced',
             max_iter=2000
@@ -197,7 +253,7 @@ def train_single_model(X_train, X_test, y_train, y_test, model_type: str, langua
     else:
         raise ValueError(f"Unknown model type: {model_type}")
-    # Train
     start_time = time.time()
     model.fit(X_train, y_train)
@@ -213,6 +269,14 @@ def train_single_model(X_train, X_test, y_train, y_test, model_type: str, langua
     print(f"     ✓ F1-Score: {f1:.4f}")
     print(f"     ✓ Time: {training_time:.2f}s")
     return {
         'model': model,
         'accuracy': accuracy,
@@ -220,7 +284,6 @@ def train_single_model(X_train, X_test, y_train, y_test, model_type: str, langua
         'training_time': training_time,
         'predictions': y_pred
     }
 def train_and_compare_models(X_train, X_test, y_train, y_test, language: str) -> Tuple:
     """Train multiple models and return the best one"""
     print(f"\n🤖 Training Multiple Models for {language.upper()}...")

 import pandas as pd
 import numpy as np
 from sklearn.model_selection import train_test_split
+from sklearn.svm import SVC
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
 from sklearn.ensemble import RandomForestClassifier
         label_name = label_names.get(label, f'Unknown({label})')
         print(f"  {label} - {label_name:20s}: {count:6,} ({percentage:5.1f}%)")
+# def train_single_model(X_train, X_test, y_train, y_test, model_type: str, language: str) -> Dict:
+#     """Train a single model and return results"""
+#     print(f"\n  🔧 Training {model_type.upper()}...")
+#     # Choose model
+#     if model_type == 'logistic':
+#         model = LogisticRegression(
+#             max_iter=1000,
+#             random_state=RANDOM_STATE,
+#             class_weight='balanced',
+#             n_jobs=-1
+#         )
+#     elif model_type == 'svm':
+#         model = LinearSVC(
+#             random_state=RANDOM_STATE,
+#             class_weight='balanced',
+#             max_iter=2000
+#         )
+#     elif model_type == 'random_forest':
+#         model = RandomForestClassifier(
+#             n_estimators=100,
+#             random_state=RANDOM_STATE,
+#             class_weight='balanced',
+#             n_jobs=-1
+#         )
+#     else:
+#         raise ValueError(f"Unknown model type: {model_type}")
+#     # Train
+#     start_time = time.time()
+#     model.fit(X_train, y_train)
+#     y_pred = model.predict(X_test)
+#     training_time = time.time() - start_time
+#     # Evaluate
+#     accuracy = accuracy_score(y_test, y_pred)
+#     f1 = f1_score(y_test, y_pred, average='weighted')
+#     print(f"     ✓ Accuracy: {accuracy:.4f} ({accuracy*100:.2f}%)")
+#     print(f"     ✓ F1-Score: {f1:.4f}")
+#     print(f"     ✓ Time: {training_time:.2f}s")
+#     return {
+#         'model': model,
+#         'accuracy': accuracy,
+#         'f1_score': f1,
+#         'training_time': training_time,
+#         'predictions': y_pred
+#     }
 def train_single_model(X_train, X_test, y_train, y_test, model_type: str, language: str) -> Dict:
     """Train a single model and return results"""
     print(f"\n  🔧 Training {model_type.upper()}...")
             n_jobs=-1
         )
     elif model_type == 'svm':
+        # ✅ Use SVC instead of LinearSVC
+        model = SVC(
+            kernel='linear',
+            probability=True,  # ✅ CRITICAL: Enable probability estimates
             random_state=RANDOM_STATE,
             class_weight='balanced',
             max_iter=2000
     else:
         raise ValueError(f"Unknown model type: {model_type}")
+    # ✅ ADD THIS: Train and evaluate
     start_time = time.time()
     model.fit(X_train, y_train)
     print(f"     ✓ F1-Score: {f1:.4f}")
     print(f"     ✓ Time: {training_time:.2f}s")
+    # ✅ Verify predict_proba works
+    if hasattr(model, 'predict_proba'):
+        proba = model.predict_proba(X_test[:1])
+        print(f"     ✅ predict_proba: Available (shape: {proba.shape})")
+    else:
+        print(f"     ⚠️  predict_proba: NOT Available")
+    # ✅ ADD THIS: Return results
     return {
         'model': model,
         'accuracy': accuracy,
         'training_time': training_time,
         'predictions': y_pred
     }
 def train_and_compare_models(X_train, X_test, y_train, y_test, language: str) -> Tuple:
     """Train multiple models and return the best one"""
     print(f"\n🤖 Training Multiple Models for {language.upper()}...")