Spaces:

Leen172
/

Question_generator

Sleeping

App Files Files Community

Leen172 commited on Oct 31

Commit

ef6a315

verified ·

1 Parent(s): a12b206

Update app.py

Browse files

Files changed (1) hide show

app.py +281 -442

app.py CHANGED Viewed

@@ -1,14 +1,7 @@
-# app.py
 # -*- coding: utf-8 -*-
-import os
-import io
-import json
-import uuid
-import random
-import tempfile
-import shutil
-import unicodedata
 from dataclasses import dataclass
 from pathlib import Path
 from typing import List, Tuple
@@ -18,169 +11,118 @@ from pypdf import PdfReader
 import fitz  # PyMuPDF
 import regex as re2
 import yake
-# =========================
-# إعدادات عامة
-# =========================
 random.seed(42)
 DEFAULT_LANG = "ar"
-DEFAULT_NUM_QUESTIONS = 8
 DEFAULT_TROCR_MODEL = "microsoft/trocr-base-printed"
-DEFAULT_TROCR_ZOOM = 2.8
-# كاش بسيط للـ OCR pipeline (تحميل كسول)
-_OCR_PIPE = {}
-def _get_ocr_pipeline(model_id: str):
-    """تحميل كسول + كاش لنموذج TrOCR."""
-    from transformers import pipeline  # استيراد متأخر
-    import torch  # استيراد متأخر
-    device = 0 if torch.cuda.is_available() else -1
-    if model_id not in _OCR_PIPE:
-        _OCR_PIPE[model_id] = pipeline("image-to-text", model=model_id, device=device)
-    return _OCR_PIPE[model_id]
-# =========================
-# 2) استخراج النص من PDF/TXT
-# =========================
-def extract_text_with_pypdf(pdf_path: str) -> str:
-    reader = PdfReader(pdf_path)
-    texts = []
-    for page in reader.pages:
-        try:
-            t = page.extract_text() or ""
-        except Exception:
-            t = ""
-        texts.append(t)
-    return "\n".join(texts).strip()
-def pdf_pages_to_images(pdf_path: str, zoom: float = 2.5) -> List[Image.Image]:
-    doc = fitz.open(pdf_path)
     imgs = []
-    mat = fitz.Matrix(zoom, zoom)
-    for page in doc:
-        pix = page.get_pixmap(matrix=mat, alpha=False)
-        img = Image.frombytes("RGB", (pix.width, pix.height), pix.samples)
-        imgs.append(img)
     doc.close()
     return imgs
-def extract_text_with_ocr(pdf_path: str, model_id: str, zoom: float = 2.5) -> str:
-    ocr = _get_ocr_pipeline(model_id)
-    images = pdf_pages_to_images(pdf_path, zoom=zoom)
-    page_texts = []
-    for idx, img in enumerate(images):
         try:
             out = ocr(img)
-            txt = out[0]["generated_text"].strip() if out and "generated_text" in out[0] else ""
         except Exception:
             txt = ""
-        page_texts.append(f"--- [Page {idx+1}] ---\n{txt}")
-    return "\n\n".join(page_texts).strip()
-def is_extraction_good(text: str, min_chars: int = 250, min_alpha_ratio: float = 0.15) -> bool:
-    if len(text) < min_chars:
-        return False
-    alnum = sum(ch.isalnum() for ch in text)
-    ratio = alnum / max(1, len(text))
-    return ratio >= min_alpha_ratio
-def pdf_to_text(pdf_path: str,
-                ocr_model: str = DEFAULT_TROCR_MODEL,
-                ocr_zoom: float = DEFAULT_TROCR_ZOOM) -> Tuple[str, str]:
-    """
-    يرجع (النص النهائي، طريقة الاستخراج) بدون أي حفظ ملفات.
-    """
-    assert os.path.isfile(pdf_path), f"File not found: {pdf_path}"
-    embedded_text = extract_text_with_pypdf(pdf_path)
-    if is_extraction_good(embedded_text):
-        return embedded_text, "embedded (pypdf)"
-    if not ocr_model:
-        return embedded_text, "embedded (pypdf: weak)"
-    return extract_text_with_ocr(pdf_path, model_id=ocr_model, zoom=ocr_zoom), "OCR (Hugging Face TrOCR)"
-# =========================
-# 3) تطبيع/تصحيح عربي
-# =========================
-def strip_page_headers(text: str) -> str:
-    lines = text.splitlines()
-    out = []
-    for ln in lines:
         if re2.match(r"^\s*--- \[Page \d+\] ---\s*$", ln): continue
         if re2.match(r"^\s*(Page\s*\d+|صفحة\s*\d+)\s*$", ln): continue
         if re2.match(r"^\s*[-–—_*]{3,}\s*$", ln): continue
         out.append(ln)
     return "\n".join(out)
-AR_DIAC = r"[ًٌٍَُِّْ]"
-def normalize_arabic(text: str) -> str:
-    text = unicodedata.normalize("NFKC", text)
-    text = re2.sub(r"[ـ]", "", text)
-    text = re2.sub(AR_DIAC, "", text)
-    text = re2.sub(r"[إأآا]", "ا", text)
-    text = re2.sub(r"[يى]", "ي", text)
-    text = re2.sub(r"\s+", " ", text)
-    # إزالة تكرار الحروف
-    text = re2.sub(r'(\p{L})\1{2,}', r'\1', text)
-    text = re2.sub(r'(\p{L})\1', r'\1', text)
-    return text.strip()
-def arabic_ocr_fixes(text: str) -> str:
-    fixes = {
-        " الصطناعي": " الاصطناعي",
-        "صطناعي": "اصطناعي",
-        "الذكاء الاصطناعيي": "الذكاء الاصطناعي",
-        "ذكاء صطناعي": "ذكاء اصطناعي",
-        "الذكاء الاصطناعي.": "الذكاء الاصطناعي.",
-        "التعليم ": "التعليم ",
-        " مع غني": " غني",
-        "مع غني ": " غني ",
-        " غير المشبعة": " غيرُ المشبعة",
-        "الااصطناعي": "الاصطناعي",
-        "وشخصياا": "وشخصياً",
-    }
-    for wrong, right in fixes.items():
-        text = text.replace(wrong, right)
-    return text
-def postprocess_text(raw_text: str, lang: str = "ar") -> str:
-    t = strip_page_headers(raw_text)
-    t = t.replace("\r", "\n")
     t = re2.sub(r"\n{3,}", "\n\n", t)
     t = re2.sub(r"\d+\s*[\[\(][^\]\)]*[\]\)]", " ", t)
     t = re2.sub(r"\[\d+\]", " ", t)
-    if lang == "ar":
-        t = normalize_arabic(t)
-        t = arabic_ocr_fixes(t)
-    return t
-# =========================
-# 4) YAKE + تقسيم الجمل
-# =========================
 SENT_SPLIT = re2.compile(r"(?<=[\.!؟\?])\s+")
-AR_STOP = set("""
-في على من إلى عن مع لدى ذلك هذه هذا الذين التي الذي اللواتي اللواتيا أو أم إن أن كان تكون كانوا كانت كنت كنا كانا كانتِ ثم قد لقد ربما بل لكن لكنَّ إلا سوى حتى حيث كما لما لماّ لماَّ لماً ما ماذا لماذا متى أين كيف أي أيّ أيُّ هناك هنا هناكَ تلك ذلكم ذلكن أولئك هؤلاء هما هن هم أنتِ أنتَ أنتما أنتن أنتم أنا نحن هي هو هنَّ همَّ
-و أو كما بين بسبب بدون خلال عبر لدى لدىً حتى حيث ضمن عبره عليها عليه عليهم علي على إلي إليك إليه إليها لديك لديكِ لديه لديها لكم لكنكما لكنكن ولكن
-هذا هذه ذلك تلك هؤلاء أولئك كل بعض أي أيّ أيًا أحد شيء شيئًا أشياء
-"وهنا","اليه","الي","له","لها","لدي","لديه","لديها","لنا","عنده","عندها","مع","عبر","ضمن","حسب","حيث","كما","قد","بل","لكن","إذ","اذ","اذا","إن","أن","أيضا","فإن","فانه","فإنه","انه","إنه","مثلا","مثلاً","مثلاَ"
-""".split())
-def top_keywords_yake(text: str, max_k: int = 120, lan: str = 'ar') -> List[str]:
-    kw_extractor = yake.KeywordExtractor(lan=lan, n=1, top=max_k)
-    candidates = [kw for kw, _ in kw_extractor.extract_keywords(text)]
-    seen, out = set(), []
-    for k in candidates:
-        kk = k.strip()
-        if not kk or kk in seen: continue
-        if lan == "ar" and kk in AR_STOP: continue
-        if len(kk) < 3: continue
-        if re2.match(r"^[\p{P}\p{S}]+$", kk): continue
-        seen.add(kk)
-        out.append(kk)
     return out
-# =========================
-# 5) مُولِّد MCQ
-# =========================
 @dataclass
 class MCQ:
     id: str
@@ -189,326 +131,223 @@ class MCQ:
     answer_index: int
     explanation: str
-def split_sentences(text: str) -> List[str]:
-    sents = [s.strip() for s in SENT_SPLIT.split(text) if s.strip()]
-    return [s for s in sents if len(s) >= 25]
-def _is_good_kw(kw: str) -> bool:
-    if not kw or len(kw) < 3: return False
-    if kw in AR_STOP: return False
-    if re2.match(r"^[\p{P}\p{S}\d_]+$", kw): return False
-    return True
-def build_distractors(correct: str, pool: List[str], k: int = 3) -> List[str]:
-    """ملهيات أقرب طولياً للسياق."""
-    target_len = len(correct.strip())
-    cand = []
     for w in pool:
-        if not w: continue
-        w2 = w.strip()
-        if w2 == correct.strip(): continue
-        if len(w2) < 3 or w2 in AR_STOP: continue
-        if re2.match(r"^[\p{P}\p{S}\d_]+$", w2): continue
-        if abs(len(w2) - target_len) <= 3:
-            cand.append(w2)
     random.shuffle(cand)
-    out = []
-    for w in cand:
-        out.append(w)
-        if len(out) == k: break
-    fillers = ["—", "— —", "—-"]
-    while len(out) < k:
-        out.append(random.choice(fillers))
     return out
-def make_mcqs_from_text(text: str, n: int = 8, lang: str = 'ar') -> List[MCQ]:
-    sentences = split_sentences(text)
-    if not sentences:
-        raise ValueError("النص قصير جدًا أو غير صالح لتوليد أسئلة.")
-    keywords = top_keywords_yake(text, max_k=160, lan=lang)
-    if not keywords:
-        toks = re2.findall(r"[\p{L}\p{N}_]+", text)
-        toks = [t for t in toks if not (lang == "ar" and t in AR_STOP)]
-        freq = {}
-        for t in toks:
-            freq[t] = freq.get(t, 0) + 1
-        keywords = [w for w, c in sorted(freq.items(), key=lambda x: -x[1])][:80]
-    sent_for_kw = {}
-    for s in sentences:
-        for kw in keywords:
-            if not _is_good_kw(kw): continue
-            if re2.search(rf"(?<!\p{{L}}){re2.escape(kw)}(?!\p{{L}})", s) and kw not in sent_for_kw:
-                sent_for_kw[kw] = s
-    items: List[MCQ] = []
-    used_sents = set()
-    pool_iter = [kw for kw in keywords if kw in sent_for_kw]
-    for kw in pool_iter:
-        if len(items) >= n: break
-        if not _is_good_kw(kw): continue
-        s = sent_for_kw[kw]
-        if s in used_sents: continue
-        blanked = re2.sub(rf"(?<!\p{{L}}){re2.escape(kw)}(?!\p{{L}})", "_____", s, count=1)
-        correct = kw
-        distractors = build_distractors(correct, [x for x in keywords if x != kw], k=3)
-        choices = distractors + [correct]
-        random.shuffle(choices)
-        ans_idx = choices.index(correct)
-        exp = f"مقتبس من الجملة: {s[:220]}" + ("..." if len(s) > 220 else "")
-        items.append(MCQ(id=str(uuid.uuid4())[:8], question=blanked, choices=choices, answer_index=ans_idx, explanation=exp))
-        used_sents.add(s)
-    if not items:
-        raise RuntimeError("تعذر توليد أسئلة من النص. جرّب نصاً أطول أو مختلفاً.")
     return items
-# =========================
-# 6) تحويل عناصر الأسئلة إلى سجلات لواجهة الحلّ
-# =========================
-AR_PUNCT = "،؛؟"
-EN_PUNCT = ",;?"
-def normalize_punct(s: str) -> str:
-    if not s: return ""
-    s = s.replace(",", "،").replace(";", "؛").replace("?", "؟")
-    return s.strip().strip(AR_PUNCT + EN_PUNCT).strip()
-def build_quiz_records(items: List[MCQ], lang: str, source_name: str, method: str, num_questions: int):
-    json_data = []
-    letters = ["A", "B", "C", "D"]
     for it in items:
-        opts = []
-        for idx, lbl in enumerate(letters):
-            raw = it.choices[idx] if idx < len(it.choices) else ""
-            txt = normalize_punct(raw) or "—"
-            opts.append({"id": lbl, "text": txt, "is_correct": (it.answer_index == idx)})
-        q_clean = normalize_punct(it.question)
-        exp_clean = normalize_punct(it.explanation)
-        record = {
             "id": it.id,
-            "question": q_clean,
             "options": opts,
-            "explanation": exp_clean,
-            "meta": {"lang": lang, "source": source_name, "extraction_method": method, "num_questions": int(num_questions)}
-        }
-        json_data.append(record)
-    return json_data
-# =========================
-# 7) منطق الاختبار (State + Handlers)
-# =========================
-def _format_question(rec):
-    q = rec.get("question","").strip()
-    return f"### السؤال:\n{q}"
-def _radio_choices(rec):
-    out = []
-    for opt in rec.get("options", []):
-        lid, text = opt.get("id",""), opt.get("text","")
-        out.append(f"{lid}) {text}")
-    while len(out) < 4:
-        letters = ["A","B","C","D"]
-        out.append(f"{letters[len(out)]}) —")
-    return out
-def _correct_letter(rec):
-    for opt in rec.get("options", []):
-        if opt.get("is_correct"): return opt.get("id","")
     return ""
-def _explanation(rec): return rec.get("explanation","")
-def init_quiz_state(records):
-    return {"records": records, "idx": 0, "answers": {}, "revealed": set(), "finished": False}
-def render_current(rec, user_choice=None, revealed=False):
-    q_md = _format_question(rec)
-    choices = _radio_choices(rec)
-    exp = _explanation(rec) if revealed else ""
-    correct = _correct_letter(rec)
-    if user_choice and revealed:
-        feedback = "✅ إجابة صحيحة" if user_choice == correct else f"❌ إجابة خاطئة — الصحيح: {correct}"
-    elif user_choice:
-        feedback = f"تم اختيار: {user_choice}"
-    else:
-        feedback = ""
-    return q_md, choices, exp, feedback
-def on_show_question(state):
-    if not state: return "", [], "", "",""
-    recs, idx = state["records"], state["idx"]
-    rec = recs[idx]
-    q_md, choices, exp, feedback = render_current(rec, user_choice=state["answers"].get(rec["id"]),
-                                                 revealed=(rec["id"] in state["revealed"]))
-    pos = f"{idx+1} / {len(recs)}"
-    return q_md, choices, exp, feedback, pos
-def on_select_choice(state, choice_label):
-    if not state or not choice_label: return state, ""
     rec = state["records"][state["idx"]]
-    chosen_letter = choice_label.split(")")[0].strip()
-    state["answers"][rec["id"]] = chosen_letter
     if rec["id"] in state["revealed"]:
-        correct = _correct_letter(rec)
-        fb = "✅ إجابة صحيحة" if chosen_letter == correct else f"❌ إجابة خاطئة — الصحيح: {correct}"
     else:
-        fb = f"تم اختيار: {chosen_letter}"
-    return state, fb
-def on_prev(state):
-    if not state: return state
-    state["idx"] = max(0, state["idx"]-1)
-    return state
-def on_next(state):
-    if not state: return state
-    state["idx"] = min(len(state["records"])-1, state["idx"]+1)
-    return state
-def on_reveal(state):
-    if not state: return state, ""
-    rec = state["records"][state["idx"]]
-    state["revealed"].add(rec["id"])
-    user = state["answers"].get(rec["id"])
-    correct = _correct_letter(rec)
-    fb = "✅ إجابة صحيحة" if user == correct else (f"❌ إجابة خاطئة — الصحيح: {correct}" if user else f"الصحيح: {correct}")
     return state, fb
-def on_finish(state):
-    if not state: return state, ""
-    recs = state["records"]
-    correct_count, wrong_count, skipped = 0,0,0
-    for rec in recs:
-        qid = rec["id"]
-        user = state["answers"].get(qid)
-        correct = _correct_letter(rec)
-        if user is None: skipped += 1
-        elif user == correct: correct_count += 1
-        else: wrong_count += 1
-    total = len(recs)
-    score = f"النتيجة: {correct_count}/{total} (صحيح: {correct_count}، خطأ: {wrong_count}، متروك: {skipped})"
-    state["finished"] = True
-    return state, score
-def on_reset():
-    return None, "", "", "", "", "", "تمت إعادة الضبط."
-# =========================
-# 8) معالجة الملف وبناء الأسئلة (بدون أي ملفات ناتجة)
-# =========================
-def process_input_file(uploaded_path,
-                       num_questions=DEFAULT_NUM_QUESTIONS,
-                       lang=DEFAULT_LANG,
-                       trocr_model=DEFAULT_TROCR_MODEL,
-                       trocr_zoom=DEFAULT_TROCR_ZOOM):
-    if not uploaded_path:
-        return None, "يرجى رفع ملف PDF/TXT أولاً."
-    src_path = str(uploaded_path)
-    filename = Path(src_path).name or "input"
-    ext = Path(filename).suffix.lower()
-    if ext not in [".pdf", ".txt"]:
-        return None, "الرجاء رفع PDF أو TXT فقط."
-    # قراءة النص
-    if ext == ".txt":
-        with open(src_path, "r", encoding="utf-8", errors="ignore") as f:
-            raw_text = f.read()
-        method = "plain text (no PDF)"
     else:
-        raw_text, method = pdf_to_text(src_path, ocr_model=trocr_model, ocr_zoom=float(trocr_zoom))
-    cleaned_text = postprocess_text(raw_text, lang=lang)
-    items = make_mcqs_from_text(cleaned_text, n=int(num_questions), lang=lang)
-    records = build_quiz_records(items, lang=lang, source_name=filename, method=method, num_questions=num_questions)
-    return init_quiz_state(records), f"تم توليد {len(records)} سؤالاً. بالتوفيق!"
-# =========================
-# 9) واجهة Gradio (تبويب واحد)
-# =========================
-import gradio as gr
-THEME_CSS = """
-body { direction: rtl; font-family: system-ui, 'Cairo', 'IBM Plex Arabic', sans-serif; }
-label, .gr-markdown, .gr-button { text-align: right; }
-.gradio-container { max-width: 880px; margin: auto; }
-.card { background: #fff; border-radius: 1rem; padding: 1rem 1.2rem; box-shadow: 0 10px 25px rgba(0,0,0,0.06); }
-.small { opacity: .85; font-size: .9rem; }
-.progress { text-align: left; opacity:.75 }
 """
-with gr.Blocks(title="اختبار من ملف (PDF/TXT)", css=THEME_CSS) as demo:
-    gr.Markdown("## ✨ صانع اختبار من ملف PDF/TXT — واجهة واحدة بسيطة")
-    gr.Markdown("ارفع ملفك، حدّد عدد الأسئلة، واضغط **ابدأ**. ثمّ أجب وتحقق من الإجابة.")
-    quiz_state = gr.State(value=None)
-    toast = gr.Markdown("")
-    with gr.Row():
-        inp_file = gr.File(label="ارفع ملف PDF أو TXT", file_count="single", file_types=[".pdf",".txt"], type="filepath")
-        num_q = gr.Slider(4, 20, value=DEFAULT_NUM_QUESTIONS, step=1, label="عدد الأسئلة")
-    with gr.Accordion("خيارات متقدمة (للـ PDF المصوّر)", open=False):
-        trocr_zoom = gr.Slider(2.0, 3.5, value=DEFAULT_TROCR_ZOOM, step=0.1, label="Zoom لتحويل الصفحات لصورة (OCR)")
-        trocr_model = gr.Dropdown(
-            choices=[
-                "microsoft/trocr-base-printed",
-                "microsoft/trocr-large-printed",
-                "microsoft/trocr-base-handwritten",
-                "microsoft/trocr-large-handwritten",
-            ],
-            value=DEFAULT_TROCR_MODEL, label="نموذج TrOCR"
-        )
-    btn_start = gr.Button("ابدأ توليد الاختبار", variant="primary")
-    with gr.Group():
         with gr.Row():
             progress = gr.Label("", elem_classes=["progress"])
-        q_md = gr.Markdown("", elem_classes=["card"])
-        choices = gr.Radio(choices=[], label="اختر الإجابة", interactive=True)
-        feedback = gr.Markdown("")
-        exp_md = gr.Markdown("")
         with gr.Row():
             btn_prev = gr.Button("السابق")
             btn_next = gr.Button("التالي")
             btn_reveal = gr.Button("إظهار الإجابة")
-            btn_finish = gr.Button("إنهاء الاختبار", variant="stop")
-            btn_reset = gr.Button("إعادة ضبط")
-        score_md = gr.Markdown("")
-    # بدء المعالجة وبناء الأسئلة
-    btn_start.click(
-        process_input_file,
-        inputs=[inp_file, num_q, gr.State(DEFAULT_LANG), trocr_model, trocr_zoom],
-        outputs=[quiz_state, toast]
-    ).then(
-        on_show_question, inputs=[quiz_state],
-        outputs=[q_md, choices, exp_md, feedback, progress]
-    )
-    # التنقل
-    btn_prev.click(on_prev, inputs=[quiz_state], outputs=[quiz_state]).then(
-        on_show_question, inputs=[quiz_state],
-        outputs=[q_md, choices, exp_md, feedback, progress]
-    )
-    btn_next.click(on_next, inputs=[quiz_state], outputs=[quiz_state]).then(
-        on_show_question, inputs=[quiz_state],
-        outputs=[q_md, choices, exp_md, feedback, progress]
-    )
-    btn_reveal.click(on_reveal, inputs=[quiz_state], outputs=[quiz_state, feedback]).then(
-        on_show_question, inputs=[quiz_state],
-        outputs=[q_md, choices, exp_md, feedback, progress]
-    )
-    # اختيار الإجابة
-    def _on_choice(state, choice):
-        return on_select_choice(state, choice)
-    choices.change(_on_choice, inputs=[quiz_state, choices], outputs=[quiz_state, feedback])
-    # إنهاء وإظهار نتيجة
-    btn_finish.click(on_finish, inputs=[quiz_state], outputs=[quiz_state, score_md])
-    # إعادة ضبط
-    btn_reset.click(lambda: on_reset(), outputs=[quiz_state, q_md, choices, exp_md, feedback, score_md, toast])
-# Spaces تتعرف على demo تلقائيًا
 if __name__ == "__main__":
     demo.queue().launch()

 # -*- coding: utf-8 -*-
+# app.py — واجهة واحدة: توليد أسئلة ➜ اختبار تفاعلي بنفس الثيم
+import os, json, uuid, random, unicodedata
 from dataclasses import dataclass
 from pathlib import Path
 from typing import List, Tuple
 import fitz  # PyMuPDF
 import regex as re2
 import yake
+import gradio as gr
+# ---------- إعدادات عامة ----------
 random.seed(42)
 DEFAULT_LANG = "ar"
+DEFAULT_NUM_QUESTIONS = 6
 DEFAULT_TROCR_MODEL = "microsoft/trocr-base-printed"
+DEFAULT_TROCR_ZOOM = 2.6
+# ---------- OCR (تحميل كسول) ----------
+_OCR = {}
+def get_ocr(model_id: str):
+    from transformers import pipeline
+    import torch
+    dev = 0 if torch.cuda.is_available() else -1
+    if model_id not in _OCR:
+        _OCR[model_id] = pipeline("image-to-text", model=model_id, device=dev)
+    return _OCR[model_id]
+# ---------- PDF/TXT → نص ----------
+def extract_text_with_pypdf(path: str) -> str:
+    reader = PdfReader(path)
+    out = []
+    for p in reader.pages:
+        try: t = p.extract_text() or ""
+        except Exception: t = ""
+        out.append(t)
+    return "\n".join(out).strip()
+def pdf_to_images(path: str, zoom: float=2.5) -> List[Image.Image]:
+    doc = fitz.open(path); M = fitz.Matrix(zoom, zoom)
     imgs = []
+    for pg in doc:
+        pix = pg.get_pixmap(matrix=M, alpha=False)
+        imgs.append(Image.frombytes("RGB",(pix.width,pix.height),pix.samples))
     doc.close()
     return imgs
+def extract_text_with_ocr(path: str, model_id: str, zoom: float) -> str:
+    ocr = get_ocr(model_id)
+    parts = []
+    for i, img in enumerate(pdf_to_images(path, zoom=zoom), start=1):
         try:
             out = ocr(img)
+            txt = out[0].get("generated_text","").strip() if out else ""
         except Exception:
             txt = ""
+        parts.append(f"--- [Page {i}] ---\n{txt}")
+    return "\n\n".join(parts).strip()
+def is_good(t: str, min_chars=250, min_alpha=0.15) -> bool:
+    if len(t) < min_chars: return False
+    alnum = sum(ch.isalnum() for ch in t)
+    return (alnum/max(1,len(t))) >= min_alpha
+def file_to_text(path: str, model_id=DEFAULT_TROCR_MODEL, zoom=DEFAULT_TROCR_ZOOM) -> Tuple[str,str]:
+    ext = Path(path).suffix.lower()
+    if ext == ".txt":
+        with open(path,"r",encoding="utf-8",errors="ignore") as f: return f.read(), "plain text"
+    raw = extract_text_with_pypdf(path)
+    if is_good(raw): return raw, "embedded (pypdf)"
+    return extract_text_with_ocr(path, model_id, zoom), "OCR (TrOCR)"
+# ---------- تنظيف عربي ----------
+AR_DIAC = r"[ًٌٍَُِّْ]"
+def strip_headers(t:str)->str:
+    out=[]
+    for ln in t.splitlines():
         if re2.match(r"^\s*--- \[Page \d+\] ---\s*$", ln): continue
         if re2.match(r"^\s*(Page\s*\d+|صفحة\s*\d+)\s*$", ln): continue
         if re2.match(r"^\s*[-–—_*]{3,}\s*$", ln): continue
         out.append(ln)
     return "\n".join(out)
+def norm_ar(t:str)->str:
+    t = unicodedata.normalize("NFKC", t)
+    t = re2.sub(r"[ـ]", "", t)
+    t = re2.sub(AR_DIAC, "", t)
+    t = re2.sub(r"[إأآا]", "ا", t)
+    t = re2.sub(r"[يى]", "ي", t)
+    t = re2.sub(r"\s+", " ", t)
+    t = re2.sub(r'(\p{L})\1{2,}', r'\1', t)
+    t = re2.sub(r'(\p{L})\1', r'\1', t)
+    return t.strip()
+def postprocess(raw:str)->str:
+    t = strip_headers(raw).replace("\r","\n")
     t = re2.sub(r"\n{3,}", "\n\n", t)
     t = re2.sub(r"\d+\s*[\[\(][^\]\)]*[\]\)]", " ", t)
     t = re2.sub(r"\[\d+\]", " ", t)
+    return norm_ar(t)
+# ---------- YAKE + تقسيم ----------
 SENT_SPLIT = re2.compile(r"(?<=[\.!؟\?])\s+")
+AR_STOP = set("""في على من إلى عن مع لدى ذلك هذه هذا الذين التي الذي أو أم إن أن كان تكون كانوا كانت كنت ثم قد لقد ربما بل لكن إلا سوى حتى حيث كما لما ما لماذا متى أين كيف أي هناك هنا هؤلاء أولئك نحن هو هي هم هن أنت أنتم أنتن""".split())
+def split_sents(t:str)->List[str]:
+    s=[x.strip() for x in SENT_SPLIT.split(t) if x.strip()]
+    return [x for x in s if len(x)>=25]
+def yake_keywords(t:str, k:int=160)->List[str]:
+    ex = yake.KeywordExtractor(lan='ar', n=1, top=k)
+    cands = [w for w,_ in ex.extract_keywords(t)]
+    out=[]; seen=set()
+    for k in cands:
+        k=k.strip()
+        if not k or k in seen or k in AR_STOP: continue
+        if len(k)<3 or re2.match(r"^[\p{P}\p{S}]+$",k): continue
+        seen.add(k); out.append(k)
     return out
+# ---------- مولّد MCQ ----------
 @dataclass
 class MCQ:
     id: str
     answer_index: int
     explanation: str
+def good_kw(kw:str)->bool:
+    return kw and len(kw)>=3 and kw not in AR_STOP and not re2.match(r"^[\p{P}\p{S}\d_]+$", kw)
+def distractors(correct:str, pool:List[str], k:int=3)->List[str]:
+    L=len(correct.strip()); cand=[]
     for w in pool:
+        w=w.strip()
+        if not w or w==correct or w in AR_STOP: continue
+        if re2.match(r"^[\p{P}\p{S}\d_]+$", w): continue
+        if abs(len(w)-L)<=3: cand.append(w)
     random.shuffle(cand)
+    out=cand[:k]
+    while len(out)<k: out.append("—")
     return out
+def make_mcqs(text:str, n:int=6)->List[MCQ]:
+    sents=split_sents(text)
+    if not sents: raise ValueError("النص قصير أو غير صالح.")
+    kws=yake_keywords(text) or [w for w,_ in sorted(((t, text.count(t)) for t in re2.findall(r"[\p{L}\p{N}_]+",text)), key=lambda x:-x[1])][:80]
+    sent_for={}
+    for s in sents:
+        for kw in kws:
+            if good_kw(kw) and re2.search(rf"(?<!\p{{L}}){re2.escape(kw)}(?!\p{{L}})", s) and kw not in sent_for:
+                sent_for[kw]=s
+    items=[]; used=set()
+    for kw in [k for k in kws if k in sent_for]:
+        if len(items)>=n: break
+        s=sent_for[kw]
+        if s in used: continue
+        q=re2.sub(rf"(?<!\p{{L}}){re2.escape(kw)}(?!\p{{L}})", "_____", s, count=1)
+        ch=distractors(kw, [x for x in kws if x!=kw], 3)+[kw]
+        random.shuffle(ch); ans=ch.index(kw)
+        exp=f"مقتبس من الجملة: {s[:220]}" + ("..." if len(s)>220 else "")
+        items.append(MCQ(id=str(uuid.uuid4())[:8], question=q, choices=ch, answer_index=ans, explanation=exp))
+        used.add(s)
+    if not items: raise RuntimeError("تعذّر توليد أسئلة. جرّب نصاً أطول.")
     return items
+# ---------- تحويل للسجلات ----------
+def to_records(items:List[MCQ], source:str, method:str, n:int)->List[dict]:
+    recs=[]
     for it in items:
+        opts=[]
+        for i,lbl in enumerate(["A","B","C","D"]):
+            txt=(it.choices[i] if i<len(it.choices) else "—").strip()
+            txt=txt.replace(",", "،").replace("?", "؟").replace(";", "؛")
+            opts.append({"id":lbl,"text":txt or "—","is_correct":(i==it.answer_index)})
+        recs.append({
             "id": it.id,
+            "question": it.question.strip(),
             "options": opts,
+            "explanation": it.explanation.strip(),
+            "meta": {"source": source, "extraction_method": method, "num_questions": int(n)}
+        })
+    return recs
+# ---------- منطق الاختبار ----------
+def correct_letter(rec):
+    for o in rec["options"]:
+        if o["is_correct"]: return o["id"]
     return ""
+def init_state(records):
+    return {"records": records, "idx":0, "answers":{}, "revealed":set(), "finished":False}
+def render(rec, user=None, revealed=False):
+    q_md = f"### السؤال\n{rec['question']}"
+    ch = [f"{o['id']}) {o['text']}" for o in rec["options"]]
+    exp = rec["explanation"] if revealed else ""
+    fb=""
+    if user and revealed:
+        fb = "✅ إجابة صحيحة" if user==correct_letter(rec) else f"❌ إجابة خاطئة — الصحيح: {correct_letter(rec)}"
+    elif user:
+        fb = f"تم اختيار: {user}"
+    return q_md, ch, exp, fb
+def show(state):
+    if not state: return "", [], "", "", ""
+    rec = state["records"][state["idx"]]
+    q, ch, exp, fb = render(rec, state["answers"].get(rec["id"]), rec["id"] in state["revealed"])
+    pos = f"{state['idx']+1} / {len(state['records'])}"
+    return q, ch, exp, fb, pos
+def choose(state, label):
+    if not state or not label: return state, ""
     rec = state["records"][state["idx"]]
+    letter = label.split(")")[0].strip()
+    state["answers"][rec["id"]] = letter
     if rec["id"] in state["revealed"]:
+        fb = "✅ إجابة صحيحة" if letter==correct_letter(rec) else f"❌ إجابة خاطئة — الصحيح: {correct_letter(rec)}"
     else:
+        fb = f"تم اختيار: {letter}"
     return state, fb
+def prev_(s):
+    if s: s["idx"]=max(0, s["idx"]-1);
+    return s
+def next_(s):
+    if s: s["idx"]=min(len(s["records"])-1, s["idx"]+1);
+    return s
+def reveal(s):
+    if not s: return s, ""
+    rec = s["records"][s["idx"]]
+    s["revealed"].add(rec["id"])
+    u = s["answers"].get(rec["id"])
+    fb = "✅ إجابة صحيحة" if u==correct_letter(rec) else (f"❌ إجابة خاطئة — الصحيح: {correct_letter(rec)}" if u else f"الصحيح: {correct_letter(rec)}")
+    return s, fb
+def finish(s):
+    if not s: return s, ""
+    c=w=sk=0
+    for r in s["records"]:
+        u=s["answers"].get(r["id"])
+        cor=correct_letter(r)
+        if u is None: sk+=1
+        elif u==cor: c+=1
+        else: w+=1
+    s["finished"]=True
+    return s, f"النتيجة: {c}/{len(s['records'])} (صحيح: {c}، خطأ: {w}، متروك: {sk})"
+# ---------- معالجة الإدخال (نص أو ملف) ----------
+def build_quiz(text_area, file_path, n, model_id, zoom):
+    text_area = (text_area or "").strip()
+    if not text_area and not file_path:
+        return None, gr.update(visible=True), gr.update(visible=False), "🛈 أدخل نصًا أو ارفع ملفًا أولًا."
+    if text_area:
+        src_name = "pasted_text.txt"
+        raw, method = text_area, "user text"
     else:
+        raw, method = file_to_text(file_path, model_id=model_id, zoom=float(zoom))
+        src_name = Path(file_path).name
+    cleaned = postprocess(raw)
+    items = make_mcqs(cleaned, n=int(n))
+    records = to_records(items, source=src_name, method=method, n=n)
+    state = init_state(records)
+    # إظهار قسم الاختبار وإخفاء قسم الإدخال
+    return state, gr.update(visible=False), gr.update(visible=True), f"تم توليد {len(records)} سؤالًا."
+# ---------- الثيم (CSS مطابق للصورة تقريبًا) ----------
+CSS = """
+body {direction:rtl; font-family: system-ui,'Cairo','IBM Plex Arabic',sans-serif; background: radial-gradient(1200px 500px at 50% -100px,#fff7ef,#e9d8c9);}
+.gradio-container {max-width: 980px; margin: 0 auto;}
+.card {background:#fff; border-radius:20px; padding:22px; box-shadow:0 25px 45px rgba(0,0,0,.07);}
+h1,h2,h3,.gr-markdown h1,.gr-markdown h2,.gr-markdown h3 {color:#6c4b34;}
+.button-primary > button {background: linear-gradient(180deg,#d9a978,#c98f65); border:none; color:#22150d;}
+.button-primary > button:hover {filter:brightness(0.95);}
+.soft {opacity:.8;}
+.upload-like {border:2px dashed #d9a97855; background:#fffaf3; border-radius:16px; padding:14px;}
+.progress {text-align:left; opacity:.75}
+.radio .wrap.svelte-1ipelgc label{border-radius:12px}
 """
+# ---------- واجهة Gradio ----------
+with gr.Blocks(title="Question Generator", css=CSS) as demo:
+    gr.Markdown("<h2 style='text-align:center;margin-top:8px;'>Question Generator</h2>", elem_classes=["soft"])
+    # القسم A: الإدخال (نص/ملف)
+    input_group = gr.Group(visible=True)
+    with input_group:
+        with gr.Row():
+            with gr.Column(scale=2):
+                gr.Markdown("<h3>أدخل نصًا أو ارفع ملفًا</h3>")
+                text_area = gr.Textbox(lines=10, placeholder="ألصق هنا مقطع نصي...", label=None)
+                num_q = gr.Slider(4, 20, value=DEFAULT_NUM_QUESTIONS, step=1, label="عدد الأسئلة")
+            with gr.Column(scale=1):
+                file_comp = gr.File(label="اختر ملفًا", file_count="single",
+                                    file_types=[".pdf",".txt"], type="filepath", elem_classes=["upload-like"])
+                with gr.Accordion("خيارات متقدمة (لـ PDF المصوّر)", open=False):
+                    trocr_model = gr.Dropdown(
+                        choices=[
+                            "microsoft/trocr-base-printed",
+                            "microsoft/trocr-large-printed",
+                            "microsoft/trocr-base-handwritten",
+                            "microsoft/trocr-large-handwritten",
+                        ],
+                        value=DEFAULT_TROCR_MODEL, label="نموذج TrOCR"
+                    )
+                    trocr_zoom = gr.Slider(2.0, 3.5, value=DEFAULT_TROCR_ZOOM, step=0.1, label="Zoom OCR")
+        btn_build = gr.Button("توليد الأسئلة", elem_classes=["button-primary"])
+        toast = gr.Markdown("", elem_classes=["soft"])
+        input_card = gr.Markdown("", visible=False)  # placeholder
+    # القسم B: الاختبار
+    quiz_group = gr.Group(visible=False)
+    with quiz_group:
         with gr.Row():
             progress = gr.Label("", elem_classes=["progress"])
+        with gr.Row():
+            with gr.Column():
+                q_md = gr.Markdown("", elem_classes=["card"])
+                choices = gr.Radio(choices=[], label="اختر الإجابة", interactive=True, elem_classes=["radio"])
+                feedback = gr.Markdown("")
+                exp_md = gr.Markdown("")
         with gr.Row():
             btn_prev = gr.Button("السابق")
             btn_next = gr.Button("التالي")
             btn_reveal = gr.Button("إظهار الإجابة")
+            btn_finish = gr.Button("إنهاء الاختبار", elem_classes=["button-primary"])
+            btn_reset = gr.Button("العودة للواجهة", variant="secondary")
+    state = gr.State(None)
+    # بناء الاختبار من الإدخال
+    btn_build.click(
+        build_quiz,
+        inputs=[text_area, file_comp, num_q, trocr_model, trocr_zoom],
+        outputs=[state, input_group, quiz_group, toast]
+    ).then(fn=show, inputs=[state], outputs=[q_md, choices, exp_md, feedback, progress])
+    # تفاعلات الاختبار
+    choices.change(lambda s,c: choose(s,c), inputs=[state, choices], outputs=[state, feedback])
+    btn_prev.click(prev_, inputs=[state], outputs=[state]).then(show, inputs=[state], outputs=[q_md, choices, exp_md, feedback, progress])
+    btn_next.click(next_, inputs=[state], outputs=[state]).then(show, inputs=[state], outputs=[q_md, choices, exp_md, feedback, progress])
+    btn_reveal.click(reveal, inputs=[state], outputs=[state, feedback]).then(show, inputs=[state], outputs=[q_md, choices, exp_md, feedback, progress])
+    btn_finish.click(finish, inputs=[state], outputs=[state, feedback])
+    btn_reset.click(lambda: (None, gr.update(visible=True), gr.update(visible=False), "", "", "", "", ""),
+                    outputs=[state, input_group, quiz_group, feedback, q_md, choices, exp_md, progress])
 if __name__ == "__main__":
     demo.queue().launch()