Spaces:

bhardwaj08sarthak
/

STEM-Question-Generator

Running

App Files Files Community

bhardwaj08sarthak commited on Sep 25

Commit

05bc05e

verified ·

1 Parent(s): ff7999d

Update all_tools.py

Browse files

Files changed (1) hide show

all_tools.py +144 -143

all_tools.py CHANGED Viewed

@@ -1,144 +1,145 @@
-from llama_index.core import VectorStoreIndex, Document
-from smolagents import tool
-from all_datasets import *
-from level_classifier_tool_2 import (
-    classify_levels_phrases,
-    HFEmbeddingBackend,
-    build_phrase_index
-)
-from phrases import BLOOMS_PHRASES, DOK_PHRASES
-D = {
-    "GSM8k": GSM8k['question'],
-    "Olympiad": Olympiad_math['question'],
-    "Olympiad2": Olympiad_math2['question'],
-    "DeepMind Math": clean_math['question'],
-    "MMMLU": MMMLU['question'],
-    "MMMU": MMMU['question'],
-    "ScienceQA": ScienceQA['question'],
-    "PubmedQA": PubmedQA['question']
-}
-all_questions = (
-    list(D["GSM8k"]) +
-    list(D["Olympiad"]) +
-    list(D["MMMLU"]) +
-    list(D["MMMU"]) +
-    list(D["DeepMind Math"]) +
-    list(D["Olympiad2"]) +
-    list(D["ScienceQA"]) +
-    list(D["PubmedQA"])
-)
-emb = HuggingFaceEmbeddings(
-    model_name="google/embeddinggemma-300m",
-    encode_kwargs={"normalize_embeddings": True},
-)
-texts = all_questions
-index = VectorStoreIndex.from_documents([Document(text=t) for t in texts], embed_model=emb)
-#Retriever tool
-@tool
-def QuestionRetrieverTool(subject: str, topic: str, grade: str) -> dict:
-    """ Retrieve up to 5 closely-related example Q&A pairs from the source datasets.
-    description = (
-        "Retrieve up to 5 closely-related example Q&A pairs from the source datasets."
-    )
-    Args:
-        subject: The subject area (e.g., "Math", "Science"). type: "string",
-        topic: The specific topic within the subject (e.g., "Algebra", "Biology"). type: "string",
-        grade: The grade level (e.g., "5th", "8th"). type: "string"
-    Returns:
-        A dictionary with:
-            closest questions found for: dict with subject, topic, grade
-            questions: List of up to 5 dicts with question text.
-    }"""
-    query = f"{topic} question for {grade} of the {subject}"
-    results = index.as_retriever(similarity_top_k=5).retrieve(query)
-    question_texts = [r.node.text for r in results]
-    return {"closest questions found for": {
-        "subject": subject,
-        "topic": topic,
-        "grade": grade,},
-        "questions": [{"text": question} for question in question_texts]
-    }
-# Scoring tool
-@tool
-def classify_and_score(
-    question: str,
-    target_bloom: str,
-    target_dok: str,
-    agg: str = "max"
-) -> dict:
-    """Classify a question against Bloom’s and DOK targets and return guidance.
-    Args:
-        question: The question text to evaluate for cognitive demand.
-        target_bloom: Target Bloom’s level or range. Accepts exact (e.g., "Analyze")
-            or plus form (e.g., "Apply+") meaning that level or higher.
-        target_dok: Target DOK level or range. Accepts exact (e.g., "DOK3")
-            or span (e.g., "DOK2-DOK3").
-        agg: Aggregation method over phrase similarities within a level
-            (choices: "mean", "max", "topk_mean").
-    Returns:
-        A dictionary with:
-            ok: True if both Bloom’s and DOK match the targets.
-            measured: Dict with best levels and per-level scores for Bloom’s and DOK.
-            feedback: Brief guidance describing how to adjust the question to hit targets.
-    """
-    res = classify_levels_phrases(
-        question,
-        BLOOMS_PHRASES,
-        DOK_PHRASES,
-        backend=_backend,
-        prebuilt_bloom_index=_BLOOM_INDEX,
-        prebuilt_dok_index=_DOK_INDEX,
-        agg=agg,
-        return_phrase_matches=True
-    )
-    def _parse_target_bloom(t: str):
-        order = ["Remember","Understand","Apply","Analyze","Evaluate","Create"]
-        if t.endswith("+"):
-            base = t[:-1]
-            return set(order[order.index(base):])
-        return {t}
-    def _parse_target_dok(t: str):
-        order = ["DOK1","DOK2","DOK3","DOK4"]
-        if "-" in t:
-            lo, hi = t.split("-")
-            return set(order[order.index(lo):order.index(hi)+1])
-        return {t}
-    bloom_target_set = _parse_target_bloom(target_bloom)
-    dok_target_set = _parse_target_dok(target_dok)
-    bloom_best = res["blooms"]["best_level"]
-    dok_best = res["dok"]["best_level"]
-    bloom_ok = bloom_best in bloom_target_set
-    dok_ok = dok_best in dok_target_set
-    feedback_parts = []
-    if not bloom_ok:
-        feedback_parts.append(
-            f"Shift Bloom’s from {bloom_best} toward {sorted(bloom_target_set)}. "
-            f"Top cues: {res['blooms']['top_phrases'].get(bloom_best, [])[:3]}"
-        )
-    if not dok_ok:
-        feedback_parts.append(
-            f"Shift DOK from {dok_best} toward {sorted(dok_target_set)}. "
-            f"Top cues: {res['dok']['top_phrases'].get(dok_best, [])[:3]}"
-        )
-    return {
-        "ok": bool(bloom_ok and dok_ok),
-        "measured": {
-            "bloom_best": bloom_best,
-            "bloom_scores": res["blooms"]["scores"],
-            "dok_best": dok_best,
-            "dok_scores": res["dok"]["scores"],
-        },
-        "feedback": " ".join(feedback_parts) if feedback_parts else "On target.",
     }

+from llama_index.core import VectorStoreIndex, Document
+from smolagents import tool
+from langchain_community.embeddings import HuggingFaceEmbeddings
+from all_datasets import *
+from level_classifier_tool_2 import (
+    classify_levels_phrases,
+    HFEmbeddingBackend,
+    build_phrase_index
+)
+from phrases import BLOOMS_PHRASES, DOK_PHRASES
+D = {
+    "GSM8k": GSM8k['question'],
+    "Olympiad": Olympiad_math['question'],
+    "Olympiad2": Olympiad_math2['question'],
+    "DeepMind Math": clean_math['question'],
+    "MMMLU": MMMLU['question'],
+    "MMMU": MMMU['question'],
+    "ScienceQA": ScienceQA['question'],
+    "PubmedQA": PubmedQA['question']
+}
+all_questions = (
+    list(D["GSM8k"]) +
+    list(D["Olympiad"]) +
+    list(D["MMMLU"]) +
+    list(D["MMMU"]) +
+    list(D["DeepMind Math"]) +
+    list(D["Olympiad2"]) +
+    list(D["ScienceQA"]) +
+    list(D["PubmedQA"])
+)
+emb = HuggingFaceEmbeddings(
+    model_name="google/embeddinggemma-300m",
+    encode_kwargs={"normalize_embeddings": True},
+)
+texts = all_questions
+index = VectorStoreIndex.from_documents([Document(text=t) for t in texts], embed_model=emb)
+#Retriever tool
+@tool
+def QuestionRetrieverTool(subject: str, topic: str, grade: str) -> dict:
+    """ Retrieve up to 5 closely-related example Q&A pairs from the source datasets.
+    description = (
+        "Retrieve up to 5 closely-related example Q&A pairs from the source datasets."
+    )
+    Args:
+        subject: The subject area (e.g., "Math", "Science"). type: "string",
+        topic: The specific topic within the subject (e.g., "Algebra", "Biology"). type: "string",
+        grade: The grade level (e.g., "5th", "8th"). type: "string"
+    Returns:
+        A dictionary with:
+            closest questions found for: dict with subject, topic, grade
+            questions: List of up to 5 dicts with question text.
+    }"""
+    query = f"{topic} question for {grade} of the {subject}"
+    results = index.as_retriever(similarity_top_k=5).retrieve(query)
+    question_texts = [r.node.text for r in results]
+    return {"closest questions found for": {
+        "subject": subject,
+        "topic": topic,
+        "grade": grade,},
+        "questions": [{"text": question} for question in question_texts]
+    }
+# Scoring tool
+@tool
+def classify_and_score(
+    question: str,
+    target_bloom: str,
+    target_dok: str,
+    agg: str = "max"
+) -> dict:
+    """Classify a question against Bloom’s and DOK targets and return guidance.
+    Args:
+        question: The question text to evaluate for cognitive demand.
+        target_bloom: Target Bloom’s level or range. Accepts exact (e.g., "Analyze")
+            or plus form (e.g., "Apply+") meaning that level or higher.
+        target_dok: Target DOK level or range. Accepts exact (e.g., "DOK3")
+            or span (e.g., "DOK2-DOK3").
+        agg: Aggregation method over phrase similarities within a level
+            (choices: "mean", "max", "topk_mean").
+    Returns:
+        A dictionary with:
+            ok: True if both Bloom’s and DOK match the targets.
+            measured: Dict with best levels and per-level scores for Bloom’s and DOK.
+            feedback: Brief guidance describing how to adjust the question to hit targets.
+    """
+    res = classify_levels_phrases(
+        question,
+        BLOOMS_PHRASES,
+        DOK_PHRASES,
+        backend=_backend,
+        prebuilt_bloom_index=_BLOOM_INDEX,
+        prebuilt_dok_index=_DOK_INDEX,
+        agg=agg,
+        return_phrase_matches=True
+    )
+    def _parse_target_bloom(t: str):
+        order = ["Remember","Understand","Apply","Analyze","Evaluate","Create"]
+        if t.endswith("+"):
+            base = t[:-1]
+            return set(order[order.index(base):])
+        return {t}
+    def _parse_target_dok(t: str):
+        order = ["DOK1","DOK2","DOK3","DOK4"]
+        if "-" in t:
+            lo, hi = t.split("-")
+            return set(order[order.index(lo):order.index(hi)+1])
+        return {t}
+    bloom_target_set = _parse_target_bloom(target_bloom)
+    dok_target_set = _parse_target_dok(target_dok)
+    bloom_best = res["blooms"]["best_level"]
+    dok_best = res["dok"]["best_level"]
+    bloom_ok = bloom_best in bloom_target_set
+    dok_ok = dok_best in dok_target_set
+    feedback_parts = []
+    if not bloom_ok:
+        feedback_parts.append(
+            f"Shift Bloom’s from {bloom_best} toward {sorted(bloom_target_set)}. "
+            f"Top cues: {res['blooms']['top_phrases'].get(bloom_best, [])[:3]}"
+        )
+    if not dok_ok:
+        feedback_parts.append(
+            f"Shift DOK from {dok_best} toward {sorted(dok_target_set)}. "
+            f"Top cues: {res['dok']['top_phrases'].get(dok_best, [])[:3]}"
+        )
+    return {
+        "ok": bool(bloom_ok and dok_ok),
+        "measured": {
+            "bloom_best": bloom_best,
+            "bloom_scores": res["blooms"]["scores"],
+            "dok_best": dok_best,
+            "dok_scores": res["dok"]["scores"],
+        },
+        "feedback": " ".join(feedback_parts) if feedback_parts else "On target.",
     }