TPGTP

File size: 2,168 Bytes

5513fd3
 
 
f0bdac0
 
 
 
 
 
 
 
 
5513fd3
 
f0bdac0
5513fd3
f0bdac0
 
5513fd3
f0bdac0
5513fd3
f0bdac0
5513fd3
f0bdac0
5513fd3
f0bdac0
 
 
 
 
 
 
5513fd3
f0bdac0
5513fd3
f0bdac0
5513fd3
f0bdac0
 
 
 
5513fd3
f0bdac0
5513fd3
f0bdac0
5513fd3
f0bdac0
 
 
5513fd3
f0bdac0
 
5513fd3
f0bdac0
 
 
5513fd3
f0bdac0

---
base_model: google/gemma-3-1b-it
library_name: peft
tags:
  - gemma
  - peft
  - lora
  - classification
  - korean
  - academic-conference
  - lightweight-model
license: apache-2.0
---

# 논문 제목 → 학술대회 분류 LLM (IITP 실무 기반 경량 AI)

이 모델은 논문 제목을 입력하면 해당 논문이 발표될 가능성이 높은 학술대회를 예측하는 한국어 경량 LLM입니다.  
Agent AI 활용 확산과 맞물려, 연구현장에서 자연어 기반의 분류 업무를 자동화할 수 있도록 실무 데이터를 기반으로 구축하였습니다.

본 프로젝트는 정보통신기획평가원(IITP)의 정책 수혜자로서, 실제 기관에서 직면한 '논문-학술대회 분류' 업무를 효율화하는 데 기여하고자 기획되었습니다.

---

## 🧠 Model Details

- **Base Model**: `google/gemma-3-1b-it`
- **Fine-tuning method**: LoRA (PEFT)
- **Language**: Korean
- **Task**: Classification (논문 제목 → 학술대회)
- **Developed by**: 변정흠
- **Affiliation**: 정보통신기획평가원(IITP) 업무 지원용 Test 모델
- **Fine-tuned on**: 한국연구재단 학술대회 논문심사 데이터 (공개 CSV 활용)

---

## 🧾 Dataset

- **원본**: `한국연구재단_학술대회논문심사_20241231.csv`
- **구성**: `{"text": 논문 제목, "label": 학술대회명}` 형태의 JSONL 변환
- **샘플 수**: 약 9,000건
- **전처리 방식**: `[INST] 논문 제목: {제목} 어떤 학술대회명인가요? [/INST] {학술대회명}` 형식으로 Prompt 생성

---

## 🚀 Model Usage

```python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained("JeongHeum/gemma3-korean-academic-classifier")
tokenizer = AutoTokenizer.from_pretrained("JeongHeum/gemma3-korean-academic-classifier")

prompt = "[INST] 논문 제목: 딥러닝 기반 한국어 음성 인식 시스템 [/INST]"
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=20)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))
# 예시 출력: 한국음성처리학회