opd_zt — Qwen2.5-VL 视频幻觉抑制项目存档
本仓库是 opd_zt 工作目录的完整存档(checkpoints + 数据 + 代码 + 实验输出)。
研究路线:先做 冷启动 CoT SFT(OMNEX-VL 风格四阶段思维链),再做 视频幻觉强化学习(RL),基座为 Qwen2.5-VL-7B。
⚠️ 上传时已排除:
.env(密钥)、.venv、.pip_cache、hf_cache、.git、.cache(均为本地环境/可重新下载的缓存)。
📁 目录结构与内容
ckpts/ — 训练 checkpoint(~371 GB)
| 路径 | 大小 | 说明 |
|---|---|---|
ckpts/qwen25vl_7b_coldstart_cot/checkpoint-500/ |
冷启动 CoT SFT,第 500 步(HF Trainer + DeepSpeed ZeRO 格式,含 global_step500/ 的 mp_rank_* 与 bf16_zero_*optim_states.pt) |
|
ckpts/qwen25vl_7b_coldstart_cot/checkpoint-1000/ |
合计 248 GB | 冷启动 CoT SFT,第 1000 步 |
ckpts/qwen25vl_7b_from_72b_videohallu_5k/global_step_468/ |
视频幻觉 RL 的 verl/FSDP 分片 actor checkpoint(actor/optim_world_size_4_rank_*.pt) |
|
ckpts/qwen25vl_7b_from_72b_videohallu_5k/hf_merged_step200/ |
合计 124 GB | 已合并为 HF 格式,可直接 from_pretrained 加载(step200) |
ckpts/qwen25vl_7b_from_72b_videohallu_5k/hf_merged_step468/ |
已合并为 HF 格式,可直接加载(step468) |
训练用 5k 视频幻觉样本,从 72B 蒸馏/迁移到 7B。
hf_merged_*是可直接推理的合并权重;global_step_*是用于续训/恢复的分片格式。
data/ — 数据集(原 86 GB,视频打包后约 92 GB)
| 路径 | 大小 | 说明 |
|---|---|---|
data/videos_archive/ |
61 GB | 视频数据的分卷压缩包(见下方说明)。原始 data/videos/(6691 个 mp4/mkv)未直接上传,而是打包成 7 个分卷 |
data/benchmarks/ |
18 GB | 评测基准:EventHallusion、VideoHallucer |
data/raw/ |
7.2 GB | 原始数据 |
data/coldstart_dataset/ |
56 MB | 冷启动 CoT SFT 训练集 |
data/filtered/ |
6.2 MB | 过滤后的数据 |
scripts/ — 代码与流水线脚本
冷启动/SFT、RL、评测、消融、注意力分析等:
build_coldstart_cot.py、sft_coldstart.py、build_sft_dataset.py、launch_opd.sh、
eval_hallu.py / eval_hallu_dp.sh、build_fg_negatives.py、frame_attention_probe.py、
layer_resolved_attention.py、frame_ablation.py、stage_d_video_filter.py、
filter_videos.py、download_datasets.py、merge_shards.py 等。
configs/ — 训练/推理配置
opd_qwen25vl.sh、cd_opd_qwen25vl.sh、coldstart_sft.sh、DeepSpeed 配置 zero2.json / zero2_noopt.json。
verl_repo/ — RL 训练框架(verl)源码(~17 MB)
outputs/ — 实验输出(~420 MB)
eval/、fg_negatives*/、frame_attention*/、frame_ablation*/ 等。
logs/、docs/
训练日志;设计文档 docs/cd_opd_design.md。
🎬 视频分卷压缩包的还原
data/videos_archive/ 内是把原 data/videos/ 打包后的未压缩 tar,按 10 GB 分割成 7 卷
(videos.tar.part-00 … videos.tar.part-06,视频本身已是压缩格式,故不再 gzip)。
cd data/videos_archive
# 1) 校验完整性(可选)
sha256sum -c videos.tar.sha256
# 2) 合并并解包(直接流式解包,无需先落盘)
cat videos.tar.part-* | tar -xf - -C /目标路径/data # 解出 data/videos/...
详见 data/videos_archive/README.md。
🚀 下载
pip install -U "huggingface_hub[hf_transfer]"
HF_HUB_ENABLE_HF_TRANSFER=1 hf download sdzt/opd_zt --repo-type model --local-dir ./opd_zt