opd_zt — Qwen2.5-VL 视频幻觉抑制项目存档

本仓库是 opd_zt 工作目录的完整存档(checkpoints + 数据 + 代码 + 实验输出)。研究路线:先做 冷启动 CoT SFT(OMNEX-VL 风格四阶段思维链),再做 视频幻觉强化学习(RL),基座为 Qwen2.5-VL-7B。

⚠️ 上传时已排除:.env(密钥)、.venv、.pip_cache、hf_cache、.git、.cache(均为本地环境/可重新下载的缓存)。

📁 目录结构与内容

`ckpts/` — 训练 checkpoint(~371 GB)

路径	大小	说明
`ckpts/qwen25vl_7b_coldstart_cot/checkpoint-500/`		冷启动 CoT SFT,第 500 步(HF Trainer + DeepSpeed ZeRO 格式,含 `global_step500/` 的 `mp_rank_` 与 `bf16_zero_optim_states.pt`)
`ckpts/qwen25vl_7b_coldstart_cot/checkpoint-1000/`	合计 248 GB	冷启动 CoT SFT,第 1000 步
`ckpts/qwen25vl_7b_from_72b_videohallu_5k/global_step_468/`		视频幻觉 RL 的 verl/FSDP 分片 actor checkpoint(`actor/optim_world_size_4_rank_*.pt`)
`ckpts/qwen25vl_7b_from_72b_videohallu_5k/hf_merged_step200/`	合计 124 GB	已合并为 HF 格式,可直接 `from_pretrained` 加载(step200)
`ckpts/qwen25vl_7b_from_72b_videohallu_5k/hf_merged_step468/`		已合并为 HF 格式,可直接加载(step468)

训练用 5k 视频幻觉样本,从 72B 蒸馏/迁移到 7B。hf_merged_* 是可直接推理的合并权重;global_step_* 是用于续训/恢复的分片格式。

`data/` — 数据集(原 86 GB,视频打包后约 92 GB)

路径	大小	说明
`data/videos_archive/`	61 GB	视频数据的分卷压缩包(见下方说明)。原始 `data/videos/`(6691 个 mp4/mkv)未直接上传,而是打包成 7 个分卷
`data/benchmarks/`	18 GB	评测基准:`EventHallusion`、`VideoHallucer`
`data/raw/`	7.2 GB	原始数据
`data/coldstart_dataset/`	56 MB	冷启动 CoT SFT 训练集
`data/filtered/`	6.2 MB	过滤后的数据

`scripts/` — 代码与流水线脚本

冷启动/SFT、RL、评测、消融、注意力分析等: build_coldstart_cot.py、sft_coldstart.py、build_sft_dataset.py、launch_opd.sh、 eval_hallu.py / eval_hallu_dp.sh、build_fg_negatives.py、frame_attention_probe.py、 layer_resolved_attention.py、frame_ablation.py、stage_d_video_filter.py、 filter_videos.py、download_datasets.py、merge_shards.py 等。

`configs/` — 训练/推理配置

opd_qwen25vl.sh、cd_opd_qwen25vl.sh、coldstart_sft.sh、DeepSpeed 配置 zero2.json / zero2_noopt.json。

`verl_repo/` — RL 训练框架(verl)源码(~17 MB)

`outputs/` — 实验输出(~420 MB)

eval/、fg_negatives*/、frame_attention*/、frame_ablation*/ 等。

`logs/`、`docs/`

训练日志;设计文档 docs/cd_opd_design.md。

🎬 视频分卷压缩包的还原

data/videos_archive/ 内是把原 data/videos/ 打包后的未压缩 tar,按 10 GB 分割成 7 卷 (videos.tar.part-00 … videos.tar.part-06,视频本身已是压缩格式,故不再 gzip)。

cd data/videos_archive
# 1) 校验完整性(可选)
sha256sum -c videos.tar.sha256
# 2) 合并并解包(直接流式解包,无需先落盘)
cat videos.tar.part-* | tar -xf - -C /目标路径/data    # 解出 data/videos/...

详见 data/videos_archive/README.md。

🚀 下载

pip install -U "huggingface_hub[hf_transfer]"
HF_HUB_ENABLE_HF_TRANSFER=1 hf download sdzt/opd_zt --repo-type model --local-dir ./opd_zt

Downloads last month: -; Downloads are not tracked for this model. How to track

Video Preview

Reinforcement Learning

opd_zt — Qwen2.5-VL 视频幻觉抑制项目存档

📁 目录结构与内容

ckpts/ — 训练 checkpoint(~371 GB)

data/ — 数据集(原 86 GB,视频打包后约 92 GB)

scripts/ — 代码与流水线脚本

configs/ — 训练/推理配置

verl_repo/ — RL 训练框架(verl)源码(~17 MB)

outputs/ — 实验输出(~420 MB)

logs/、docs/