opd_zt — Qwen2.5-VL 视频幻觉抑制项目存档

本仓库是 opd_zt 工作目录的完整存档(checkpoints + 数据 + 代码 + 实验输出)。 研究路线:先做 冷启动 CoT SFT(OMNEX-VL 风格四阶段思维链),再做 视频幻觉强化学习(RL),基座为 Qwen2.5-VL-7B

⚠️ 上传时已排除:.env(密钥)、.venv.pip_cachehf_cache.git.cache(均为本地环境/可重新下载的缓存)。


📁 目录结构与内容

ckpts/ — 训练 checkpoint(~371 GB)

路径 大小 说明
ckpts/qwen25vl_7b_coldstart_cot/checkpoint-500/ 冷启动 CoT SFT,第 500 步(HF Trainer + DeepSpeed ZeRO 格式,含 global_step500/mp_rank_*bf16_zero_*optim_states.pt)
ckpts/qwen25vl_7b_coldstart_cot/checkpoint-1000/ 合计 248 GB 冷启动 CoT SFT,第 1000 步
ckpts/qwen25vl_7b_from_72b_videohallu_5k/global_step_468/ 视频幻觉 RL 的 verl/FSDP 分片 actor checkpoint(actor/optim_world_size_4_rank_*.pt)
ckpts/qwen25vl_7b_from_72b_videohallu_5k/hf_merged_step200/ 合计 124 GB 已合并为 HF 格式,可直接 from_pretrained 加载(step200)
ckpts/qwen25vl_7b_from_72b_videohallu_5k/hf_merged_step468/ 已合并为 HF 格式,可直接加载(step468)

训练用 5k 视频幻觉样本,从 72B 蒸馏/迁移到 7B。hf_merged_* 是可直接推理的合并权重;global_step_* 是用于续训/恢复的分片格式。

data/ — 数据集(原 86 GB,视频打包后约 92 GB)

路径 大小 说明
data/videos_archive/ 61 GB 视频数据的分卷压缩包(见下方说明)。原始 data/videos/(6691 个 mp4/mkv)未直接上传,而是打包成 7 个分卷
data/benchmarks/ 18 GB 评测基准:EventHallusionVideoHallucer
data/raw/ 7.2 GB 原始数据
data/coldstart_dataset/ 56 MB 冷启动 CoT SFT 训练集
data/filtered/ 6.2 MB 过滤后的数据

scripts/ — 代码与流水线脚本

冷启动/SFT、RL、评测、消融、注意力分析等: build_coldstart_cot.pysft_coldstart.pybuild_sft_dataset.pylaunch_opd.sheval_hallu.py / eval_hallu_dp.shbuild_fg_negatives.pyframe_attention_probe.pylayer_resolved_attention.pyframe_ablation.pystage_d_video_filter.pyfilter_videos.pydownload_datasets.pymerge_shards.py 等。

configs/ — 训练/推理配置

opd_qwen25vl.shcd_opd_qwen25vl.shcoldstart_sft.sh、DeepSpeed 配置 zero2.json / zero2_noopt.json

verl_repo/ — RL 训练框架(verl)源码(~17 MB)

outputs/ — 实验输出(~420 MB)

eval/fg_negatives*/frame_attention*/frame_ablation*/ 等。

logs/docs/

训练日志;设计文档 docs/cd_opd_design.md


🎬 视频分卷压缩包的还原

data/videos_archive/ 内是把原 data/videos/ 打包后的未压缩 tar,按 10 GB 分割成 7 卷 (videos.tar.part-00videos.tar.part-06,视频本身已是压缩格式,故不再 gzip)。

cd data/videos_archive
# 1) 校验完整性(可选)
sha256sum -c videos.tar.sha256
# 2) 合并并解包(直接流式解包,无需先落盘)
cat videos.tar.part-* | tar -xf - -C /目标路径/data    # 解出 data/videos/...

详见 data/videos_archive/README.md


🚀 下载

pip install -U "huggingface_hub[hf_transfer]"
HF_HUB_ENABLE_HF_TRANSFER=1 hf download sdzt/opd_zt --repo-type model --local-dir ./opd_zt
Downloads last month

-

Downloads are not tracked for this model. How to track
Video Preview
loading