Add VLAlert code

1e05592 verified 16 days ago

23.4 kB

	#!/usr/bin/env python3
	"""
	DPO Trainer — aligns HazardHead alert timing via Direct Preference Optimization.

	Architecture
	------------
	Base: SFTModel (VLM + LoRA + BeliefAggregator + HazardHead + TTAHead)
	loaded from SFT best checkpoint; VLM / TTAHead / BeliefAggregator FROZEN.

	Trainable: HazardHead only (~2 k params)

	Reference: frozen copy of the initial SFT HazardHead (for DPO implicit reward)

	Loss
	----
	L = L_DPO + lambda_reg * L_reg

	L_DPO = -log σ(β · [(log P_θ(alert\|chosen) - log P_ref(alert\|chosen))
	- (log P_θ(alert\|rejected) - log P_ref(alert\|rejected))])

	L_reg = BCE(logit_chosen, 1) # keep detecting hazards in chosen windows
	+ BCE(logit_rejected, 0) # keep suppressing hazards in rejected windows

	Checkpoint selection: val DPO accuracy
	= fraction of pairs where P_θ(alert\|chosen) > P_θ(alert\|rejected)

	Usage
	-----
	python -m training.DPO.trainer \
	--sft_checkpoint checkpoints/SFT/sft_v2/best \
	--pair_dir data/dpo_pairs \
	--output_dir checkpoints/DPO \
	--experiment_name dpo_v1
	"""

	from __future__ import annotations

	import argparse
	import copy
	import json
	import logging
	from pathlib import Path
	from typing import Any, Dict, List, Optional, Tuple

	import numpy as np
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torch.amp import autocast
	from torch.optim import AdamW
	from torch.utils.data import DataLoader
	from tqdm import tqdm

	try:
	import wandb
	HAS_WANDB = True
	except ImportError:
	HAS_WANDB = False

	from .dataset import DPODataset, dpo_collate_fn

	# Import SFT infrastructure
	import sys
	sys.path.insert(0, str(Path(__file__).resolve().parent.parent.parent))
	from training.SFT.trainer import SFTModel, load_sft_heads, _is_sft_ckpt_dir

	logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")
	logger = logging.getLogger("DPO.trainer")

	SYSTEM = "You are a driving safety AI analyzing dashcam footage for collision risk."


	# ─────────────────────────────────────────────────────────────────────────────
	# Prompt builder (identical to SFT evaluate.py)
	# ─────────────────────────────────────────────────────────────────────────────

	def _build_prompt(metadata: dict) -> str:
	parts = []
	if metadata.get("weather"): parts.append(f"Weather: {metadata['weather']}")
	if metadata.get("road_type"): parts.append(f"Road: {metadata['road_type']}")
	if metadata.get("time_of_day"): parts.append(f"Time: {metadata['time_of_day']}")
	ctx = ", ".join(parts) or "Urban driving"
	return (
	f"Analyze this driving sequence.\n"
	f"Context: {ctx}\n"
	f"Estimate the time to potential collision. Output a single number in seconds."
	)


	# ─────────────────────────────────────────────────────────────────────────────
	# DPO loss
	# ─────────────────────────────────────────────────────────────────────────────

	def compute_dpo_loss(
	logit_chosen: torch.Tensor, # [B] policy logit for chosen window
	logit_rejected: torch.Tensor, # [B] policy logit for rejected window
	ref_logit_chosen: torch.Tensor, # [B] reference logit (frozen)
	ref_logit_rejected: torch.Tensor, # [B] reference logit (frozen)
	beta: float = 0.1,
	) -> Tuple[torch.Tensor, Dict[str, float]]:
	"""
	Standard DPO loss for binary alert policy.

	log P(alert \| x) = log σ(logit) [binary action]
	"""
	# log π_θ(alert \| ·)
	log_pi_chosen = -F.softplus(-logit_chosen.float())
	log_pi_rejected = -F.softplus(-logit_rejected.float())

	# log π_ref(alert \| ·)
	with torch.no_grad():
	log_ref_chosen = -F.softplus(-ref_logit_chosen.float())
	log_ref_rejected = -F.softplus(-ref_logit_rejected.float())

	reward_chosen = log_pi_chosen - log_ref_chosen # implicit reward margin
	reward_rejected = log_pi_rejected - log_ref_rejected

	loss = -F.logsigmoid(beta * (reward_chosen - reward_rejected)).mean()

	# ── metrics ──────────────────────────────────────────────────────────────
	with torch.no_grad():
	acc = float(((logit_chosen > logit_rejected).float()).mean().item())
	margin = float((torch.sigmoid(logit_chosen) - torch.sigmoid(logit_rejected)).mean().item())

	return loss, {
	"dpo_loss": float(loss.detach()),
	"dpo_acc": acc,
	"prob_margin": margin,
	"prob_chosen": float(torch.sigmoid(logit_chosen).mean().detach()),
	"prob_rejected": float(torch.sigmoid(logit_rejected).mean().detach()),
	}


	# ─────────────────────────────────────────────────────────────────────────────
	# DPO Model wrapper
	# ─────────────────────────────────────────────────────────────────────────────

	class DPOModel(nn.Module):
	"""
	Wraps SFTModel for DPO training.

	Only HazardHead is trainable; everything else is frozen.
	Keeps a frozen reference copy of the initial SFT HazardHead.
	"""

	def __init__(
	self,
	sft_checkpoint_dir: str,
	use_bf16: bool = True,
	):
	super().__init__()
	ckpt = Path(sft_checkpoint_dir)
	if not _is_sft_ckpt_dir(ckpt):
	raise RuntimeError(f"Not a valid SFT checkpoint: {ckpt}")

	with open(ckpt / "config.json") as f:
	cfg = json.load(f)

	model_name = cfg["model_name"]

	logger.info(f"Loading SFTModel from {ckpt} ...")
	self.sft = SFTModel(
	model_name = model_name,
	pretrained_lora_path = str(ckpt / "vlm_lora"),
	belief_strategy = cfg.get("belief_strategy", "mean_pool"),
	tta_intermediate_dim = cfg.get("tta_intermediate_dim", 512),
	use_lora = True,
	use_bf16 = use_bf16,
	device = "auto",
	)
	load_sft_heads(self.sft, ckpt)

	# ── freeze everything except HazardHead ──────────────────────────────
	for param in self.sft.vlm.parameters():
	param.requires_grad = False
	for param in self.sft.belief_aggregator.parameters():
	param.requires_grad = False
	for param in self.sft.tta_head.parameters():
	param.requires_grad = False
	# HazardHead remains trainable

	# ── frozen reference copy of HazardHead ──────────────────────────────
	self.ref_hazard_head = copy.deepcopy(self.sft.hazard_head)
	for param in self.ref_hazard_head.parameters():
	param.requires_grad = False
	self.ref_hazard_head.to(self.sft.device)

	trainable = sum(p.numel() for p in self.parameters() if p.requires_grad)
	total = sum(p.numel() for p in self.parameters())
	logger.info(f"Trainable params: {trainable:,} / Total: {total:,}")

	self.processor = self.sft.processor
	self.hidden_dim = self.sft.hidden_dim
	self._sft_ckpt_dir = ckpt # kept for save_checkpoint

	@property
	def device(self):
	return self.sft.device

	def _build_inputs(
	self,
	images: List[List], # [B, n_frames]
	metadata: List[dict],
	) -> dict:
	proc = self.processor
	apply_chat = (
	proc.apply_chat_template
	if hasattr(proc, "apply_chat_template")
	else proc.tokenizer.apply_chat_template
	)
	texts = []
	for i in range(len(images)):
	frames = images[i]
	content = [{"type": "image"} for _ in range(len(frames))]
	content.append({"type": "text", "text": _build_prompt(metadata[i])})
	msgs = [
	{"role": "system", "content": SYSTEM},
	{"role": "user", "content": content},
	]
	texts.append(apply_chat(msgs, tokenize=False, add_generation_prompt=False))
	return proc(text=texts, images=images,
	return_tensors="pt", padding=True, truncation=True)

	def forward_pair(
	self,
	chosen_images: List[List],
	chosen_metadata: List[dict],
	rejected_images: List[List],
	rejected_metadata:List[dict],
	amp_dtype: torch.dtype = torch.bfloat16,
	) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
	"""
	Returns:
	logit_chosen, logit_rejected,
	ref_logit_chosen, ref_logit_rejected (all [B])
	"""
	inputs_c = self._build_inputs(chosen_images, chosen_metadata)
	inputs_r = self._build_inputs(rejected_images, rejected_metadata)

	# VLM is frozen → run in no_grad to save peak memory
	with torch.no_grad():
	with autocast(device_type="cuda", dtype=amp_dtype, enabled=True):
	belief_c = self.sft.encode_observation(inputs_c)
	belief_r = self.sft.encode_observation(inputs_r)

	# HazardHead forward (trainable)
	with autocast(device_type="cuda", dtype=amp_dtype, enabled=True):
	logit_c = self.sft.hazard_head(belief_c)
	logit_r = self.sft.hazard_head(belief_r)

	# Reference head (frozen)
	with torch.no_grad():
	with autocast(device_type="cuda", dtype=amp_dtype, enabled=True):
	ref_c = self.ref_hazard_head(belief_c.detach())
	ref_r = self.ref_hazard_head(belief_r.detach())

	return logit_c, logit_r, ref_c, ref_r

	def save_checkpoint(self, save_dir: str, epoch: int = 0, step: int = 0):
	save_dir = Path(save_dir)
	save_dir.mkdir(parents=True, exist_ok=True)

	# Save updated HazardHead
	torch.save(self.sft.hazard_head.state_dict(), save_dir / "hazard_head.pt")
	# Also save LoRA (unchanged) and other SFT heads for a complete loadable checkpoint
	lora_dir = save_dir / "vlm_lora"
	self.sft.vlm.save_pretrained(lora_dir)
	torch.save(self.sft.belief_aggregator.state_dict(), save_dir / "belief_aggregator.pt")
	torch.save(self.sft.tta_head.state_dict(), save_dir / "tta_head.pt")

	# Copy SFT config + update epoch/step
	with open(self._sft_ckpt_dir / "config.json") as f:
	cfg = json.load(f)
	cfg["epoch"] = epoch
	cfg["step"] = step
	with open(save_dir / "config.json", "w") as f:
	json.dump(cfg, f, indent=2)

	logger.info(f"✅ Checkpoint saved to {save_dir}")


	# ─────────────────────────────────────────────────────────────────────────────
	# DPO Trainer
	# ─────────────────────────────────────────────────────────────────────────────

	class DPOTrainer:

	def __init__(
	self,
	model: DPOModel,
	train_loader: DataLoader,
	val_loader: DataLoader,
	output_dir: str,
	experiment_name: str = "dpo_v1",
	num_epochs: int = 5,
	learning_rate: float = 5e-5,
	beta: float = 0.1,
	lambda_reg: float = 0.5,
	gradient_accumulation_steps: int = 1,
	max_grad_norm: float = 1.0,
	val_every_n_steps: int = 500,
	use_wandb: bool = False,
	):
	self.model = model
	self.train_loader = train_loader
	self.val_loader = val_loader
	self.output_dir = Path(output_dir)
	self.experiment_name = experiment_name
	self.num_epochs = num_epochs
	self.beta = beta
	self.lambda_reg = lambda_reg
	self.grad_accum = gradient_accumulation_steps
	self.max_grad_norm = max_grad_norm
	self.val_every = val_every_n_steps
	self.use_wandb = use_wandb and HAS_WANDB

	self.exp_dir = self.output_dir / experiment_name
	self.exp_dir.mkdir(parents=True, exist_ok=True)

	# Only optimise HazardHead
	self.optimizer = AdamW(
	[p for p in model.parameters() if p.requires_grad],
	lr=learning_rate,
	weight_decay=0.01,
	)
	self.global_step = 0
	self.best_val_acc = float("-inf")

	if self.use_wandb:
	wandb.init(project="lkalert-dpo", name=experiment_name,
	config={"beta": beta, "lambda_reg": lambda_reg,
	"lr": learning_rate, "epochs": num_epochs})
	logger.info(f"✅ DPOTrainer ready exp={experiment_name} "
	f"steps/epoch≈{len(train_loader)}")

	# ── single training step ──────────────────────────────────────────────────

	def train_step(self, batch: dict) -> dict:
	self.model.train()
	amp_dtype = torch.bfloat16

	logit_c, logit_r, ref_c, ref_r = self.model.forward_pair(
	batch["chosen_images"], batch["chosen_metadata"],
	batch["rejected_images"], batch["rejected_metadata"],
	amp_dtype=amp_dtype,
	)

	# DPO loss
	l_dpo, dpo_metrics = compute_dpo_loss(
	logit_c, logit_r, ref_c, ref_r, beta=self.beta
	)

	# Regularisation: BCE on chosen (should be 1) and rejected (should be 0)
	ones = torch.ones_like(logit_c.float())
	zeros = torch.zeros_like(logit_r.float())
	l_reg = 0.5 * (F.binary_cross_entropy_with_logits(logit_c.float(), ones)
	+ F.binary_cross_entropy_with_logits(logit_r.float(), zeros))

	loss = l_dpo + self.lambda_reg * l_reg

	loss = loss / self.grad_accum
	loss.backward()

	return {**dpo_metrics,
	"reg_loss": float(l_reg.detach()),
	"total_loss": float((l_dpo + self.lambda_reg * l_reg).detach())}

	# ── validation loop ───────────────────────────────────────────────────────

	@torch.no_grad()
	def validate(self) -> dict:
	self.model.eval()
	amp_dtype = torch.bfloat16

	accs, margins = [], []
	prob_c_list, prob_r_list = [], []

	for batch in tqdm(self.val_loader, desc=" Val", ncols=70, leave=False):
	logit_c, logit_r, ref_c, ref_r = self.model.forward_pair(
	batch["chosen_images"], batch["chosen_metadata"],
	batch["rejected_images"], batch["rejected_metadata"],
	amp_dtype=amp_dtype,
	)
	_, m = compute_dpo_loss(logit_c, logit_r, ref_c, ref_r, beta=self.beta)
	accs.append(m["dpo_acc"])
	margins.append(m["prob_margin"])
	prob_c_list.append(m["prob_chosen"])
	prob_r_list.append(m["prob_rejected"])

	return {
	"val_dpo_acc": float(np.mean(accs)),
	"val_prob_margin": float(np.mean(margins)),
	"val_prob_chosen": float(np.mean(prob_c_list)),
	"val_prob_rejected": float(np.mean(prob_r_list)),
	}

	# ── main training loop ────────────────────────────────────────────────────

	def train(self):
	logger.info("=" * 60)
	logger.info(f"Starting DPO training: {self.experiment_name}")
	logger.info("=" * 60)

	for epoch in range(self.num_epochs):
	self.optimizer.zero_grad()
	accum_metrics: Dict[str, List[float]] = {}

	pbar = tqdm(self.train_loader, desc=f"Epoch {epoch+1}/{self.num_epochs}",
	ncols=80)

	for step_in_epoch, batch in enumerate(pbar):
	metrics = self.train_step(batch)
	self.global_step += 1

	for k, v in metrics.items():
	accum_metrics.setdefault(k, []).append(v)

	# Optimiser update
	if self.global_step % self.grad_accum == 0:
	nn.utils.clip_grad_norm_(
	[p for p in self.model.parameters() if p.requires_grad],
	self.max_grad_norm,
	)
	self.optimizer.step()
	self.optimizer.zero_grad()

	pbar.set_postfix({
	"dpo": f"{metrics.get('dpo_loss', 0):.3f}",
	"acc": f"{metrics.get('dpo_acc', 0):.3f}",
	})

	# Periodic validation
	if self.global_step % self.val_every == 0:
	val = self.validate()
	avg = {k: float(np.mean(v)) for k, v in accum_metrics.items()}
	logger.info(
	f"Step {self.global_step:6d} \| "
	f"dpo_loss={avg.get('dpo_loss', 0):.3f} "
	f"train_acc={avg.get('dpo_acc', 0):.3f} "
	f"val_acc={val['val_dpo_acc']:.3f} "
	f"margin={val['val_prob_margin']:.3f}"
	)
	if self.use_wandb:
	wandb.log({avg, val, "step": self.global_step})

	if val["val_dpo_acc"] > self.best_val_acc:
	self.best_val_acc = val["val_dpo_acc"]
	self.model.save_checkpoint(
	str(self.exp_dir / "best"),
	epoch=epoch, step=self.global_step,
	)
	logger.info(f" ✅ New best val_acc={self.best_val_acc:.4f}")

	accum_metrics = {}

	# Epoch-end validation
	val = self.validate()
	logger.info(
	f"Epoch {epoch+1} end \| "
	f"val_acc={val['val_dpo_acc']:.3f} "
	f"margin={val['val_prob_margin']:.3f} "
	f"P(chosen)={val['val_prob_chosen']:.3f} "
	f"P(rejected)={val['val_prob_rejected']:.3f}"
	)

	# Save epoch checkpoint
	self.model.save_checkpoint(
	str(self.exp_dir / f"epoch_{epoch+1}"),
	epoch=epoch, step=self.global_step,
	)

	if val["val_dpo_acc"] > self.best_val_acc:
	self.best_val_acc = val["val_dpo_acc"]
	self.model.save_checkpoint(
	str(self.exp_dir / "best"),
	epoch=epoch, step=self.global_step,
	)

	logger.info(f"Training complete. Best val_dpo_acc={self.best_val_acc:.4f}")


	# ─────────────────────────────────────────────────────────────────────────────
	# Main
	# ─────────────────────────────────────────────────────────────────────────────

	def main():
	parser = argparse.ArgumentParser("DPO trainer")
	parser.add_argument("--sft_checkpoint", required=True,
	help="Path to SFT best checkpoint dir")
	parser.add_argument("--pair_dir", default="data/dpo_pairs")
	parser.add_argument("--output_dir", default="checkpoints/DPO")
	parser.add_argument("--experiment_name", default="dpo_v1")
	parser.add_argument("--num_epochs", type=int, default=5)
	parser.add_argument("--batch_size", type=int, default=4)
	parser.add_argument("--learning_rate", type=float, default=5e-5)
	parser.add_argument("--beta", type=float, default=0.1,
	help="DPO temperature β")
	parser.add_argument("--lambda_reg", type=float, default=0.5,
	help="SFT regularisation weight")
	parser.add_argument("--gradient_accumulation_steps", type=int, default=2)
	parser.add_argument("--max_grad_norm", type=float, default=1.0)
	parser.add_argument("--val_every_n_steps",type=int, default=500)
	parser.add_argument("--use_wandb", action="store_true")
	parser.add_argument("--debug", action="store_true")
	parser.add_argument("--debug_samples", type=int, default=64)
	args = parser.parse_args()

	pair_dir = Path(args.pair_dir)

	train_manifests = [
	pair_dir / "nexar_train.json",
	pair_dir / "dada_train.json",
	]
	val_manifests = [
	pair_dir / "nexar_val.json",
	pair_dir / "dada_val.json",
	]

	train_ds = DPODataset(train_manifests, split="train",
	debug=args.debug, debug_samples=args.debug_samples)
	val_ds = DPODataset(val_manifests, split="val",
	debug=args.debug, debug_samples=args.debug_samples // 4)

	train_loader = DataLoader(train_ds, batch_size=args.batch_size, shuffle=True,
	collate_fn=dpo_collate_fn, num_workers=4, pin_memory=True)
	val_loader = DataLoader(val_ds, batch_size=args.batch_size, shuffle=False,
	collate_fn=dpo_collate_fn, num_workers=4, pin_memory=True)

	model = DPOModel(sft_checkpoint_dir=args.sft_checkpoint, use_bf16=True)

	trainer = DPOTrainer(
	model = model,
	train_loader = train_loader,
	val_loader = val_loader,
	output_dir = args.output_dir,
	experiment_name = args.experiment_name,
	num_epochs = args.num_epochs,
	learning_rate = args.learning_rate,
	beta = args.beta,
	lambda_reg = args.lambda_reg,
	gradient_accumulation_steps = args.gradient_accumulation_steps,
	max_grad_norm = args.max_grad_norm,
	val_every_n_steps= args.val_every_n_steps,
	use_wandb = args.use_wandb,
	)
	trainer.train()


	if __name__ == "__main__":
	main()