Diverse Deception Probes - a AlignmentResearch Collection

AlignmentResearch 's Collections

Diverse Deception Probes

The Obfuscation Atlas

The Obfuscation Altas

Model Organisms of Black Box Monitoring Failure

Diverse Deception Probes

updated 9 days ago

Linear probes trained on diverse deception data to detect dishonest completions across model families (OLMo, Qwen, Gemma).