DynaFLIP-base

This model was proposed in DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation.

Usage

The model is compatible with Transformers:

from transformers import AutoModel, AutoProcessor
from PIL import Image
import torch

REPO = "jlee-larr/dynaflip-base"
dynaflip = AutoModel.from_pretrained(REPO, trust_remote_code=True).eval()
processor = AutoProcessor.from_pretrained(REPO, trust_remote_code=True)

image = Image.open("example.png").convert("RGB")
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    v = dynaflip.vision_outputs(inputs["pixel_values"])

# v.last_hidden_state  -> (B, num_patches, 768)   patch tokens
# v.pooler_output      -> (B, 1536)               CLS + mean(patches)

Citation

@article{lee2026dynaflip,
  title   = {DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation},
  author  = {Lee, Jusuk and Lee, Seungjae and Shin, Jonghun and Jung, Hoseong and Kim, Sungha and Cho, Daesol and Kim, H. Jin and Huang, Jia-Bin and Huang, Furong},
  journal = {arXiv preprint arXiv:2605.30350},
  year    = {2026},
}

Downloads last month: 182

Safetensors

Model size

0.2B params

Tensor type

F32

Paper for jlee-larr/dynaflip-base

DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

Paper • 2605.30350 • Published 7 days ago • 10