9 9

Hang

hhua1

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 days ago

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

upvoted a paper 7 days ago

Agent Skills Should Go Beyond Text: The Case for Visual Skills

liked a model 17 days ago

tifa-benchmark/promptcap-coco-vqa

View all activity

Organizations

upvoted a paper 4 days ago

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

Paper • 2606.05080 • Published 6 days ago • 27

upvoted a paper 7 days ago

Agent Skills Should Go Beyond Text: The Case for Visual Skills

Paper • 2606.01414 • Published 9 days ago • 10

liked a model 17 days ago

tifa-benchmark/promptcap-coco-vqa

Image-to-Text • Updated Dec 11, 2023 • 126 • 15

upvoted 2 papers 19 days ago

MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

Paper • 2605.18652 • Published 22 days ago • 8

Aurora: Unified Video Editing with a Tool-Using Agent

Paper • 2605.18748 • Published 22 days ago • 29

upvoted an article 2 months ago

Article

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents

ibm-granite

•

Mar 31

• 34

authored a paper 6 months ago

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Paper • 2511.21087 • Published Nov 26, 2025 • 10

upvoted a paper 6 months ago

MIRA: Multimodal Iterative Reasoning Agent for Image Editing

Paper • 2511.21087 • Published Nov 26, 2025 • 10

upvoted a paper 7 months ago

Latent Chain-of-Thought for Visual Reasoning

Paper • 2510.23925 • Published Oct 27, 2025 • 10

liked 2 models 8 months ago

hhua2/V2Xum-LLM

Robotics • Updated Sep 18, 2025 • 2

hhua2/finecaption

Updated Jun 16, 2025 • 1

liked 3 datasets 8 months ago

upvoted a paper 8 months ago

Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models

Paper • 2510.05034 • Published Oct 6, 2025 • 51

liked 3 models 12 months ago

ibm-granite/granite-vision-3.3-2b

Image-to-Text • 3B • Updated Apr 2 • 142k • 84

ibm-granite/granite-vision-3.1-2b-preview

Image-Text-to-Text • 3B • Updated Jun 12, 2025 • 678 • 114

ibm-granite/granite-vision-3.2-2b

Image-Text-to-Text • 3B • Updated Apr 2 • 7.48k • 123

upvoted a collection 12 months ago

Granite Vision

Collection

Multimodal models built for visual document analysis and image understanding. • 7 items • Updated 18 days ago • 42

Hang

AI & ML interests

Recent Activity

Organizations

hhua1's activity

Granite 4.0 3B Vision: Compact Multimodal Intelligence for Enterprise Documents