Unified Personalized Reward Model for Vision Generation

Yibin Wang^1,2, Yuhang Zang⁴, Feng Han^1,2,
Jiazi Bu^3,4, Yujie Zhou^3,4, Cheng Jin^1,2, Jiaqi Wang²

¹Fudan University, ²Shanghai Innovation Institute,
³Shanghai Jiaotong University, ⁴Shanghai AI Lab

Paper UnifiedReward-Flex Pref-GRPO

🤗

Checkpoints

🤗

Dataset

Reward Model Comparison

Text-to-Image Generation GRPO

Text-to-Video Generation GRPO

Training Progress Visualization

BibTeX


    @article{unifiedreward-flex,
      title={Unified Personalized Reward Model for Vision Generation},
      author={Wang, Yibin and Zang, Yuhang and Han, Feng and Bu, Jiazi and Zhou, Yujie and Jin, Cheng and Wang, Jiaqi},
      journal={arXiv preprint arXiv:2602.02380},
      year={2026}
    }

Video Comparison (Wan2.1-T2V-14B)

2 guys talking near a big tree, animation style

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

Alien couple performing a massive concert in a violet cyberpunk world, vibrant, psychdellic 4k, 1080p

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

An Iron man is playing the electronic guitar, high electronic guitar

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

Origami dancers in white paper, 3D render, on white background, studio shot, dancing modern dance

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

Robot dancing in Times Square

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

all AI models fighting in mortal kombat

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

human girl talk to cute dragon, pixar, disney

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

unicorn running in the beautiful garden with rainbow

Wan2.1-T2V-14B

GRPO w/UnifiedReward-Flex

Video Comparison (Wan2.2-T2V-A14B)

A cat wearing sunglasses and working as a lifeguard at a pool

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

A super robot protecting city

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

A super cool giant robot in Cyberpunk Beijing

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

Marie Curie real life working in a lab

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

Scarlet Witch fighting a Dragon in Skyrim

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

Robot dancing in Times Square

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

a magical girl 20 year old turn into a anti hero

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

cyborg samurai robot bunnies fighting in a forest

Wan2.2-T2V-A14B

GRPO w/UnifiedReward-Flex

carnatic music troupe event on stage, young indian woman in traditional saree sitting with veena, beautiful young indian woman in saree singing, handsome young indian man playing flute