UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Yibin Wang^1,2,3*, Zhimin Li^3*, Yuhang Zang^4*, Yujie Zhou^4,5, Jiazi Bu^4,5, Yi Xin², JunJun He⁴, Chunyu Wang³, Qinglin Lu³^†, Cheng Jin¹^†, Jiaqi Wang²^†,

¹Fudan University, ²Shanghai Innovation Intuition,
³Hunyuan, Tencent, ⁴Shanghai AI Lab,
⁵Shanghai Jiaotong University

Paper Code
😊 UniGenBench Eval Model 😊 Eval Images

🏅

EN Short

🏅

EN Long

🏅

ZH Short

🏅

ZH Long

Benchmark Statistics

Benchmark Statistics.
(a) Word clouds for English and Chinese prompts in both short and long forms; (b) overall prompt length distribution; and (c) distribution of testpoint counts per prompt for short versus long versions.

Evaluation Dimensions

Qualitative Cases.
We present qualitative examples of T2I models evaluated across our specified dimensions.

Benchmark Construction and Offline Evaluation Model Training.

Evaluation Accuracy Comparison.
Our dedicated evaluation model demonstrates a significant improvement in evaluation accuracy across all test points compared to the commonly used offline evaluation VLM, Qwen2.5-VL-72b.

BibTeX


@article{UniGenBench++,
  title={UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation},
  author={Wang, Yibin and Li, Zhimin and Zang, Yuhang and Bu, Jiazi and Zhou, Yujie and Xin, Yi and He, Junjun and Wang, Chunyu and Lu, Qinglin and Jin, Cheng and others},
  journal={arXiv preprint arXiv:2510.18701},
  year={2025}
}

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Overview

Benchmark Statistics

Benchmark Statistics.
(a) Word clouds for English and Chinese prompts in both short and long forms; (b) overall prompt length distribution; and (c) distribution of testpoint counts per prompt for short versus long versions.

Evaluation Dimensions

Qualitative Cases.
We present qualitative examples of T2I models evaluated across our specified dimensions.

Benchmark Construction and Offline Evaluation Model Training.

Evaluation Accuracy Comparison.
Our dedicated evaluation model demonstrates a significant improvement in evaluation accuracy across all test points compared to the commonly used offline evaluation VLM, Qwen2.5-VL-72b.

English Short Prompt Evaluation

English Long Prompt Evaluation

Chinese Short Prompt Evaluation

Chinese Long Prompt Evaluation

BibTeX

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

Overview

Benchmark Statistics

Benchmark Statistics.(a) Word clouds for English and Chinese prompts in both short and long forms; (b) overall prompt length distribution; and (c) distribution of testpoint counts per prompt for short versus long versions.

Evaluation Dimensions

Qualitative Cases.We present qualitative examples of T2I models evaluated across our specified dimensions.

Benchmark Construction and Offline Evaluation Model Training.

Evaluation Accuracy Comparison.Our dedicated evaluation model demonstrates a significant improvement in evaluation accuracy across all test points compared to the commonly used offline evaluation VLM, Qwen2.5-VL-72b.

English Short Prompt Evaluation

English Long Prompt Evaluation

Chinese Short Prompt Evaluation

Chinese Long Prompt Evaluation

BibTeX

Benchmark Statistics.
(a) Word clouds for English and Chinese prompts in both short and long forms; (b) overall prompt length distribution; and (c) distribution of testpoint counts per prompt for short versus long versions.

Qualitative Cases.
We present qualitative examples of T2I models evaluated across our specified dimensions.

Evaluation Accuracy Comparison.
Our dedicated evaluation model demonstrates a significant improvement in evaluation accuracy across all test points compared to the commonly used offline evaluation VLM, Qwen2.5-VL-72b.