UniREditBench: A Unified Reasoning-based Image Editing Benchmark

Feng Han^1,2*, Yibin Wang^1,2*, Chenglin Li^2,3, Zheming Liang², Dianyi Wang^1,2,
Yang Jiao¹, Zhipeng Wei⁴, Chao Gong¹, Cheng Jin^1,2, Jingjing Chen¹^†, Jiaqi Wang²^†

¹Fudan University, ²Shanghai Innovation Intuition, ³Zhejiang University ⁴UC Berkeley

Paper 😊 UniREditBench Code
😊 UniREdit-Data-100K 😊 UniREdit-Bagel 😊 Leaderboard 😊 Gallery

UniREditBench Overview

Benchmark Comparison

Reasoning-based image editing benchmark comparison.
UniREditBench excels in broader scenario and evaluation dimension coverage.

Image editing evaluation comparison.
Current text-reference-only evaluation potentially leads to misjudging, while our dual-reference evaluation results in more reliable assessments.

Evaluation Dimensions

Qualitative Cases.
We present qualitative examples for each dimension across both real-world and game-world scenarios.

Multi-scenario Data Synthesis Pipeline

Benchmarking Results on UniREditBench

UniREDit-Data-100K

UniREdit-Bagel

Out-of-distribution Results Comparison on RISEBench

Out-of-distribution Results Comparison on KRISBench

BibTeX

@article{unireditbench,
  title={UniREditBench: A Unified Reasoning-based Image Editing Benchmark},
  author={Han, Feng and Wang, Yibin and Li, Chenglin and Liang, Zheming and Wang, Dianyi and Jiao, Yang and Wei, Zhipeng and Gong, Chao and Jin, Cheng and Chen, Jingjing and others},
  journal={arXiv preprint arXiv:2511.01295},
  year={2025}
}