Program - The First Workshop of Evaluation of Multi-Modal Generation

The First Workshop of Evaluation of Multi-Modal Generation

PROGRAM

	A Dataset for Programming-based Instructional Video Classification and Question Answering Sana Javaid Raja, Adeel Zafar and Aqsa Shoaib
	CVT5: Using Compressed Video Encoder and UMT5 for Dense Video Captioning Mohammad Javad Pirhadi, Motahhare Mirzaei and Sauleh Eetemadi
	If I feel smart, I will do the right thing: Combining Complementary Multimodal Information in Visual Language Models Yuyu Bai and Sandro Pezzelle
	LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model Tao Sun, Oliver Liu, JinJin Li and Lan Ma
	Persian in a Court: Benchmarking VLMs In Persian Multi-Modal Tasks Farhan Farsi, Shahriar Shariati Motlagh, Shayan Bali, Sadra Sabouri and Saeedeh Momtazi
	TaiwanVQA: A Benchmark for Visual Question Answering for Taiwanese Daily Life Hsin-Yi Hsieh, Shang Wei Liu, Chang Chih Meng, Shuo-Yueh Lin, Chen Chien-Hua, Hung-Ju Lin, Hen-Hsen Huang and I-Chen Wu
	Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types Neelabh Sinha, Vinija Jain and Aman Chadha