QFT

The official implementation of Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training. We utilize Visual Question Answering (VQA) for multimodal pre-training to guide the framework focusing on targeted pathological features.We leverage descriptions in medical reports to design multi-granular question-answer pairs associated with different diseases, which assist the framework in pre-training without requiring extra annotations from experts. We also propose a novel pre-training framework with a quasi-textual feature transformer, a module designed to transform visual features into a quasi-textual space closer to the textual domain via a contrastive learning strategy. This narrows the vision-language gap and facilitates modalityalignment.

Main Results

Results in Visual Recognition

Results in Report Generation

Poster

Poster.pdf

Implementation

Setting

Set the hyperparameter and path in ./constants.py

Run training process

Run ./models/QFT/QFT_training.py to train the model.

python QFT_training.py --gpus 1 --strategy ddp --precision 16 --img_encoder vit_base

Citation

@article{su2024design,
title={Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training},
author={Su, Tongkun and Li, Jun and Zhang, Xi and Jin, Haibo and Chen, Hao and Wang, Qiong and Lv, Faqin and Zhao, Baoliang and Hu, Yin},
journal={arXiv preprint arXiv:2404.00226},
year={2024}
}

Acknowledgement

This work was supported by the Guangzhou Science and Technology Program (No. 2023B01J0022), the Key Fundamental Research Program of Shenzhen (No. JCYJ20220818101408019), NSFC General Project (No. 62072452), and the Regional Joint Fund of Guangdong (No. 2021B1515130003, 2021B1515120011).

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
configs		configs
cosine_annealing_warmup		cosine_annealing_warmup
data		data
datasets		datasets
models		models
preprocess		preprocess
utils		utils
README.md		README.md
constants.py		constants.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

QFT

Main Results

Results in Visual Recognition

Results in Report Generation

Poster

Implementation

Setting

Run training process

Citation

Acknowledgement

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

QFT

Main Results

Results in Visual Recognition

Results in Report Generation

Poster

Implementation

Setting

Run training process

Citation

Acknowledgement

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages