TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Medical Visual Question Answering	PathVQA	M2I2	Free-form Accuracy	36.3	# 3
Medical Visual Question Answering	PathVQA	M2I2	Yes/No Accuracy	88.0	# 2
Medical Visual Question Answering	PathVQA	M2I2	Overall Accuracy	62.2	# 3
Medical Visual Question Answering	SLAKE-English	M2I2	Overall Accuracy	81.2	# 5
Medical Visual Question Answering	SLAKE-English	M2I2	Close-ended Accuracy	91.1	# 1
Medical Visual Question Answering	SLAKE-English	M2I2	Open-ended Accuracy	74.7	# 5
Medical Visual Question Answering	VQA-RAD	M2I2	Close-ended Accuracy	83.5	# 6
Medical Visual Question Answering	VQA-RAD	M2I2	Open-ended Accuracy	66.5	# 6
Medical Visual Question Answering	VQA-RAD	M2I2	Overall Accuracy	76.8	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-vision-language-pretraining/medical-visual-question-answering-on-vqa)](https://paperswithcode.com/sota/medical-visual-question-answering-on-vqa?p=self-supervised-vision-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-vision-language-pretraining/medical-visual-question-answering-on-pathvqa)](https://paperswithcode.com/sota/medical-visual-question-answering-on-pathvqa?p=self-supervised-vision-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-vision-language-pretraining/medical-visual-question-answering-on-vqa-rad)](https://paperswithcode.com/sota/medical-visual-question-answering-on-vqa-rad?p=self-supervised-vision-language-pretraining)`

Self-supervised vision-language pretraining for Medical visual question answering

24 Nov 2022 · Pengfei Li, Gang Liu, Lin Tan, Jinying Liao, Shenjun Zhong ·

Medical image visual question answering (VQA) is a task to answer clinical questions, given a radiographic image, which is a challenging problem that requires a model to integrate both vision and language information. To solve medical VQA problems with a limited number of training data, pretrain-finetune paradigm is widely used to improve the model generalization. In this paper, we propose a self-supervised method that applies Masked image modeling, Masked language modeling, Image text matching and Image text alignment via contrastive learning (M2I2) for pretraining on medical image caption dataset, and finetunes to downstream medical VQA tasks. The proposed method achieves state-of-the-art performance on all the three public medical VQA datasets. Our codes and models are available at https://github.com/pengfeiliHEU/M2I2.

PDF Abstract

Code

Add Remove Mark official

pengfeiliheu/m2i2 official

pengfeiliheu/mumc

Tasks

Add Remove

Contrastive Learning

Image-text matching

Language Modelling

Masked Language Modeling

Medical Visual Question Answering

Question Answering

Text Matching

Visual Question Answering

Visual Question Answering (VQA)

Datasets

VQA-RAD

SLAKE

PathVQA

SLAKE-English

Results from the Paper

Add Remove

Ranked #1 on Medical Visual Question Answering on SLAKE-English

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Medical Visual Question Answering	PathVQA	M2I2	Free-form Accuracy	36.3	# 3	Compare
			Yes/No Accuracy	88.0	# 2	Compare
			Overall Accuracy	62.2	# 3	Compare
Medical Visual Question Answering	SLAKE-English	M2I2	Overall Accuracy	81.2	# 5	Compare
			Close-ended Accuracy	91.1	# 1	Compare
			Open-ended Accuracy	74.7	# 5	Compare
Medical Visual Question Answering	VQA-RAD	M2I2	Close-ended Accuracy	83.5	# 6	Compare
			Open-ended Accuracy	66.5	# 6	Compare
			Overall Accuracy	76.8	# 5	Compare

Methods

Add Remove

Contrastive Learning

Edit Social Preview

Self-supervised vision-language pretraining for Medical visual question answering

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove