A generative multimodal network for facial expression recognition

Zhao, Yue; Song, Mingjian; Zhang, Qi; Yang, Jiawei; Yoshigoe, Kenji; Tian, Chunwei

A generative multimodal network for facial expression recognition

dc.contributor.author	Zhao, Yue
dc.contributor.author	Song, Mingjian
dc.contributor.author	Zhang, Qi
dc.contributor.author	Yang, Jiawei
dc.contributor.author	Yoshigoe, Kenji
dc.contributor.author	Tian, Chunwei
dc.contributor.organization	fi=terveysteknologia\|en=Health Technology\|
dc.contributor.organization-code	1.2.246.10.2458963.20.28696315432
dc.converis.publication-id	523237226
dc.converis.url	https://research.utu.fi/converis/portal/Publication/523237226
dc.date.accessioned	2026-05-22T20:15:38Z
dc.description.abstract	<p>Deep networks with strong feature extraction abilities have been extensively employed in facial expression recognition (FER). However, they focus on structural information from data dependency rather than facial attribute to limit robustness of obtained models for FER. In this paper, we propose a generative multimodal network (GMNet) for FER. Firstly, GMNet can generate and align multimodal face images, according to face asymmetry and mirror imaging principle. Secondly, it utilizes parallel networks to respectively learn diversity information based on original and generative multimodal face images and merge them from obtained multimodal face images to obtain reliable facial expression information. Thirdly, a sparse mechanism can further refine obtained richer facial features above to obtain more accurate facial expression information and reduce training costs. Finally, a cross loss can utilize cross domain restriction to guarantee reliability of multimodal face images to improve performance in facial expression. Experimental results show that our GMNet is superior to other popular FER methods. Codes of GMNet can be used at https://github.com/hellloxiaotian/GMNet.<br></p>
dc.embargo.lift	2027-03-26
dc.identifier.eissn	1873-5142
dc.identifier.jour-issn	0031-3203
dc.identifier.uri	https://www.utupub.fi/handle/11111/61039
dc.identifier.url	https://doi.org/10.1016/j.patcog.2026.113518
dc.identifier.urn	URN:NBN:fi-fe2026052252390
dc.language.iso	en
dc.okm.affiliatedauthor	Yang, Jiawei
dc.okm.discipline	113 Computer and information sciences	en_GB
dc.okm.discipline	113 Tietojenkäsittely ja informaatiotieteet	fi_FI
dc.okm.internationalcopublication	international co-publication
dc.okm.internationality	International publication
dc.okm.type	A1 ScientificArticle
dc.publisher	Elsevier
dc.publisher.country	United Kingdom	en_GB
dc.publisher.country	Britannia	fi_FI
dc.publisher.country-code	GB
dc.relation.articlenumber	113518
dc.relation.doi	10.1016/j.patcog.2026.113518
dc.relation.ispartofjournal	Pattern Recognition
dc.relation.issue	Part A
dc.relation.volume	179
dc.title	A generative multimodal network for facial expression recognition
dc.year.issued	2026

Kokoelmat

Rinnakkaistallenteet

A generative multimodal network for facial expression recognition

Tiedostot

Kokoelmat