{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,8]],"date-time":"2026-04-08T00:00:53Z","timestamp":1775606453135,"version":"3.50.1"},"reference-count":73,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100004561","name":"Ministry of Science and Higher Education of the Republic of Kazakhstan","doi-asserted-by":"publisher","award":["AP27510939"],"award-info":[{"award-number":["AP27510939"]}],"id":[{"id":"10.13039\/501100004561","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004561","name":"Ministry of Science and Higher Education of the Republic of Kazakhstan","doi-asserted-by":"publisher","award":["AP23487613"],"award-info":[{"award-number":["AP23487613"]}],"id":[{"id":"10.13039\/501100004561","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Expert Systems with Applications"],"published-print":{"date-parts":[[2026,5]]},"DOI":"10.1016\/j.eswa.2026.131487","type":"journal-article","created":{"date-parts":[[2026,2,4]],"date-time":"2026-02-04T17:11:19Z","timestamp":1770225079000},"page":"131487","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Adaptive bottleneck transformer for multimodal EEG, audio, and vision fusion"],"prefix":"10.1016","volume":"312","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-8173-3036","authenticated-orcid":false,"given":"Sabina","family":"Bralina","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9404-9494","authenticated-orcid":false,"given":"Adnan","family":"Yazici","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0872-3276","authenticated-orcid":false,"given":"Cuntai","family":"Guan","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5730-1715","authenticated-orcid":false,"given":"Min-Ho","family":"Lee","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.eswa.2026.131487_bib0001","doi-asserted-by":"crossref","DOI":"10.1016\/j.iswa.2022.200171","article-title":"A systematic survey on multimodal emotion recognition using learning algorithms","volume":"17","author":"Ahmed","year":"2023","journal-title":"Intelligent Systems with Applications"},{"key":"10.1016\/j.eswa.2026.131487_bib0002","article-title":"Motor imagery electroencephalography channel selection based on deep learning: A shallow convolutional neural network","volume":"136","author":"Amiri","year":"2024","journal-title":"Engineering Applications of Artificial Intelligence"},{"issue":"7","key":"10.1016\/j.eswa.2026.131487_bib0003","doi-asserted-by":"crossref","first-page":"3038","DOI":"10.1109\/TNNLS.2020.3048385","article-title":"Spatio-spectral feature representation for motor imagery classification using convolutional neural networks","volume":"33","author":"Bang","year":"2021","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"10.1016\/j.eswa.2026.131487_bib0004","doi-asserted-by":"crossref","first-page":"55","DOI":"10.1016\/j.neunet.2020.05.032","article-title":"Interpretable and lightweight convolutional neural network for EEG decoding: Application to movement execution and imagination","volume":"129","author":"Borra","year":"2020","journal-title":"Neural Networks"},{"issue":"1","key":"10.1016\/j.eswa.2026.131487_bib0005","doi-asserted-by":"crossref","first-page":"7034","DOI":"10.1038\/s41598-025-88779-7","article-title":"Virtual delivery of group-based cognitive behavioral therapy for autistic children and youth during the COVID-19 pandemic was acceptable, feasible, and effective","volume":"15","author":"Brian","year":"2025","journal-title":"Scientific Reports"},{"issue":"4","key":"10.1016\/j.eswa.2026.131487_bib0006","doi-asserted-by":"crossref","first-page":"377","DOI":"10.1109\/TAFFC.2014.2336244","article-title":"Crema-d: Crowd-sourced emotional multimodal actors dataset","volume":"5","author":"Cao","year":"2014","journal-title":"IEEE Transactions on Affective Computing"},{"key":"10.1016\/j.eswa.2026.131487_bib0007","doi-asserted-by":"crossref","first-page":"16664","DOI":"10.52202\/068431-1212","article-title":"Adaptformer: Adapting vision transformers for scalable visual recognition","volume":"35","author":"Chen","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2026.131487_bib0008","unstructured":"Chen, T., Fang, H., Xia, P., Liu, X., Van Durme, B., Zettlemoyer, L., Gao, J., & Cheng, H. (2024a). Generative adapter: Contextualizing language models in parameters with a single forward pass. 10.48550\/arXiv.2411.05877."},{"key":"10.1016\/j.eswa.2026.131487_bib0009","doi-asserted-by":"crossref","DOI":"10.3389\/fncom.2024.1416494","article-title":"EEG-Based emotion recognition using graph convolutional neural network with dual attention mechanism","volume":"18","author":"Chen","year":"2024","journal-title":"Frontiers in Computational Neuroscience"},{"key":"10.1016\/j.eswa.2026.131487_bib0010","unstructured":"Dima806 (2022). Facial emotions image detection using ViT. https:\/\/www.kaggle.com\/code\/dima806\/facial-emotions-image-detection-vit."},{"key":"10.1016\/j.eswa.2026.131487_bib0011","unstructured":"Dosovitskiy, A. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. 10.48550\/arXiv.2010.11929."},{"issue":"11","key":"10.1016\/j.eswa.2026.131487_bib0012","doi-asserted-by":"crossref","first-page":"693","DOI":"10.1038\/nrn4044","article-title":"The neural bases of emotion regulation","volume":"16","author":"Etkin","year":"2015","journal-title":"Nature Reviews Neuroscience"},{"key":"10.1016\/j.eswa.2026.131487_bib0013","series-title":"Proceedings of the 18th ACM international conference on multimodal interaction","first-page":"445","article-title":"Video-based emotion recognition using CNN-RNN and C3D hybrid networks","author":"Fan","year":"2016"},{"key":"10.1016\/j.eswa.2026.131487_bib0014","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"839","article-title":"Actor-transformers for group activity recognition","author":"Gavrilyuk","year":"2020"},{"key":"10.1016\/j.eswa.2026.131487_bib0015","series-title":"2017\u202fIEEE International conference on acoustics, speech and signal processing (ICASSP)","first-page":"776","article-title":"Audio set: An ontology and human-labeled dataset for audio events","author":"Gemmeke","year":"2017"},{"key":"10.1016\/j.eswa.2026.131487_bib0016","doi-asserted-by":"crossref","DOI":"10.1016\/j.fraope.2025.100403","article-title":"Advancing speech emotion recognition with whisper model embeddings and hand-crafted audio descriptors","author":"George","year":"2025","journal-title":"Franklin Open"},{"key":"10.1016\/j.eswa.2026.131487_bib0017","series-title":"Icassp 2022-2022 ieee international conference on acoustics, speech and signal processing (icassp)","first-page":"7357","article-title":"Auxformer: Robust approach to audiovisual emotion recognition","author":"Goncalves","year":"2022"},{"key":"10.1016\/j.eswa.2026.131487_bib0018","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2023.104835","article-title":"EEG Emotion recognition using attention-based convolutional transformer neural network","volume":"84","author":"Gong","year":"2023","journal-title":"Biomedical Signal Processing and Control"},{"key":"10.1016\/j.eswa.2026.131487_bib0019","doi-asserted-by":"crossref","unstructured":"Gong, Y., Chung, Y.-A., & Glass, J. (2021). Ast: Audio spectrogram transformer. arXiv: 2104.01778, 10.21437\/Interspeech.2021-698.","DOI":"10.21437\/Interspeech.2021-698"},{"issue":"5","key":"10.1016\/j.eswa.2026.131487_bib0020","doi-asserted-by":"crossref","first-page":"2991","DOI":"10.1007\/s10614-025-10893-5","article-title":"Integration of CNN models and machine learning methods in credit score classification: 2d image transformation and feature extraction","volume":"65","author":"G\u00fcr","year":"2025","journal-title":"Computational Economics"},{"key":"10.1016\/j.eswa.2026.131487_bib0021","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"770","article-title":"Deep residual learning for image recognition","author":"He","year":"2016"},{"key":"10.1016\/j.eswa.2026.131487_bib0022","doi-asserted-by":"crossref","unstructured":"Hu, Z., Wang, L., Lan, Y., Xu, W., Lim, E.-P., Bing, L., Xu, X., Poria, S., & Lee, R. K.-W. (2023). LLM-adapters: An adapter family for parameter-efficient fine-tuning of large language models. 10.48550\/arXiv.2304.01933.","DOI":"10.18653\/v1\/2023.emnlp-main.319"},{"key":"10.1016\/j.eswa.2026.131487_bib0023","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2020.101894","article-title":"Speech emotion recognition with deep convolutional neural networks","volume":"59","author":"Issa","year":"2020","journal-title":"Biomedical Signal Processing and Control"},{"issue":"21","key":"10.1016\/j.eswa.2026.131487_bib0024","doi-asserted-by":"crossref","first-page":"9981","DOI":"10.3390\/app14219981","article-title":"Speech emotion recognition using transfer learning: integration of advanced speaker embeddings and image recognition models","volume":"14","author":"Jakubec","year":"2024","journal-title":"Applied Sciences"},{"key":"10.1016\/j.eswa.2026.131487_bib0025","article-title":"Explainable AI for audio and visual affective computing: A scoping review","author":"Johnson","year":"2024","journal-title":"IEEE Transactions on Affective Computing"},{"key":"10.1016\/j.eswa.2026.131487_bib0026","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"13289","article-title":"MMTM: Multimodal transfer module for CNN fusion","author":"Joze","year":"2020"},{"key":"10.1016\/j.eswa.2026.131487_bib0027","unstructured":"Kang, Z., Li, Y., Gong, S., Zeng, W., Yan, H., Bian, L., Siok, W. T., & Wang, N. (2025). Hypergraph multi-modal learning for EEG-based emotion recognition in conversation. 10.48550\/arXiv.2502.21154."},{"key":"10.1016\/j.eswa.2026.131487_bib0028","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2024.123723","article-title":"Enhancing emotion recognition using multimodal fusion of physiological, environmental, personal data","volume":"249","author":"Kim","year":"2024","journal-title":"Expert Systems with Applications"},{"issue":"1","key":"10.1016\/j.eswa.2026.131487_bib0029","doi-asserted-by":"crossref","first-page":"18","DOI":"10.1109\/T-AFFC.2011.15","article-title":"Deap: A database for emotion analysis; using physiological signals","volume":"3","author":"Koelstra","year":"2011","journal-title":"IEEE Transactions on Affective Computing"},{"issue":"10","key":"10.1016\/j.eswa.2026.131487_bib0030","doi-asserted-by":"crossref","first-page":"3839","DOI":"10.1109\/TNNLS.2019.2946869","article-title":"Subject-independent brain\u2013computer interfaces based on deep convolutional neural networks","volume":"31","author":"Kwon","year":"2019","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"issue":"5","key":"10.1016\/j.eswa.2026.131487_bib0031","doi-asserted-by":"crossref","DOI":"10.1088\/1741-2552\/aace8c","article-title":"EEGNEt: A compact convolutional neural network for EEG-based brain\u2013computer interfaces","volume":"15","author":"Lawhern","year":"2018","journal-title":"Journal of Neural Engineering"},{"issue":"5","key":"10.1016\/j.eswa.2026.131487_bib0032","doi-asserted-by":"crossref","DOI":"10.1093\/gigascience\/giz002","article-title":"EEG Dataset and openbmi toolbox for three BCI paradigms: An investigation into BCI illiteracy","volume":"8","author":"Lee","year":"2019","journal-title":"GigaScience"},{"issue":"1","key":"10.1016\/j.eswa.2026.131487_bib0033","doi-asserted-by":"crossref","first-page":"1026","DOI":"10.1038\/s41597-024-03838-4","article-title":"EAV: EEG-Audio-Video Dataset for emotion recognition in conversational contexts","volume":"11","author":"Lee","year":"2024","journal-title":"Scientific Data"},{"issue":"4","key":"10.1016\/j.eswa.2026.131487_bib0034","doi-asserted-by":"crossref","first-page":"6016","DOI":"10.1109\/TII.2022.3170422","article-title":"EEG-Based emotion recognition via transformer neural architecture search","volume":"19","author":"Li","year":"2022","journal-title":"IEEE Transactions on Industrial Informatics"},{"key":"10.1016\/j.eswa.2026.131487_bib0035","doi-asserted-by":"crossref","first-page":"368","DOI":"10.1007\/s12559-017-9533-x","article-title":"Hierarchical convolutional neural networks for EEG-based emotion recognition","volume":"10","author":"Li","year":"2018","journal-title":"Cognitive Computation"},{"key":"10.1016\/j.eswa.2026.131487_bib0036","first-page":"32971","article-title":"Factorized contrastive learning: Going beyond multi-view redundancy","volume":"36","author":"Liang","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2026.131487_bib0037","series-title":"Proceedings of the 6th international conference on advances in artificial intelligence","first-page":"116","article-title":"Spatial-temporal transformers for EEG emotion recognition","author":"Liu","year":"2022"},{"key":"10.1016\/j.eswa.2026.131487_bib0038","series-title":"2022\u202fIEEE 35Th international symposium on computer-based medical systems (CBMS)","first-page":"366","article-title":"TcT: Temporal and channel transformer for EEG-based emotion recognition","author":"Liu","year":"2022"},{"key":"10.1016\/j.eswa.2026.131487_bib0039","series-title":"Ismir","first-page":"11","article-title":"Mel frequency cepstral coefficients for music modeling","volume":"vol. 270","author":"Logan","year":"2000"},{"issue":"8","key":"10.1016\/j.eswa.2026.131487_bib0040","doi-asserted-by":"crossref","first-page":"1018","DOI":"10.1177\/0146167204264762","article-title":"Emotional intelligence and social interaction","volume":"30","author":"Lopes","year":"2004","journal-title":"Personality and Social Psychology Bulletin"},{"key":"10.1016\/j.eswa.2026.131487_bib0041","article-title":"Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume":"32","author":"Lu","year":"2019","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2026.131487_bib0042","series-title":"2023\u202fIEEE 43Rd international conference on distributed computing systems (ICDCS)","first-page":"316","article-title":"Emoleak: Smartphone motions reveal emotions","author":"Mahdad","year":"2023"},{"key":"10.1016\/j.eswa.2026.131487_bib0043","series-title":"International conference on machine learning","first-page":"23803","article-title":"Cross-entropy loss functions: Theoretical analysis and applications","author":"Mao","year":"2023"},{"key":"10.1016\/j.eswa.2026.131487_bib0044","doi-asserted-by":"crossref","first-page":"407","DOI":"10.1016\/j.bspc.2016.09.005","article-title":"Trends in EEG-BCI for daily-life: Requirements for artifact removal","volume":"31","author":"Minguillon","year":"2017","journal-title":"Biomedical Signal Processing and Control"},{"issue":"04","key":"10.1016\/j.eswa.2026.131487_bib0045","doi-asserted-by":"crossref","first-page":"390","DOI":"10.4236\/jbise.2010.34054","article-title":"Classification of human emotion from EEG using discrete wavelet transform","volume":"3","author":"Murugappan","year":"2010","journal-title":"Journal of Biomedical Science and Engineering"},{"key":"10.1016\/j.eswa.2026.131487_bib0046","first-page":"14200","article-title":"Attention bottlenecks for multimodal fusion","volume":"34","author":"Nagrani","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2026.131487_bib0047","series-title":"Proceedings of the european conference on computer vision (ECCV)","first-page":"631","article-title":"Audio-visual scene analysis with self-supervised multisensory features","author":"Owens","year":"2018"},{"issue":"1","key":"10.1016\/j.eswa.2026.131487_bib0048","doi-asserted-by":"crossref","DOI":"10.1038\/s41598-025-04891-8","article-title":"Open pilot study of a guided digital self-help intervention targeting sleep and the biological clock in university students using a pre-test post-test design","volume":"15","author":"Pape","year":"2025","journal-title":"Scientific Reports"},{"issue":"4","key":"10.1016\/j.eswa.2026.131487_bib0049","doi-asserted-by":"crossref","first-page":"2587","DOI":"10.1109\/TCBB.2023.3257175","article-title":"High-density electroencephalography and speech signal based deep framework for clinical depression diagnosis","volume":"20","author":"Qayyum","year":"2023","journal-title":"IEEE\/ACM Transactions on Computational Biology and Bioinformatics"},{"key":"10.1016\/j.eswa.2026.131487_bib0050","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2022.118025","article-title":"EEG-Based emotion analysis using non-linear features and ensemble learning approaches","volume":"207","author":"Rahman","year":"2022","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2026.131487_bib0051","doi-asserted-by":"crossref","DOI":"10.1016\/j.cmpb.2024.108122","article-title":"A novel feature-level fusion scheme with multimodal attention CNN for heart sound classification","volume":"248","author":"Ranipa","year":"2024","journal-title":"Computer Methods and Programs in Biomedicine"},{"key":"10.1016\/j.eswa.2026.131487_bib0052","first-page":"1","article-title":"Multimodal emotion recognition based on a fusion of audiovisual information with temporal dynamics","author":"Salas-C\u00e1ceres","year":"2024","journal-title":"Multimedia Tools and Applications"},{"issue":"21","key":"10.1016\/j.eswa.2026.131487_bib0053","doi-asserted-by":"crossref","first-page":"18391","DOI":"10.1007\/s00521-022-07451-7","article-title":"A soft voting ensemble learning-based approach for multimodal sentiment analysis","volume":"34","author":"Salur","year":"2022","journal-title":"Neural Computing and Applications"},{"key":"10.1016\/j.eswa.2026.131487_bib0054","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"7464","article-title":"Videobert: A joint model for video and language representation learning","author":"Sun","year":"2019"},{"key":"10.1016\/j.eswa.2026.131487_bib0055","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2023.102129","article-title":"Hierarchical multimodal-fusion of physiological signals for emotion recognition with scenario adaption and contrastive alignment","volume":"103","author":"Tang","year":"2024","journal-title":"Information Fusion"},{"issue":"8","key":"10.1016\/j.eswa.2026.131487_bib0056","doi-asserted-by":"crossref","first-page":"1301","DOI":"10.1109\/JSTSP.2017.2764438","article-title":"End-to-end multimodal emotion recognition using deep neural networks","volume":"11","author":"Tzirakis","year":"2017","journal-title":"IEEE Journal of Selected Topics in Signal Processing"},{"key":"10.1016\/j.eswa.2026.131487_bib0057","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. 10, S0140525X16001837. 10.48550\/arXiv.1706.03762."},{"issue":"1","key":"10.1016\/j.eswa.2026.131487_bib0058","doi-asserted-by":"crossref","first-page":"35","DOI":"10.1186\/s40648-025-00322-5","article-title":"Development of emotion recognition for rehabilitation feedback system using wavelet transform and LSTM: C.-w. wang et al","volume":"12","author":"Wang","year":"2025","journal-title":"ROBOMECH Journal"},{"key":"10.1016\/j.eswa.2026.131487_bib0059","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"12186","article-title":"Multimodal token fusion for vision transformers","author":"Wang","year":"2022"},{"key":"10.1016\/j.eswa.2026.131487_bib0060","series-title":"2017 4Th international conference on information science and control engineering (ICISCE)","first-page":"424","article-title":"Joint face detection and facial expression recognition with MTCNN","author":"Xiang","year":"2017"},{"key":"10.1016\/j.eswa.2026.131487_bib0061","doi-asserted-by":"crossref","first-page":"2126","DOI":"10.1109\/TNSRE.2022.3194600","article-title":"A transformer-based approach combining deep learning network and spatial-temporal information for raw EEG classification","volume":"30","author":"Xie","year":"2022","journal-title":"IEEE Transactions on Neural Systems and Rehabilitation Engineering"},{"key":"10.1016\/j.eswa.2026.131487_bib0062","doi-asserted-by":"crossref","DOI":"10.1109\/TAI.2024.3523250","article-title":"A hierarchical cross-modal spatial fusion network for multimodal emotion recognition","author":"Xu","year":"2025","journal-title":"IEEE Transactions on Artificial Intelligence"},{"issue":"10","key":"10.1016\/j.eswa.2026.131487_bib0063","doi-asserted-by":"crossref","first-page":"12113","DOI":"10.1109\/TPAMI.2023.3275156","article-title":"Multimodal learning with transformers: A survey","volume":"45","author":"Xu","year":"2023","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.eswa.2026.131487_bib0064","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"23826","article-title":"Mma: Multi-modal adapter for vision-language models","author":"Yang","year":"2024"},{"issue":"1","key":"10.1016\/j.eswa.2026.131487_bib0065","doi-asserted-by":"crossref","first-page":"3661","DOI":"10.1038\/s41467-025-58744-z","article-title":"Machine learning center-specific models show improved IVF live birth predictions over US national registry-based model","volume":"16","author":"Yao","year":"2025","journal-title":"Nature Communications"},{"key":"10.1016\/j.eswa.2026.131487_bib0066","series-title":"2025 13Th international conference on brain-computer interface (BCI)","first-page":"1","article-title":"EEG-Based multimodal representation learning for emotion recognition","author":"Yin","year":"2025"},{"key":"10.1016\/j.eswa.2026.131487_bib0067","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2023.105130","article-title":"Classification of EEG signals using transformer based deep learning and ensemble models","volume":"86","author":"Zeynali","year":"2023","journal-title":"Biomedical Signal Processing and Control"},{"issue":"3","key":"10.1016\/j.eswa.2026.131487_bib0068","doi-asserted-by":"crossref","first-page":"1034","DOI":"10.1109\/TCSVT.2021.3072412","article-title":"Real-time video emotion recognition based on reinforcement learning and domain knowledge","volume":"32","author":"Zhang","year":"2021","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"10.1016\/j.eswa.2026.131487_bib0069","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2023.121692","article-title":"Deep learning-based multimodal emotion recognition from audio, visual, and text modalities: A systematic review of recent advancements and future prospects","volume":"237","author":"Zhang","year":"2024","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2026.131487_bib0070","doi-asserted-by":"crossref","first-page":"360","DOI":"10.1016\/j.neucom.2021.10.039","article-title":"Hierarchical multimodal transformer to summarize videos","volume":"468","author":"Zhao","year":"2022","journal-title":"Neurocomputing"},{"issue":"3","key":"10.1016\/j.eswa.2026.131487_bib0071","doi-asserted-by":"crossref","first-page":"1110","DOI":"10.1109\/TCYB.2018.2797176","article-title":"Emotionmeter: A multimodal framework for recognizing human emotions","volume":"49","author":"Zheng","year":"2018","journal-title":"IEEE Transactions on Cybernetics"},{"key":"10.1016\/j.eswa.2026.131487_bib0072","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2024.106996","article-title":"MTNet: Multimodal transformer network for mild depression detection through fusion of EEG and eye tracking","volume":"100","author":"Zhu","year":"2025","journal-title":"Biomedical Signal Processing and Control"},{"key":"10.1016\/j.eswa.2026.131487_bib0073","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"7099","article-title":"Task-customized mixture of adapters for general image fusion","author":"Zhu","year":"2024"}],"container-title":["Expert Systems with Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417426004008?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417426004008?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T23:32:01Z","timestamp":1775604721000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0957417426004008"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5]]},"references-count":73,"alternative-id":["S0957417426004008"],"URL":"https:\/\/doi.org\/10.1016\/j.eswa.2026.131487","relation":{},"ISSN":["0957-4174"],"issn-type":[{"value":"0957-4174","type":"print"}],"subject":[],"published":{"date-parts":[[2026,5]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Adaptive bottleneck transformer for multimodal EEG, audio, and vision fusion","name":"articletitle","label":"Article Title"},{"value":"Expert Systems with Applications","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.eswa.2026.131487","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"131487"}}