{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T10:13:25Z","timestamp":1767262405993,"version":"3.28.0"},"reference-count":48,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,1]]},"DOI":"10.1109\/wacv51458.2022.00160","type":"proceedings-article","created":{"date-parts":[[2022,2,15]],"date-time":"2022-02-15T15:56:28Z","timestamp":1644940588000},"page":"1534-1543","source":"Crossref","is-referenced-by-count":7,"title":["Visualizing Paired Image Similarity in Transformer Networks"],"prefix":"10.1109","author":[{"given":"Samuel","family":"Black","sequence":"first","affiliation":[{"name":"Temple University"}]},{"given":"Abby","family":"Stylianou","sequence":"additional","affiliation":[{"name":"Saint Louis University"}]},{"given":"Robert","family":"Pless","sequence":"additional","affiliation":[{"name":"George Washington University"}]},{"given":"Richard","family":"Souvenir","sequence":"additional","affiliation":[{"name":"Temple University"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00265"},{"key":"ref38","article-title":"Distance metric learning for large margin nearest neighbor classification","volume":"10","author":"weinberger","year":"2009","journal-title":"Journal of Machine Learning Research"},{"key":"ref33","first-page":"1857","article-title":"Improved deep metric learning with multiclass n-pair loss objective","author":"sohn","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1117\/12.2520589"},{"key":"ref31","article-title":"Deep inside convolutional networks: Visualising image classification models and saliency maps","author":"simonyan","year":"2014","journal-title":"In International Conference on Learning Representations Workshop"},{"key":"ref30","article-title":"Not just a black box: Learning important features through propagating activation differences","author":"shrikumar","year":"2016","journal-title":"CoRR"},{"key":"ref37","first-page":"3319","article-title":"Axiomatic attribution for deep networks","author":"sundararajan","year":"2017","journal-title":"Proc International Conference on Machine Learning volume 70 of Proceedings of Machine Learning Research"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.3301726"},{"key":"ref35","first-page":"2029","article-title":"Visualizing deep similarity networks","author":"stylianou","year":"2019","journal-title":"IEEE Winter Conference on Applications of Computer Vision"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.434"},{"key":"ref10","first-page":"2794","article-title":"Adapting grad-cam for embedding networks","author":"chen","year":"2020","journal-title":"IEEE Winter Conference on Applications of Computer Vision"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/3442381.3449988"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W19-4828"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00482"},{"key":"ref14","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"dosovitskiy","year":"2021","journal-title":"International Conference on Learning Representations"},{"article-title":"Training vision transformers for image retrieval","year":"2021","author":"el-nouby","key":"ref15"},{"key":"ref16","first-page":"119","article-title":"Understanding individual decisions of cnns via contrastive backpropagation","author":"gu","year":"2018","journal-title":"Asian Conference on Computer Vision"},{"key":"ref17","first-page":"630","article-title":"Identity mappings in deep residual networks","author":"he","year":"2016","journal-title":"Proc European Conference on Computer Vision"},{"article-title":"In Defense of the Triplet Loss for Person Re-Identification","year":"2017","author":"hermans","key":"ref18"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00513"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298682"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.354"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-019-0048-x"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0130140"},{"key":"ref6","article-title":"On identifiability in transformers","author":"brunner","year":"2020","journal-title":"International Conference on Learning Representations"},{"key":"ref29","first-page":"618","article-title":"Ramakrishna Vedantam, Devi Parikh, and Dhruv Batra. Grad-cam: Visual explanations from deep networks via gradient-based localization","author":"selvaraju","year":"2017","journal-title":"ICCV"},{"key":"ref5","doi-asserted-by":"crossref","DOI":"10.1109\/ICCV48922.2021.01007","article-title":"Understanding robustness of transformers for image classification","author":"bhojanapalli","year":"2021"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00084"},{"article-title":"Generic attentionmodel explainability for interpreting bi-modal and encoderdecoder transformers","year":"2021","author":"chefer","key":"ref7"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1002\/widm.1424"},{"article-title":"Psvit: Better vision transformer via token pooling and attention sharing","year":"2021","author":"chen","key":"ref9"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.385"},{"key":"ref46","article-title":"Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset","author":"zhou","year":"2017","journal-title":"Proc IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"ref20","first-page":"3543","article-title":"Attention is not Explanation","author":"jain","year":"2019","journal-title":"Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics Human Language Technologies Volume 1 (Long and Short Papers)"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.319"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-018-1140-0"},{"key":"ref22","first-page":"491","article-title":"Big transfer (bit): General visual representation learning","author":"kolesnikov","year":"2020","journal-title":"Proc European Conference on Computer Vision"},{"key":"ref47","article-title":"Semantic understanding of scenes through the ade20k dataset","author":"zhou","year":"2018","journal-title":"International Journal of Computer Vision"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00330"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW50498.2020.00514"},{"article-title":"Scalable visual transformers with hierarchical pooling","year":"2021","author":"pan","key":"ref24"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01270-0_44"},{"article-title":"Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows","year":"2021","author":"liu","key":"ref23"},{"key":"ref44","article-title":"Object detectors emerge in deep scene cnns","author":"zhou","year":"2015","journal-title":"ICLRE"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.432"},{"key":"ref43","first-page":"818","article-title":"Visualizing and understanding convolutional networks","author":"zeiler","year":"2014","journal-title":"Proc European Conference on Computer Vision"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.4159\/harvard.9780674736061"}],"event":{"name":"2022 IEEE\/CVF Winter Conference on Applications of Computer Vision (WACV)","start":{"date-parts":[[2022,1,3]]},"location":"Waikoloa, HI, USA","end":{"date-parts":[[2022,1,8]]}},"container-title":["2022 IEEE\/CVF Winter Conference on Applications of Computer Vision (WACV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9706406\/9706408\/09706781.pdf?arnumber=9706781","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,26]],"date-time":"2023-01-26T20:09:21Z","timestamp":1674763761000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9706781\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,1]]},"references-count":48,"URL":"https:\/\/doi.org\/10.1109\/wacv51458.2022.00160","relation":{},"subject":[],"published":{"date-parts":[[2022,1]]}}}