Rehana Mahfuz, Yinyi Guo, Erik Visser: Improving Audio Captioning Using Semantic Similarity Metrics. CoRR abs/2210.16470 (2022)