Takami Yoshida, Kazuhiro Nakadai: Two-layered audio-visual integration in voice activity detection and automatic speech recognition for robots. INTERSPEECH 2010: 2702-2705