multimodal learning

モデル

Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)

1.Vid2Seq:ビデオ内の各イベントを記述可能な事前学習済み視覚言語モデル(2/2)まとめ・Vid2Seqアーキテクチャにはビデオフレーム用のエンコーダー音声入力用のエンコーダーが含まれる・Vid2Seqモデル幅広い領域をカバーする18...
学習手法

iterative co-tokenization:動画内でボウルに注がれた2番目の食材が何か答えられるようにする(2/2)

1.iterative co-tokenization:動画内でボウルに注がれた2番目の食材が何か答えられるようにする(2/2)まとめ・反復的共同トークン化アルゴリズムは他の最新モデルよりも性能とサイズに優れる・計算量も他の手法よりも低く抑...
モデル

LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(1/2)

1.LiT:画像エンコーダを凍結してマルチモーダルな対象学習の性能を向上(1/2)まとめ・画像分類などでは事前学習後にタスク毎に微調整に固有データが必要になるので手間がかかる・代替手法には画像とテキストを使う対照学習があるが微調整手法に比べ...
学習手法

VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)

1.VideoBERT:ビデオ内の画像と音声を組み合わせて学習(1/3)まとめ・機械学習で動画内でどのような活動が行われているのかを認識させるのは困難・従来手法では細かくラベル付けされた大量の動画が必要になるがこれは高価・動画内の音声は画像...