pre-training

モデル

MV-GPT:動画に説明文を自動で付与するための新手法(2/2)

1.MV-GPT:動画に説明文を自動で付与するための新手法(2/2)まとめ・MV-GPTはマルチモーダル事前キャプションで従来モデルを大きく上回る事を実証した・MV-GPTはVideoQA、テキスト-ビデオ検索、行動分類など、ビデオ理解タス...
モデル

CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)

1.CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(2/2)まとめ・CoCaモデルは、最小限の改造で多くのタスクに対して直接微調整を行うことが可能・CoCaは画像分類やクロスモーダル検索などのゼロショットでも最先端モデル...
モデル

CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)

1.CoCa:様々な視覚タスクのバックボーンとして利用できる基盤モデル(1/2)まとめ・機械学習モデルは幅広いタスクに対応可能な大規模基盤モデルを元に設計する事が多い・自然言語処理では、BERT、T5、GPT-3などの事前学習済大規模モデル...
モデル

SimVLM:弱い教師を使ったシンプルな視覚言語モデル(2/2)

1.SimVLM:弱い教師を使ったシンプルな視覚言語モデル(2/2)まとめ・SimVLMは非常に単純な構成であるにもかかわらず最先端のモデルを凌駕・微調整せずともドイツ語で画像の説明文を作成するなどゼロショットが可能・SimVLMは教師あり...
学習手法

REALM:言語特徴表現モデルに検索機能を持たせる(1/2)

1.REALM:言語特徴表現モデルに検索機能を持たせる(1/2)まとめ・事前トレーニング済みモデルは世界に関する知識を事前トレーニングで取得する・モデルの重みの中に抽象化された概念として取り込まれるため取り扱いが困難・REALMは学習済み知...
基礎理論

Big Transfer(BiT):視覚タスクで大規模な事前トレーニングを活用(3/3)

1.Big Transfer(BiT):視覚タスクで大規模な事前トレーニングを活用(3/3)まとめ・標準的な視覚タスクベンチマークでBiT-Lを評価し少数セット設定でなくとも効果的である事が判明・タスク毎にハイパーパラメータを調整をせずBi...
学習手法

Big Transfer(BiT):視覚タスクで大規模な事前トレーニングを活用(1/3)

1.Big Transfer(BiT):視覚タスクで大規模な事前トレーニングを活用(1/3)まとめ・視覚タスクにおけるラベル付きデータの欠如を軽減する一般的なアプローチは事前学習・事前学習は実際にかなりうまく機能するが非常に大規模データセッ...
モデル

視覚タスクで学習した重みをロボット操作タスクに転移学習する試み(2/3)

1.視覚タスクで学習した重みをロボット操作タスクに転移学習する試み(2/3)まとめ・多くの視覚タスクモデルは「バックボーン(backbone)」と「ヘッド(head)」の2つの部分から構成される・ヘッドはタスク固有でもあるため転移学習ではバ...
学習手法

ELECTRA:NLPの事前トレーニングを効率的に改良(2/2)

1.ELECTRA:NLPの事前トレーニングを効率的に改良(2/2)まとめ・ELECTRAを他のNLPモデルと比較すると同じ計算量であれば従来の方法よりも大幅にスコアが改善した・単一GPUで4日間で学習可能でELECTRA-smallはGP...
学習手法

ELECTRA:NLPの事前トレーニングを効率的に改良(1/2)

1.ELECTRA:NLPの事前トレーニングを効率的に改良(1/2)まとめ・既存のNLP用の事前トレーニング手法には言語モデルとマスク言語モデルの2種類がある・マスク言語モデルは双方向なので言語モデルより優位だが入力文の全てを学習に利用でき...