BERT

基礎理論

機械学習が学習時に抜け道を見つけてズルをしてしまう事を防止(2/2)

1.機械学習が学習時に抜け道を見つけてズルをしてしまう事を防止(2/2)まとめ・最も単純な顕著性評価法Gradient L2がBERTベースのモデルに対して良い結果・あるモデルでうまくいく方法が、他のモデルでうまくいかないこともある・データ...
学習手法

Teaching BERT to Wait:「え~」や「あ~」を識別して言語モデルのパフォーマンスを向上(2/2)

1.Teaching BERT to Wait:「え~」や「あ~」を識別して言語モデルのパフォーマンスを向上(2/2)・スマホの音声の自動書き起こしアプリなどでも非流暢性の除去は読みやすさ向上に貢献・リアルタイムに発生するストリーミングデー...
学習手法

Teaching BERT to Wait:「え~」や「あ~」を識別して言語モデルのパフォーマンスを向上(1/2)

1.Teaching BERT to Wait:「え~」や「あ~」を識別して言語モデルのパフォーマンスを向上(1/2)・インタビューなどの自然なスピーチは文章にすると流暢でない箇所があり読みにくい・機械学習を使って話し言葉中の非流暢な箇所を...
基礎理論

BERTは文法を理解しているのか?頻度を見ているだけなのか?(2/2)

1.BERTは文法を理解しているのか?頻度を見ているだけなのか?(2/2)まとめ・BERTは主語と動詞の一致ルールで単純な経験則モデルより良い性能である・主語と動詞が一致すべき事と高頻度の単語がより可能性が高い事を知っている・一致が従うべき...
基礎理論

BERTは文法を理解しているのか?頻度を見ているだけなのか?(1/2)

1.BERTは文法を理解しているのか?頻度を見ているだけなのか?(1/2)まとめ・言語モデルは機能する理由が不透明な事が多く更なる改善の妨げになっている・英語の主語と動詞の一致規則を正しく適用するBERTモデルの能力を調査した・初見の主語と...
データセット

TimeDialとDisfl-QA:時の概念と流暢でない口語表現に対応するためのNLPデータセット(1/2)

1.TimeDialとDisfl-QA:時の概念と流暢でない口語表現に対応するためのNLPデータセット(1/2)まとめ・自然な会話の中には、流暢でない発話の中断、感嘆、繰り返し、再開、訂正などが含まれる・また会話を理解するには、イベント間の...
基礎理論

BERTとTF-Rankingを使ってランキングシステムの透明性と解釈可能性を向上(1/2)

1.BERTとTF-Rankingを使ってランキングシステムの透明性と解釈可能性を向上(1/2)まとめ・ランク付け学習(LTR)は項目のリスト全体を入力として受け取り、有用性を最大化する順序を学習・LTRは検索および推薦システム、その他eコ...
学習手法

HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(1/2)

1.HuBERT:話言葉を音声から直接学習する自己教師あり特徴表現学習(1/2)まとめ・他の人の話を聞いたり交流するだけで音声をよりよく認識して学習するAIは大きな目標・実現には単語だけでなく話者の個性、感情、割り込みなど、多くを分析する必...
学習手法

KELM:ナレッジグラフを言語モデルの事前トレーニング資料に統合

1.KELM:ナレッジグラフを言語モデルの事前トレーニング資料に統合まとめ・大規模な自然言語処理モデルは、インターネットから取得した自然言語の資料を活用する・自然言語のテキストだけでは、知識の範囲が限られるため他の情報源もある事が望ましい・...
モデル

ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(2/3)

1.ALIGN:ノイズの多い文章を教師に使って視覚と言語で共通する特徴表現を学習(2/3)まとめ・ALIGNは微調整なしでテキストを使った画像検索や画像とテキストを同時に使った検索を実現・微調整を行うとALIGNはBiTやViTなどのほとん...
データセット

Crisscrossed Captions:画像とテキストの意味的類似性の探求(3/3)

1.Crisscrossed Captions:画像とテキストの意味的類似性の探求(3/3)まとめ・文対文タスクと画像対文タスクでトレーニングされたマルチタスクモデルが最も優秀だった・文対文のトレーニングを追加すると画像対文、文対画像でパフ...
モデル

FELIX:タグ付けと挿入を使う効率的で柔軟なテキスト編集モデル(2/2)

1.FELIX:タグ付けと挿入を使う効率的で柔軟なテキスト編集モデル(2/2)まとめ・FELIXは完全に非自己回帰であり最先端のスコアを達成しながら高速な推論を実現可能・事前トレーニングとマスク言語モデルを念頭に必要なトレーニングデータの量...