evaluation

BLEURT:人工知能が生成した文章の品質を評価(3/3)

１．BLEURT:人工知能が生成した文章の品質を評価(3/3)まとめ・BLEURTは、何百万もの合成文章ペアを使用してモデルを「ウォームアップ」して品質を向上した・既存の評価手法と比較するとBLEURTは最も良く人間による品質評価と相関して...

2020.06.08

入門／解説

１．組成の一般化能力の測定(1/3)まとめ・人間は新しい単語の意味を学習し、それを他の文脈に適用することができる・機械学習ではこのスキルは「組成の一般化(compositional generalization)」と呼ぶ・しかし「組成の一般...

2020.03.11

入門／解説

１．Meena：どんな会話にも対応できるチャットボット(3/3)まとめ・PerplexityがMeena開発中に作ったSSA値などの人間による評価と強い相関関係を示す事がわかった・Perplexityは言語モデルの不確実性を測定する従来から...

2020.02.04

入門／解説

１．2019年4月時点のGANに関する未解決な問題(5/7)まとめ・GANの評価方法については様々なものが提案されているが決定的なものはない・評価手法が定まっていない理由の一つはどのような時にGANを使うべきかが曖昧なため・GANは、知覚的...

2019.05.01

その他の調査

１．教師なし学習による特徴表現解きほぐし手法の評価(2/2)まとめ・帰納的バイアスがなければ解きほぐした特徴表現の教師なし学習は不可能である・解きほぐしが下流タスクに有用であるという仮定は検証できなかった・将来の研究を促進するためにdise...

2019.04.28

入門／解説