clip

アプリケーション

DALL·E Flow:複数のモデルを組み合わせて入力文に基づいたHD画像を作成(1/2)

1.DALL·E Flow:複数のモデルを組み合わせて入力文に基づいたHD画像を作成(1/2)まとめ・DALL·E Flowは幾つかのモデルを連携させてDALL·Eの性能や表現力を底上げする試み・DALL·E と拡散モデルとSwinIRを組...
モデル

LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)

1.LIMoE:画像と文章に対応可能で規模拡大が容易なスパースMoEモデル(2/2)まとめ・多様な情報を処理可能なマルチモーダルモデルは将来が有望視されているが密モデルでは困難・疎モデルは規模拡大の容易性と情報同士を組み合わせて性能を向上す...
モデル

文字情報と画像情報を同じ概念として認識できる人工知能の出現(2/2)

1.文字情報と画像情報を同じ概念として認識できる人工知能の出現(2/2)まとめ・ニューロンレベルでの単純な分析ではモデルの動作を完全に説明する事は出来ない・高度な抽象化は人工知能に対する新しい攻撃手法に繋がる可能性がある・個人やグループの誹...
モデル

文字情報と画像情報を同じ概念として認識できる人工知能の出現(1/2)

1.文字情報と画像情報を同じ概念として認識できる人工知能の出現(1/2)まとめ・特定の女優さんの画像や名前に反応するニューロンが人間の脳内で見つかった事がある・ネットワークで機能するので特定のニューロンが反応するのはおかしいと反論があった・...
入門/解説

最新の人工知能はスタジオジブリの映画を知っているのか?

1.最新の人工知能はスタジオジブリの映画を知っているのか?まとめ・最新の人工知能はジブリの映画を記憶しているのではないかと言う疑惑があった・「ジブリ映画の画像」と「英語版タイトル一覧」を与えてゼロショット分類して貰った・海外で有名な作品でポ...
入門/解説

最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか?

1.最新の人工知能はスタジオジブリの名場面をどこまで認識できるのか?まとめ・見た事がない分野の画像もかなりの精度で分類できる最新の人工知能CLIPの性能評価・スタジオジブリのアニメーション映画の名場面を切り出して画像認識して精度を確認・画像...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(3/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(3/3)まとめ・CLIPは一般的な物体認識には優れているが抽象的または体系的なタスクには苦戦・CLIPは、言葉遣いや言い回しに過敏で機能させるために試行錯誤も必要・分類対象の設...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(2/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(2/3)まとめ・ゼロショット機能実現は単純に事前トレーニングタスクを規模拡大するだけで十分だった・CLIPは視覚タスクの抱える課題であるデータが高コストである事などを軽減する・...
モデル

CLIP:学習していない視覚タスクを実行可能なニューラルネット(1/3)

1.CLIP:学習していない視覚タスクを実行なニューラルネット(1/3)まとめ・自然言語を教師に視覚的概念を効率的に学習するネットワークCLIPの紹介・CLIPはGPT-2やGPT-3の「ゼロショット」機能を視覚タスクで実現・個々のタスク用...
モデル

DALL·E:文章から画像を作成(3/3)

1.DALL·E:文章から画像を作成(3/3)まとめ・DALL·EはGPT-3同様、説明と手がかりを与えるだけで追加学習なしで様々なタスクを実行可・視覚IQテストでは簡単な類推問題は解く事ができたが複雑な問題は解く事ができなかった・地理的知...
モデル

DALL·E:文章から画像を作成(1/3)

1.DALL·E:文章から画像を作成(1/3)まとめ・自然言語で記述した様々な概念を参考にして画像を作成する事ができるDALL·EをOpenAIが発表・DALL·Eは、テキストと画像のペアを使用して訓練されたGPT-3の120億パラメータ版...