人間のデータだけで十分か?(Google DeepMindのDavid Silver氏インタビュー)
Google DeepMind: The Podcastの今回のエピソードでは、強化学習担当バイスプレジデントのDavid SilverがAIの未来像を描き、「経験の時代」と現在の「人間のデータの時代」という概念を対比させています。
SilverはAlphaGoとAlphaZeroを例に挙げ、これらのシステムが人間の事前知識なしに強化学習を行うことで、いかに人間の能力を超えたかを強調しています。このアプローチは、人間のデータとフィードバックに依存する大規模言語モデルとは対照的です。Silverは、AIの進歩を促進し、人工超知能を実現するために、この道を探求する必要性を強調しています。
この記事は、以下のYouTube動画の日本語訳です。
プレゼンター:ハンナ・フライ教授
ゲスト:デビッド・シルバー Google DeepMind強化学習担当バイスプレジデント
ゲスト:ファン・フイ 最初にAlphaGoと対戦したプロ囲碁棋士
論文「Welcome to the Era of Experience」(David Silver, Richard S. Sutton)
日本語翻訳
司会者: Google DeepMind: The Podcastへようこそ。本日のゲストは、唯一無二のデビッド・シルバーさんです。彼は初期からのDeepMinderであり、世界で最も複雑なボードゲームをマスターし、超人的なパフォーマンスを達成した最初のプログラム、AlphaGoの驚異的な成功の立役者の一人です。さて、本日のポッドキャストの最後には、皆さんへのちょっとしたおまけとして、デビッドさんと、AIに初めて挑戦したプロ囲碁棋士であるファン・フイさんとの対談をご用意しています。
しかし今、デビッドさんはAIが次に進むべき方向について、大胆なアイデアを持っています。現在のマルチモーダルモデルに関するあらゆる話題、興奮、そして達成の後、デビッドさんは超人的知能への道筋、彼が「経験の時代(Era of Experience)」と呼ぶ新しい段階への計画を持っています。これは深遠なアイデアであり、リスクがないわけではありません。デビッドさん、ポッドキャストへようこそ。
デビッド: こんにちは。ここに来られて嬉しいです。本当に光栄です。ありがとうございます。
司会者: さて、私は週末、あなたのポジションペーパーをとても楽しく読ませていただきました。その中であなたは「経験の時代」について語っていますね。私たちのために要約していただけますか?それはどういう意味でしょうか?
デビッド: 私が意味するのは、過去数年間のAIの動向を見ると、それは私が「人間データの時代」と呼んだものの中にあったということです。つまり、これらのAI手法はすべて、人間が持つ知識のあらゆる断片を抽出し、それを機械に供給するという、一つの共通のアイデアに基づいています。そして、それは物事を行う上で信じられないほど強力な方法の一つです。しかし、物事を行うには別の方法があります。そして、これが私たちを「経験の時代」へと導くものです。そこでは、機械が実際に世界そのものと相互作用し、自身の経験を生成します。世界で物事を試し、自身の経験を積み上げ始めます。そして、そのデータを機械を動かす燃料だと考えれば、それが「経験の時代」と考えられる次世代のAIへと繋がるでしょう。
司会者: なるほど、これはある意味、あなたがテーブルを叩いて「大規模言語モデル(LLM)だけがAIではない」と言っているようなものですね。そうですよね?代替案がある、と。これに取り組むには異なる方法がある、と。
デビッド: 私たちはAIの分野で、大規模言語モデルの構築、つまり世に出回っている膨大な量の人間のような、特に自然言語のデータを活用し、人間がこれまでに書き留めたすべてのことを知っている機械にそれをすべて同化させることから、本当に多くのものを得てきたと思います。しかし、ある時点で、私たちはそれを乗り越える必要があります。私たちはそれを超えたいのです。人間が知っていることを超えたい。そのためには、異なるタイプの手法が必要になります。そして、そのタイプの手法は、私たちのAIが実際に自ら物事を解明し、人間が知らない新しいことを発見することを必要とするでしょう。そして、それが社会にとって信じられないほどエキサイティングで深遠な、まったく新しいAIの時代になると思います。
司会者: なるほど、では、他の種類、つまり異なるタイプの手法を採用した有名なAI、有名なアルゴリズムについて話しましょう。最も注目すべきはAlphaGoとAlphaZeroで、これらはもちろん、世界最高の囲碁プレイヤーを打ち負かしたことで悪名高いですよね。約10年前のことでしたか?そこで使われた技術と、今日私たちが見ている大規模言語モデルとの違いについて教えてください。
デビッド: 特にAlphaZeroは、最近使われている人間データに基づくアプローチとは非常に異なります。なぜなら、文字通り人間のデータを一切使用しないからです。それがAlphaZeroの「ゼロ」の意味するところです。ですから、文字通りシステムに事前にプログラムされた人間の知識はゼロなのです。では、代替案は何でしょうか?人間を模倣せず、事前に正しい打ち方を知らない場合に、どうやって囲碁の知識を学ぶのでしょうか?まあ、その方法は試行錯誤学習の一形態を通して行われます。AlphaZeroは基本的に、囲碁、あるいはチェス、その他プレイしたいどんなゲームでも、何百万回もの自己対戦を行いました。少しずつ、「ああ、もし私がこの手、この種の状況でこの種の手を打てば、最終的により多くのゲームに勝つことになる」ということを見つけ出しました。そして、それがより強くなるための燃料として使われる経験の一部となり、それから少しだけそのようにプレイするようになります。そして次回、何か新しいことを発見し、例えば、何か新しいパターンがあるでしょう。「ああ、この特定のパターンを使うと、より多くのゲームに勝ったり負けたりする」といった具合に。そしてそれが次世代を養い、以下同様です。そして、その経験からの学習、このエージェントの自己生成経験からの学習は、AlphaZeroにおいて、完全にランダムな振る舞いから、世界がこれまでに知る中で最も強いチェスおよび囲碁のプログラムに至るまでの進歩を促進するのに十分であり、実際に十分でした。
司会者: それらは単なるランダムな空っぽの箱として始まったわけではないのですね。そして、何もないところから囲碁のプレイ方法を見つけ出した、と。つまり、最初に囲碁アルゴリズムを設計していたとき、囲碁の棋譜をエンコードしてデータベースとして入力する方法を考案していましたよね?
デビッド: ええ、その通りです。オリジナルのAlphaGo、2016年にイ・セドル(Lee Sedol)を打ち負かしたことで有名なバージョン、このバージョンのAlphaGoは、実際に開始点としていくつかの人間データを使用しました。つまり、私たちは基本的に人間のプロの棋譜のデータベースを供給し、それがそれらの人間の棋譜を学習し、取り込みました。そしてそれが開始点を与えました。そして、そこからは経験によって自ら学習しました。しかし、私たちが1年後に発見したのは、人間データは必要なかったということ、実際には人間の棋譜を完全に捨て去ることができたということです。そして私たちが示したのは、実際に結果として得られたプログラムは、このレベルのパフォーマンスを回復できただけでなく、実際には元のAlphaGoよりも性能が良く、はるかに高いレベルのパフォーマンスを達成するために、さらに速く学習できたということです。
司会者: それは、なんとも奇妙な発見ですね。人間データを捨てたら、それが必要なかっただけでなく、ある意味でパフォーマンスを積極的に制限していたとわかるなんて。
デビッド: AIに関わる人々にとっての厳しい教訓の一つです。これは時々「AIの苦い教訓(bitter lesson of AI)」と呼ばれますが、それは、私たちが人間として蓄積してきたすべての知識が本当に重要だと信じたがっているということです。私たちはそれを本当に信じたい。だから私たちはそれをシステムに供給します。アルゴリズムに組み込みます。実際に起こるのは、それが私たちにアルゴリズムを、おそらく人間データに合わせて調整され、実際には自己学習にはあまり適していない方法で設計させてしまうということです。そして起こるのは、もし人間データを捨てれば、実際にはシステムがどのように自己学習できるかについて、より多くの努力を費やすことになるということです。そして、それが永遠に学び続けられる部分なのです。
司会者: 苦い教訓。ある意味、人間よりも上手に囲碁を打てるものが存在する可能性を受け入れ、ある意味でその天井を取り払うと言っているようなものですね。
デビッド: その通りです。ご存知のように、人間データは、物事を始めるのに本当に役立ちますが、人間が行ってきたすべてのことには天井があります。そして、ご存知のように、囲碁では人間がこれまでに達成したパフォーマンスの最大レベルがあり、私たちはこれらの天井を突破する必要があります。そしてAlphaZeroでは、自己対戦によって自ら学習し、より良く、より良く、より良くなり、ついにその天井を打ち破り、はるかに先へ進んだシステムを構築することで、その天井を突破することができました。そして、「経験の時代」のアイデアとは、私たちがAIシステムを構築するあらゆる場所でその天井を突破することを可能にする方法を見つけ、超人的になることです。そして、人間にはとても驚くほどに見えるすべての能力。しかし、私たちはそれを超える方法を見つけるのです。
司会者: 少しだけ囲碁の話に留まらせてください。いいですか?人間データを取り除き、それによって人間の能力を向上させることができる他の方法に移る前に。ええ。だって、「人間がプレイした囲碁の棋譜をすべて捨てて、何もないところから始めよう」と言うと、少しマジックトリックのように聞こえますから。機械に、あなたが言うように、何千もの異なるアイデアを繋ぎ合わせてゲームで驚異的な力を発揮させるために、そこで実際に使っている技術について少し教えてください。囲碁で。
デビッド: まあ、主なアイデアは、私たちが強化学習(reinforcement learning)と呼んだアプローチです。そして強化学習のアイデアは、基本的にゲームの結果に数値を与え、「勝てばプラス1、負ければマイナス1」と言うことです。
司会者: 1ポイント。まさに、まさに。
デビッド: そして、強化学習で私たちが行うことは、システムに基本的に… 何か正しいことをするたびに報酬を与えることです。そして、システムを基本的に強化するように訓練します。つまり、より多くの報酬を得るようなことをより多く行うようにするということです。例えば、AlphaGoで行っているように、手を指すニューラルネットワークがある場合、やりたいことは、より多くの報酬を与える方向にニューラルネットワークの重みを少し調整することです。そして、それが強化学習の主なアイデアです。
司会者: 囲碁のゲームはかなり長いです。最終的に正しい結果を得るために、最初に正しい手を打つようにするにはどうすればよいのでしょうか?いわば、あなたが提供しているその単一のポイントをどのように分配するのですか?ゲームのどの部分が重要かをどうやって見つけ出すのでしょうか、と思います。
デビッド: これは本当に重要な問題です。それは信用割り当て問題(credit assignment problem)と呼ばれています。そして、そのアイデアは、もしあなたが… ええ、あなたはまったく正しいです、あなたは、ご存知のように、100手、200手、あるいは300手の異なる手を持っていた可能性があります。そして最後に、「勝ち」か「負け」かという1ビットの情報だけを得て、どうにかしてゲームのどの手が勝利の原因であり、どの手が敗北の原因であったかを見つけ出さなければなりません。そして、それを行う方法はたくさんあります。最も簡単な方法は、あなたが行ったすべてが最終的な結果に少し貢献すると仮定し、それは一種の「洗いざらい」で明らかになる、というものです。
司会者: AlphaGoの物語の中で最も大きな瞬間の一つは、誰もがいつも言及する37手目でした。その手について教えてください。
デビッド: 37手目は、AlphaGo対イ・セドル(Lee Sedol)の第2局で起こった手です。AlphaGoは、誰もが予想しなかった手を打ちました。囲碁の伝統的な考え方では、通常、盤面の3線または4線に手を打ちます。なぜなら、これは3線なら地を与え、4線なら勢力を与えるからです。そして、それより下や上に行くことは決してありません。それは人間には意味をなさないでしょう。AlphaGoは5線に打ち、どういうわけか、盤面全体が意味をなすような方法でこれを打ちました。それは5線上のこの手で、すべてを繋ぎ合わせるようなものでした。そして、それは人間にとって非常に異質だったので、人間がこの手を打つことを考える確率は1万分の1しかないと私たちは推定しました。人間はこの手に衝撃を受けましたが、それでもゲームに勝つのに役立ちました。そして、それは人間が「見て、ここに創造的なことが起こった。機械が思いついた何かが、人間が伝統的にゲームについて考えていた方法とは異なっていた」と言った瞬間でした。それは実際に大きな進歩であり、私たちを人間の知識の限界のようなものを超えさせました。
司会者: そして、もし私たちが本当にAIを進歩させたいのであれば、あなたが言うように、私たちはそのような異質なアイデアをある種望んでいるのでしょうね。大規模言語モデルで37手目に相当するものを見たと思いますか?
デビッド: 37手目は、ある意味で特別でした。なぜなら、それは最初の瞬間だったからです。人々がこのような大きなブレークスルーを見たのは初めてでした。言うべき2番目のことは、私たちが人間データの時代にいたため、人間の能力を再現することに膨大な焦点を当て、それを超えることにははるかに少ない焦点を当ててきたということです。私たちが本当にシステムが人間データを超えるために自ら学習することを強調するまで、現実世界で37手目に相当する大きなブレークスルーを見ることはないでしょう。なぜなら、人間データに固定されているとき、あなたは常に人間のような応答しか得られないからです。
司会者: その通りですね。
デビッド: そして、おそらく中間のことを少し行うことを可能にするような、あなたができることがあると思います。だから、もしあなたが私に「37手目のような最も偉大な瞬間は何か」と言わせるなら、私はおそらく、MITの科学者たちによる、人間が誰も知らなかった新しい抗生物質を発見した研究を挙げるでしょう。そして、それは人類にとって非常に重要な、信じられないほどの発見だと思います。だから、その意味では、それは37手目をはるかに超えています。しかし、私が37手目について好きなのは、それが単一の発見ではないということです。それは、システムがただ学び続け、学び続け、学び続けることができる無限の一連の発見の一つなのです。そして37手目が私にとって重要なのは、それが、実際の結果ではなく経験から学ぶというこの種のアプローチを持てば起こり得る、その無限の発見の連続の中の単なる一点を表しているからです。そしてそれはそれ自体で、それ自身の権利において。
司会者: ええ。その通りです。AlphaZeroがどのように機能したかの簡単な概要を教えてください。
デビッド: AlphaZeroは驚くほどシンプルです。つまり、世の中には非常に複雑なアルゴリズムがいくつかありますが、これは、ご存知のように、その側面からは本当に簡単です。だから、あなたがすることは、まずポリシー(手を指す方法)と価値関数(ゲームを評価し、手が良いか悪いかを評価する方法)から始めることです。それから始めて、探索を実行し、次に行うことは、探索に従って最善の手を取り、ポリシーをそのようにより多くのことをするように、探索に従ってより良い手を打つように訓練することです。そして、探索でゲームをプレイしたときにゲームが実際にどのように展開したかに基づいて価値関数を訓練します。そしてそれだけです。それを何十億回も繰り返し、超人的なゲームプレイヤーが現れます。
司会者: まるで魔法のようですね。基本的には、時々魔法のように感じます。
デビッド: 私が最初に本当に魔法のように感じたのを覚えているのは、チェスでAlphaZeroを完成させたばかりのときでした。誰かがそれを別のゲームで試すというアイデアを思いつきました。そこで、私たちは誰もプレイできないゲームにそれを接続しました。将棋と呼ばれるゲーム、日本のチェスです。そして、私たちはこのゲームのプレイ方法について全く知りませんでした。しかし、私たちはそれを接続しました。
司会者: 何ですって?ルールさえ知らなかったのですか?
デビッド: システムはルールを知っていました。エージェント。私たちはそれにルールを教えました。だから私たちはゲームのルールを知っていました。しかし、私たちの誰も、本当に、ご存知のように、戦略や戦術についての手がかりを全く持っていませんでした。もし私たちがこのゲームをプレイしていたら、それは失策の連続だったでしょう。そして私たちはそれをただ接続し、文字通り私たちが将棋でAlphaZeroを実行したのは初めてのことで、それが良いか悪いか全くわかりませんでした。私たちはそれを評価できませんでした。私たちはそれを[誰か]に送りました。これは実際にはかなり強いプレイヤーです。そして彼は、「これはかなり良さそうだ。世界チャンピオンに送る」と言いました。そして世界チャンピオンは、「これは超人的だと思う」と言いました。そして、それは文字通り魔法のように感じました。なぜなら、私たちは、ご存知のように、このシステムでただ「実行」ボタンを押し、そのプロセスやそれがどのようにそこに到達したのか全く知らなかったからです。しかし、どういうわけか、超人的な将棋プレイヤーが現れたのです。
司会者: AIは自身の強化学習アルゴリズムを設計できますか?
デビッド: まあ、面白いことに、私たちは実際にこの分野でいくつかの研究を行いました。私たちは実際に数年前にそれを行いましたが、今発表されています。そして私たちが行ったことは、実際には、試行錯誤を通じて、強化学習自体を通じて、どのアルゴリズムが強化学習に最も優れているかを解明するシステムを構築することでした。それは文字通り一段階メタになり、自身の強化学習システムを構築する方法を学び、信じられないことに、実際には、過去何年にもわたって私たち自身が考案してきたすべての人間の強化学習アルゴリズムを上回りました。
司会者: つまり、これは何度も繰り返される同じ話ですね。何かに人間を入れれば入れるほど、パフォーマンスが悪くなる。人間を取り除けば、より良くなる。もしAlphaGoとAlphaZeroが、その最良の可能性まで使われた強化学習の本当に例外的な例であるならば。あなたは現在私たちが持っている大規模言語モデルの中に、依然として強化学習を見つけます。しかし、それらがこれらのシステムにどのように統合されているかについて教えてください。
デビッド: 強化学習は、ほぼすべての大規模言語モデルシステムで使用されています。そして、それが使用される主な方法は、人間データと組み合わせることです。AlphaZeroのアプローチとは異なり、これは強化学習が実際には人間の好みに基づいて訓練されることを意味します。つまり、システムは基本的に出力を生成するように求められます。そして、人間が「こちらの方が他方よりも良い」と言うと、システムは人間が好む方により似てきます。これは人間フィードバックからの強化学習(RLHF: Reinforcement Learning from Human Feedback)と呼ばれています。そして、それはLLMにおいて非常に重要であり、それらをインターネット上で見られるあらゆる種類のデータを盲目的に模倣するだけのシステムから、人々が本当に見たい種類の質問に対して実際に役立つ回答を生成するシステムへと変革するのに役立ってきました。そして、それはええ、信じられないほどの進歩です。しかし、私は私たちが「赤子を風呂水と一緒に捨ててしまった」(※大切なものまで捨ててしまった)と思います。これらの人間フィードバックからの強化学習システムは、非常に強力ですが、人間の知識を超える能力を持っていません。例えば、もし人間の評価者が何か新しいアイデアを認識せず、実際には他の行動系列よりもはるかに優れているであろう行動系列があることを過小評価した場合、システムがその系列を見つけることを学ぶ方法は決してありません。なぜなら、評価者はそのより良い振る舞いを理解できないかもしれないからです。
司会者: しかし、人間フィードバックの要素は、これらのモデルにある種のグラウンディング(現実世界との接続)の感覚を与えているように思えます。前回お話ししたとき、グラウンディングはこの非常に大きなトピックでしたよね、これらのアルゴリズムに私たちが住んでいる世界の概念的な理解をほとんど持たせたいというこのアイデア。では、その人間のフィードバックという側面を取り除いた場合でも、グラウンディングされたモデルが得られるのでしょうか?
デビッド: 私はむしろ逆を主張したいくらいです。ああ、私は、人間フィードバックからシステムを訓練するとき、それはグラウンディングされていないと言いたいのです。その理由は、基本的に… RLHFシステムが通常機能する方法は、システムが応答、例えば質問への回答を提示し、評価者がシステムが実際にその情報で何かを行う前に、それが良いか悪いかを言うからです。つまり、人間がシステムの出力を事前に判断しているようなものです。例えば、もしあなたがLLMにケーキのレシピを尋ねている場合、人間の評価者はシステムが出力したレシピを見て、誰もが実際にレシピを作り、ケーキを食べる前に、そのレシピが良いか悪いかを判断します。
司会者: ええ、そしてその意味で、それはグラウンディングされていない、と。グラウンディングされた結果というのは、誰かが実際にケーキを食べ、そのケーキが美味しいかまずいか、ということでしょうね。
デビッド: そして、そうすれば、「ご存知のように、このケーキは本当に良いケーキだった、あるいはこのケーキは悪いケーキだった」と言うグラウンディングされたフィードバックが得られます。そして、システムが反復し、新しいことを発見することを可能にするのは、そのグラウンディングされたフィードバックです。なぜなら、それは、おそらく、ご存知のように、専門のシェフがまずいだろうと推測するような新しいレシピを試すことができるからです。それが実際には美味しいと判明するかもしれない。
司会者: ええ、そうですね、モンスターマンチマフィンか何か。ええ、ええ、これが今まで存在した中で最も美味しい食べ物だ、みたいな。なるほど、それは興味深いですね。なぜなら、私は聞いたことがあります、つまり、デミス(・ハサビス)との会話でさえ、グラウンディングがこれらのモデルにどのように入り込むか、それらがどのように物事の概念的な理解を構築してきたかについて話していましたから。そして、あなたが言っていることは、彼らが持っているグラウンディングは、ある種の表面的なレベルのグラウンディングであるかのようですね。
デビッド: たぶん。私は人間データは人間の経験に根ざしていると思います。だから、LLMは、人間がおそらく自身の実験から解明したすべての情報を一種継承しているようなものです。例えば、科学において、ご存知のように、人間が水の上を歩こうとして、落ちてしまったことを発見し、それからボートを作り、それが浮くことを発見したかもしれません。そして、そのすべての情報はLLMによってある程度継承され得ます。しかし、もし私たちが実際に発見を行い、水上での完全に新しい推進形態や、ご存知のように、完全に新しい数学的なアイデア、あるいは完全に新しい方法を発見するシステムを望むなら…
司会者: 病気?
デビッド: ええ。医学。それなら生物学への新しいアプローチが必要です。データがそこにはないのです。そして、システムは自身の種類の実験、自身の試行錯誤、そして自身のグラウンディングされたフィードバックを通じて、それが良いアイデアか悪いアイデアかを自ら解明する必要があります。
司会者: オリオール・ヴィニャルズさんと話す機会がありました。そして彼は、私たちが人間データを使い果たしつつあるという現実的な問題があると述べました。彼が説明していた解決策は、思うに、大規模言語モデルを使用してより人間らしい対話を生成することで、合成データを作成できるというものでした。つまり、これはそのアイデアに関連していますよね。LLMを使用してより多くの人間対話データを作成するのではなく、異なる方法で解決策に取り組んでいるだけです。
デビッド: その通りです。合成データは多くのことを意味する可能性があります。しかし、ご存知のように、通常それは、既存のアルゴリズムをある種取り込み、それを使用してあるデータセットを生成する何らかのプロセスがあることを意味します。そして、私の議論は、人間データから得られる天井と同様に、その合成データがどれほど優れていても、その合成データがシステムがより強くなるのに役立たなくなる点に達するだろうということです。ですから、システムの燃料が実際には経験である自己学習システムの美点は、システムが強くなり始めると、それが現在いるレベルにまさに適切な問題に遭遇し始めるということです。したがって、それは常に遭遇している次の問題を解決することを可能にする経験を生成し続けるでしょう。そして、それは永遠にただ強くなり続けることができます。限界はありません。そして、それが、自己生成経験を使用するというこの特定のアプローチを他の形態の合成データと区別するものだと思います。
司会者: ただ、あなたのケーキの例に戻ると、つまり、それをある種最後まで追うと、誰かがケーキを食べて、「はい、これは美味しかったです」と言う。あなたはプロセスの最後に、とにかく人間のフィードバックを使っています。私たちはそれについて話しているのでしょうか、それとも、もしかしたら人間から完全に切り離され、具現化されているか、あるいは物理的な世界に何らかの形で存在し、その方法でフィードバックを得ることができるシステムを持つことについて話しているのでしょうか?
デビッド: 理想は、AlphaZeroのように、システムが膨大な量の自己生成データ、つまり経験を生み出し、それを自ら検証できることです。そして多くのドメインで、それは可能になるでしょう。そして多くのドメインでは、それは可能にならないでしょう。それが可能でないドメインでは、ご存知のように、人間が私たちがいる環境の大きな部分であることを認めなければなりません。私たちがエージェントに生きてほしいと望む世界の一部であることを認めなければなりません。したがって、人間をその環境の一部と考え、彼らが振る舞う方法をエージェントが受け取る観察の一部と考えるのは合理的だと思われます。私が反論し、グラウンディングされていないと言っていることは、それではありません。それは、エージェントが学習する報酬が、この一連の行動が良いか悪いかのような人間の判断から来ているという事実です、そうですよね?そして、システムは実際の世界でのそれらの行動の結果に基づいて自ら判断していません。私たちは人間データをエージェントの経験の特権的な部分にするべきではありません。それは単なる世界の観察であり、私たちは他のデータと同様にそれから学ぶことができるべきです。
司会者: もし私たちが、報酬を割り当てるという先のAlphaGoの例、最後に得られるその1ポイントに戻ると、これはほとんど、私たちが現在AIを扱っている方法のようなものでしょうか?つまり、アルゴリズムが最初の10手か15手を打ち、それから私たちが人間を挿入し、その人が「はい、それは良い最初の10手です」と言い、あなたがその少しのフィードバックを入力する前に、プロセス全体がある種完全に実行されるのを許さない、という。
デビッド: まさにその通りです。想像してみてください、私たちがAlphaGoを訓練していて、一手ごとに、私たちの最高の囲碁プレイヤーが入ってきて、「おお、その手、その手は素晴らしかった」あるいは「おお、いやいや、その手は完全に間違っていた」と言うとします。そして私たちがそのフィードバックを得て、それを入力し、システムが人間が好む手を指すように学習します。それは37手目を発見することには決してならないでしょう。なぜなら、それはただ人間が良い囲碁のゲームだと考えるようにプレイすることになり、その人間が知らなかった新しい囲碁のプレイ方法を発見することは決してないからです。
司会者: あなたが言っていることは、その環境では非常に理にかなっています。これが非常に理にかなっていると思う他の環境もあります。私がここで考えているのは、人間の思考の頂点である数学についてです。その分野で何が起こってきたか教えてください。
デビッド: あなたが言うように、それは何千年もの人間の努力が注ぎ込まれてきた信じられないほどの人間の営みです。そして多くの点で、それは文字通り人間の精神による達成の限界を表しています。そして当然、私たちはAIに、ご存知のように、人間がこれらすべての年の努力を通じて達成してきたのと同じレベルのパフォーマンスを達成できるかどうかを見る傾向があります。私たちは最近、AlphaProofと呼ばれる、非常にエキサイティングな研究だと私が思うものをまとめました。それは、経験を通じて数学的問題を正しく証明する方法を学ぶシステムです。もしあなたがそれに定理を与え、その定理を実際に証明する方法について何も教えなければ、それは去っていき、その定理の完璧な証明を自ら解明します。私たちは実際にこの証明が正しいことを検証し、保証することができます。これについて興味深いことの一つは、それがLLMが通常機能する方法と正反対であるということです。もしあなたが現在LLMに数学的問題を証明するように頼むと、それらは通常、いくつかの非形式的な数学を出力し、「ただ私を信じて、これは正しい」と言うでしょう。そしてそれは正しいかもしれませんが、正しくないかもしれません。なぜなら、私たちはLLMが多くを幻覚(ハルシネーション)する傾向があることを知っているからです。彼らは物事をでっち上げることができます。そしてAlphaProofの良い点は、それが実際に真実を保証して生成することです。
司会者: では、これを人々の心に定着させるために、ここで例を考えてみましょう。素数は、それ自体と1以外では割り切れないものです。そして、それらは無限に存在します。さあ、どうぞ。証明してください。
デビッド: AlphaProofが機能する方法は、1つだけでなく、何百万もの異なる定理の例で訓練されることです。そして起こることは、それが出かけていき、それらについて訓練することです。そして最初は、ご存知のように、それらの大多数、定理の99.999%を解くことができません、それはただできません。
司会者: そしてこれらは人間がすでに証明した定理ですか?あなたはそれを供給しているのですか?
デビッド: 私たちはシステムに、人間が自ら考案した約100万の異なる定理のようなものを供給します。しかし、私たちは人間の証明を提供しません。私たちはただ質問を提供しますが、答えは提供しません。
司会者: つまり、あなたはそれが真実だと知っているものを与えていますが、それを証明する方法は教えていないのですね。
デビッド: そして時々、私たちはそれが真実であることさえ知りません。なぜなら、私たちが実際に行うことは、人間の定理、人間の質問を取り、それを形式言語に変えることだからです。
司会者: これらは言語モデルが使用している意味での言語を使用していませんが、数学的言語のような言語形式を使用していますね。
デビッド: その通りです。実際、私たちは大規模言語モデルを使用しており、それがプログラミング言語を出力することを可能にします。そして特に、私たちはLeanと呼ばれるプログラミング言語を使用しており、それはすべての数学を表現することを可能にします。そして、それは数学者たちが考案した驚くべきアイデアであり、私たちが通常英語や話しているどんな言語であれ話すこれらすべての種類のことを、数学のすべてのアイデアを表現することを可能にする、完全に明確で検証可能な数学的言語に実際に形式化できるということです。そしてまた、数学的証明のすべてのアイデアを表現することもできます。ですから、例えば、AがBを含意し、BがCを含意すると言うことができ、そこからAがCを含意することに進む方法があります。そして、それがこの数学的プログラミング言語でできる種類のことです。あなたは本質的に、一方から他方へとあなたを導くプログラムを書きます。そして、ジャジャーン、あなたはこのステートメントの証明を持っています。ですから、私たちは私たちの約100万の人間の問題を取り、そこから1億の形式的な問題を生成します。そして、それらのいくつかは実際には不可能かもしれないし、誤って定式化されているかもしれないし、ええ、ただ偽であるかもしれません。そして、それは問題ではありません。なぜなら、私たちが行うことはすべて、それらのことを証明することを学ぶことであり、証明できないものについては、私たちは試し続け、試し続けます。すでに証明したものについては、OK。それらは終わりです。それらは邪魔になりません。さて、もし私たちがそれらを反証するなら、それはそれで結構です。それらは邪魔になりません。そして、私たちが残されるのは、本当に興味深いもの、つまり証明するのが本当に難しいものです。そして、私たちはそれらのうち1つか2つを解くことができるだけから、次に10か20を解くことができるようになり、最終的には100万を解くことができるようになるまで、一種登り続けます。
司会者: これは、ご存知のように、証明が正しいか間違っているかというその瞬間に相当するのでしょうか?それはAlphaGoに相当しますか?ゲームに勝つか負けるか。
デビッド: まさに同等です。ですから、私たちはLeanが「よくやった、これを証明した」と言う考えを報酬として使用し、システムに、ご存知のように、それを解決すればプラス1を与え、それが正しくなければマイナス1を与えます。そして、これにより、強化学習によってシステムを訓練し、数学的ステートメントを証明するのがどんどん上手くなるようにすることができます。実際、私たちは文字通り、囲碁やチェス、その他すべてのゲームでより上手くなるために使用したのと同じAlphaZeroコードを使用しています。それは文字通り同じコードですが、それは、いわば、数学というゲームで実行されています。
司会者: よくも数学を些末なもの扱いしましたね!承知しました。さて、それはどれくらい良いのですか?
デビッド: それはまだ超人的な数学者ではありませんが、それは私たちがいつか到達したい場所です。しかし、AlphaProofが達成したことの一つは、最もよく知られ、挑戦的な数学コンテストでした。それは国際数学オリンピック(IMO)と呼ばれています。そして、これは世界中から集まった最も信じられないほど素晴らしい若い数学者たちのために年に一度開催されるコンテストです。そして、問題は、控えめに言っても、非常に難しく、スパイシーで、非常にスパイシーです。
司会者: 数学の教授として、時々、つまり、それらはスパイシーです。だからあなたは聞いた…
デビッド: 非常にホットな。そしてAlphaProofは、驚くべきことに、このコンテストで銀メダルレベルのパフォーマンスを実際に達成しました。ですから、これは全世界の出場者のうち、およそ10%しか実際に達成できないレベルのパフォーマンスです。つまり、全世界です。これは、各国からの最高の6人のような、若い数学者の精鋭のようなものです。それだけでなく、全出場者の1%未満しか解くことができなかった特定の問題があり、AlphaProofはその特定の問題に対して完璧な証明を得ました。だから、それは見て良かったです。
司会者: 証明はどのように見えますか?つまり、人間のスタイルの議論に従っていますか?もしあなたがそこに人間のデータを入力していないなら?
デビッド: 私は言わなければなりませんが、私にとって、証明は、私はそれらを全く理解していません。
司会者: では、チームにいた、つまり、フィールズ賞受賞者であり元IMO… つまり、彼はそれを理解しましたか?彼は金メダリストでしたか、複数の金メダリスト、メガブレインですよね。並外れた数学者のような。しかし、つまり彼はこれらの証明を理解していますよね?
デビッド: ティム・ガワーズ(Tim Gowers)は実際、私たちの解答が有効な解答であり、私たちが、ご存知のように、どのルールも破っていないことを確認するためのレフェリーでした。彼は解答を理解し、それらが、ご存知のように、以前のAI数学ができることすべてをはるかに超える大きな飛躍であると考えました。ですから、それは前進です。しかし、それは、ご存知のように、私たちが本当に人間の数学者を超えたいという意味では、まだ始まりにすぎません。そして、それが私たちが次に行きたい場所です。
司会者: なぜなら、現時点では、基本的にあなたは非常に、非常に、非常に才能のある17歳の数学者を基本的に持っている、ということですよね?
デビッド: その通りです。そして、IMOに参加したシステムは、人間の出場者が許される時間よりも時間がかかったと言うべきです。ですから、ご存知のように、それは機械が速くなるにつれて時間とともに良くなると私たちがただ仮定するつもりのことです。
司会者: つまり、IMOは完璧なテストベッドのようなものです。なぜなら、正解があり、判断でき、人間のパフォーマンスと比較でき、その他あらゆる種類のことがあるからです。しかし、もしあなたが予想、つまり私たちが真実であることさえ知らないものを供給しているなら、ご存知のように、私はここでABC予想やリーマン予想、あるいは数学におけるそれらの本当に壮大な未解決の挑戦のいずれかを考えています。もしAlphaProofが何かを出力し、「いやいや、私たちはこの証明をチェックしました、それは機能します」と言うなら。あなたはそれを信頼できますか?そして、もしかしたらそれ以上に、もし私たちがそれを理解していなければ、それは何か価値があるのでしょうか?
デビッド: Leanの良い点は、私よりも優れた数学者たちが常にLeanの証明を取り、それを人間が理解できるものに翻訳し直すことができることだと思います。そして実際、私たちはこれを行うことができるAIシステムさえ構築しました。それはどんな形式的な証明でも取り、私たちがそれを非形式化(informalize)と呼ぶもの、つまりそれを人間にとって非常に理解しやすいものに戻すことを意味します。そして、もし私たちがリーマン予想を解いたなら、そしてちなみに、私たちはそれを行うことから遠く離れています。しかし、もしそれがなされたなら、何百万人もの数学者たちが、ご存知のように、そこから出てきたどんな新しい数学であれ理解し、それを人間が理解できるものにデコードすることに非常に興奮するでしょう。
司会者: なるほど、しかし、ここに私の質問があります。そうですね。クレイ数学研究所は、2000年に7つの異なる数学的問題に対して100万ドルの賞金を提供しました。人間の数学者たちはそれらを解決しようとするために四半世紀を持っていました。そして、一つだけが陥落しました。潜在的に次のものはAIに行く可能性があると思いますか?
デビッド: はい、実際にそう思います。時間がかかるかもしれないと思います。私たちはまだそこにいるとは思いません。AIシステムがこれを実行できるようになるまでには長い道のりがあると思います。AIは正しい軌道に乗っており、AlphaProofのようなシステムはますます強くなるでしょう。ご存知のように、私たちがIMOで見たものは始まりにすぎません。そして、ご存知のように、スケールでき、学び続け、学び続け、学び続けることができるシステムを持てば、本当に空が限界です。ですから、ご存知のように、これらのシステムは2年後、5年後、あるいは20年後にどのように見えるでしょうか?個人的には、もしAI数学者たちが数学全体を変革しなければ驚くでしょう。私はそれが来ていると思います。数学は、原則として、すべてが完全にデジタルで、機械がそれ自体と相互作用し、ただ進み続け、進み続けることによって行うことができる数少ない分野の一つです。ですから、私たちの経験駆動型AIシステムが数学をマスターすることに、本当に根本的な障壁はありません。
司会者: なるほど、私は、ところで、あなたがAlphaProofについて言っていること、そしてAlphaZeroについても同様に、本当に感銘を受けています。つまり、それらは強化学習でどこまで行けるかの本当に優れた例だと思いますが、それらはまた、成功の非常に明確な指標がある例でもあります。囲碁のゲームに勝つか負けるか。あなたの証明は正しいか間違っているか。これらのアイデアは、それがはるかに厄介で、実際にはこれらの非常に明確な指標が必ずしも存在しないかもしれないシステムにどのように変換されるのでしょうか?
デビッド: まず、この質問がおそらく、私が話している強化学習手法やこれらの種類の経験ベースの手法が、私たちがすべてのAIシステムで行うあらゆることの主流にまだ浸透していない理由であることを認めたいと思います。ですから、それは解決されなければなりません。「経験の時代」が到来するためには、私たちはこれに対する答えを持たなければなりません。しかし、答えは私たちの目の前にあるかもしれないと思います。なぜなら、実際にそれを見ると、現実世界には数えきれないほどのシグナルが含まれているからです。世界の仕組みには、ただ膨大な数のシグナルがあります。ご存知のように、例えば、私たちがインターネットで行うすべてのことを見ると、「いいね」や「嫌い」や利益や損失、あるいはあなたが得るかもしれない快楽、痛みのシグナル、あるいは収量、あるいは、ご存知のように、材料の特性など、経験のさまざまな側面に関するさまざまなことを表すこれらすべての異なる数値があります。そして、私たちが必要なのは、適応でき、そして「さて、この状況で最適化する本当に重要なものはこれらのうちどれか」と言うことができるシステムを構築する方法です。そして、それを言う別の方法は、もし私たちが、ご存知のように、人間がおそらく望むものを指定するが、それがシステムが完全に自律的に自ら最適化できる一連の異なる数値に変換されるシステムを持つことができれば、素晴らしいことではないでしょうか。
司会者: なるほど、では例を挙げましょう。例えば私が「さて、今年はもっと健康になりたい」と言ったとします。そして、それは少し漠然としていて、少し曖昧です。しかし、あなたがここで言っていることは、それが安静時心拍数やBMI、その他何であれ、一連の指標に変換できるということです。そして、それらの指標の組み合わせが、もし私がそれを正しく理解していれば、強化学習の報酬として使用できる、と。
デビッド: まったく、その通りです。
司会者: しかし、私たちは一つの指標について話しているのでしょうか?それともここでは組み合わせについて話しているのでしょうか?
デビッド: 一般的な考え方は、人間が望む一つのこと、例えば「私の健康を最適化する」というようなものがあり、そしてシステムが、「どの報酬があなたがより健康になるのを助けるか」のように、自ら学習できるということです。そして、それは時間とともに適応する数値の組み合わせのようなものである可能性があります。ですから、最初は「さて、ご存知のように、今本当に重要なのはあなたの安静時心拍数だ」と言い始めるかもしれません。そして後で、「ちょっと待って。ご存知のように、私はそれだけを気にしているわけではない、私は私の不安レベルか何かを気にしている」と言うようなフィードバックを得るかもしれません。そして、それがそれを混合物に含めます。そしてフィードバックに基づいて、それは実際に適応することができます。ですから、これを言う一つの方法は、非常に少量の人間データが、システムが経験から膨大な量の学習を可能にする目標を自ら生成することを可能にするということです。
司会者: なぜなら、これがアライメント(目標整合性)の本当の問題が入ってくるところだからです、そうですよね?つまり、例えば、もしあなたが「安静時心拍数を最小化するだけの強化学習アルゴリズムを実行しよう」と言ったとします。つまり、かなり早く、ゼロは、その目的を達成するであろう良い最小化戦略のようなものです、ただ、おそらくあなたが望んでいた方法では全くないかもしれませんが。つまり、明らかにあなたはその種のシナリオを本当に避けたい。では、あなたが選択している指標が追加の問題を引き起こしていないという自信をどのように持つのでしょうか?
デビッド: これを行う一つの方法は、AIの他の場所でこれまで非常に効果的であったのと同じ答えを活用することです。それは、そのレベルでは、いくつかの人間の入力を使用できるということです。もしそれが私たちが最適化している人間の目標であるならば、私たちはおそらくそのレベルで測定する必要があり、ご存知のように、「さて、ご存知のように、人間が『実際、ご存知のように、私は不快に感じ始めている』と言うフィードバックを与える」と言う必要があります。そして実際、私たちが答えを持っていると主張したくないし、これを正しく行い、この種のことが安全であることを確認するためには膨大な量の研究があると思いますが、それは実際にはこの種の安全性と適応性の観点から、特定の方法で役立つ可能性があります。システムができるだけ多くのペーパークリップを作るように求められたときに、全世界をペーパークリップで舗装するという有名な例があります。もしあなたが、その全体的な目標が、ご存知のように、人間の幸福を支援することであるシステムを持っているなら。そして、それは人間からのフィードバックを得て、彼らの、彼らの苦痛のシグナルや幸福のシグナルなどを理解します。それが、ご存知のように、あまりにも多くのペーパークリップを作り始め、人々に苦痛を引き起こし始めると、それはその組み合わせを適応させ、異なる組み合わせを選択し、世界をペーパークリップで舗装しないようなものを最適化し始めるでしょう。
司会者: 私たちはまだそこにはいません。
デビッド: ええ、しかし、私は、これのいくつかのバージョンが、実際には、ご存知のように、目標指向システムへの以前のアプローチによって直面してきたアライメント問題のいくつかに対応するだけでなく、おそらく、ご存知のように、より適応性があり、したがって今日私たちが持っているものよりも安全である可能性があると思います。
司会者: しかし、AIの世界の外では。つまり、成功の尺度として定量的な指標を使用することに、そもそも問題はあるのでしょうか?つまり、私はここで試験の点数やGDP、あるいは注意深く焦点を合わせすぎて指標の専制に陥ったときに陥る可能性のある無数の問題すべてについて考えています。
デビッド: 人間の世界で指標を無分別に追求すると、それがしばしば望ましくない結果につながることに、私は最初に同意するでしょう。同時に、人間の営みの全世界は、私たちがいくつかのことを最適化することを軸に組織されています。そして、もし私たちが最適化できるものが何もなければ、私たちは決して進歩することはできないでしょう。私たちは進歩を推進するあらゆる種類のシグナルや指標などを持っています。そして人々は、「おお、もしかしたらそれは、ご存知のように、正しい指標ではないかもしれない」と言い、彼らは適応します。
司会者: では、問題の一部は、現時点では、AIとの相互作用が本当に時間内に収められており、これらの種類のより長期的な学習や目標が何であるかの調整がないということでしょうか。GDPが目指すものだと決めたら、GDPは永遠であり、変化はない、というように。
デビッド: 私たちが今日持っている種類のAIには命がないというのは、まったくその通りだと思います。ご存知のように、それは、ご存知のように、動物や人間が何年にもわたって続き、時間とともに適応し続けることができるような、独自の経験の流れを持っているものではありません。そして、それは変わる必要があります。そして、それが変わる必要がある理由の一つは、私たちが時間とともにただ学び続け、学び続け、学び続け、そして適応し、私たちが本当に望む種類の結果をより良く達成する方法を理解するシステムを持つことができるようにするためです。
司会者: かなり強力な力を持つ可能性のあるアルゴリズムを、人間データから本当に切り離すことについて、かなりリスクがあることなのでしょうか。
デビッド: 確かにリスクがあり、確かに利点があります。そして、私たちは絶対にこれを非常に真剣に受け止め、経験の時代へのこの旅路で次に来るこれらのステップを踏むことについて、非常に注意深くならなければならないと思います。そして、私がこのポジションペーパーを書いた理由の一つは、人々がこの移行が起こること、そしてそれが結果をもたらすこと、そしてこれらの決定の多くについて慎重な思考を必要とすることを認識していないと感じているからです。そして、非常に多くの人々が依然として人間データアプローチについてのみ考えているという事実は、十分な人々がこれらの種類の問題を真剣に受け止めていないことを意味します。
司会者: 前回このポッドキャストであなたとお話しする機会があったとき、私たちはあなたがちょうど書いた別のポジションペーパーについて話しました。「報酬は十分か(Reward is enough)」、本質的に強化学習があなたをAGI(汎用人工知能)に向かわせるために必要なすべてであると言っています。あなたはまだそれが事実だと思いますか?
デビッド: 私がこれに答える方法は、人間データが私たちに有利なスタートを与えるかもしれないと言うことだと思います。それは、比喩を借りれば、私たちが地球で発見した化石燃料のようなものです。そして、ご存知のように、このすべての人間データはたまたまそれです。そして、私たちはそれをLLMで採掘し、燃やすようなものです。そして、それが彼らに、ご存知のように、彼らが無料で持っているあるレベルのパフォーマンスを与えます。しかし、それから私たちは、例え話の中で、すべての化石燃料がなくなった後も世界を動かし続けるような、ある種の持続可能な燃料が必要です。そして、それが強化学習だと思います。それは持続可能な燃料、それが生成し、使用し、学び、さらに生成し、学ぶことを続けられるこの経験です。それが本当にAIの進歩を推進するプロセスです。そして、私は人間データで行われてきたことを決して軽視するつもりはありません。私はそれが素晴らしいと思います。私は、私たちが驚くべき、心を揺さぶるものを手に入れたと思いました。私はそれらを愛し、それらと働くことを楽しみ、私自身もそれらについて研究しています。しかし、それは始まりにすぎません。
司会者: デイブ、本当にありがとうございました。素晴らしかったです。
デビッド: ありがとう、ありがとう。いつも本当に、本当に楽しいです。
(ハンナの考察)
司会者: もちろん、現在、この記念碑的な量の進歩が進んでいますが、立ち止まって考えてみると、AIに関するアイデアの多様性において、実際にはこの狭まりがありました。つまり、マルチモーダルモデルの成功は非常に急速でした。それは非常に深遠で、ほとんどの人が予想していたものをはるかに超えていたため、それらはより広範な会話から多くの酸素を吸い取ってしまったようなものです。そして、私たちが使用可能な人間データの限界に達したというこれらのつぶやきを、今、何度も耳にするのは注目に値します。そして、なるほど、もちろん、AIを人間データから切り離すというこのアプローチにはリスクが伴います。慎重な思考と注意が必要なあらゆる種類の領域があります。しかし、デビッドさんがそこで言っていたことに、私はかなり納得せずにはいられません。もし私たちが本当に超人的な知能を望むなら、もしかしたら今は人間から離れる時なのかもしれません。
あなたはGoogle DeepMind, the podcastを、私、ハンナ・フライ教授と一緒にお聴きいただきました。そして、お帰りになる前に、本日は特別なプレゼントをご用意しました。AlphaGoの背後にいる男、デビッド・シルバーさんと、10年前にそれに立ち向かった最初のプロ囲碁棋士、ファン・フイさんとの対談です。
(ファン・フイが対談に参加)
司会者: イ・セドル(Lee Sedol)に対する非常に有名な4対1の勝利の少し前に、ファン・フイさんはあなたのアルゴリズムに対して自身のスキルを試した最初のプロ囲碁棋士になりました。ご参加いただき、誠にありがとうございます。ファン・フイさん。
ファン・フイ: ああ、ありがとう、ありがとう。非常に特別な経験です。
司会者: 彼と話してからどのくらい経ちますか?
デビッド: かなり数年経ちました。だから。ええ。ファン・フイさんに会えて嬉しいです。ええ、本当に。追いつくのは絶対に素晴らしいです。誰か… ご存知のように、ファン・フイさんはAlphaGoの開発において非常に大きな役割を果たしました。だから、それは本当に純粋な喜びです。
司会者: なるほど。では、何年も前のあの対局についてお聞きしたいのですが、なぜなら、思うに、今その全歴史を見ると、それはほとんど既定の結論のように思えますが。しかし、当時は、つまり、あなたはかなり緊張していたに違いありません、デビッドさん。そして、あなたもそれについてどう感じましたか、ファン・フイさん?
ファン・フイ: デミスのメールを最初に見たときのことを覚えています。「エキサイティングな囲碁プロジェクトがある」と私に告げていました。AlphaGoと対局したときのことをまだ覚えています。最初のゲームで負けました。何か奇妙な感じがしました。2番目のゲームで負けたことも覚えています。恐怖を感じました。なぜなら、私はもしかしたら決して勝てないかもしれないと感じたからです。これはプログラムかAIです。そして、5局の最後のゲーム、最後のゲームで負けたとき。私の囲碁の世界は壊されたと感じましたが、しかし、それは同時に私の新しい囲碁の世界が開かれた瞬間でもあったのかもしれません。だから、私にとってAlphaGoは、そして、何か新しいことを教えてくれる機会だけではありませんでした。技術的に、いいえ、ただ技術だけではありません。もしかしたら、それは私に世界を教え、私の心を開き、私の考えを変えました。その後。私にとって、今日でさえ、私にとって、私は「できない」とか「できる」とかいう質問を決してしません。私の質問はいつも「したい」か「したくない」かです。だから、これはAIかAlphaGoがそれについて私に教えてくれたことだと思います。
司会者: ただ、あなたにもお聞きしたいのですが、その対局の前に。つまり、あなたのアルゴリズムのパフォーマンスについてどれくらい自信がありましたか?
デビッド: 私たちは本当に自信がありませんでした。私たちがどこにいるのか判断するのがただ非常に難しかったからです。なぜなら、私たちはDeepMindにいたプレイヤーたちを超えたことを知っていたからです。そして、私たちは以前に書かれたすべてのプログラムを超えたことを知っていました。しかし、それからファン・フイさんのようなプロ棋士のレベルまでには、そのような巨大なギャップがあります。そして、私たちは全く知りませんでした、ご存知のように、私たちはそのギャップのどこかにいるのか?私たちはそのギャップのどこかを超えているのか?私たちはただ純粋に知りませんでした。そして、だから、これは私たちのパフォーマンスレベルを較正する機会を初めて得たようなものでした。そして、私たちの誰も、ご存知のように、もし私たちが5局すべてを負けていたら、驚かなかったと思います。そして、だから、5局すべてに勝てたのは非常に嬉しい驚きでした。そして、ええ、私たちはただ、私は純粋に、それは世界がどちらの方向にでも分岐する可能性があったそれらの瞬間の一つであり、対局が起こるまで私たちはただ知らなかったようなものでした。
司会者: しかし、もちろん、私はこのアルゴリズムがその後進化したことを知っています、つまりあなたの助けを借りて。実際、あなたの対局の後、あなたは参加し、それをさらに開発するチームを支援しました。しかし、その初期のバージョン、それをプレイするのはどのように感じましたか?人間の対戦相手を持つのとは根本的に異なると感じましたか?
ファン・フイ: ご存知のように、私はAlphaGoの前に別のプログラムと対局しました。だから、別のプログラムと対局するとき、私は「ああ、これはプログラムだ」と感じます。なぜなら、彼らは人間のようなものをプレイしないからです。AlphaGoでは、私は何か非常に奇妙なものを感じます。それは時々、私はそれが本当に人間のように感じることがあるかのようです。
司会者: では、AlphaGoとAlphaZeroが囲碁コミュニティに与えた影響は何でしたか?それは、それは… 受け入れのプロセスが必要だったのでしょうか、それとも、ご存知のように、最初から肯定的でしたか?
ファン・フイ: まず第一に、私がAlphaGoに負けたとき。だから、囲碁コミュニティ全体にとって、誰もこれが真実だと本当に信じていませんでした。なぜなら、ええ、ご存知のように、私はヨーロッパチャンピオンにすぎません。それはそうではないように思えます… しかし、AlphaGoがイ・セドル(Lee Sedol)を打ち負かしたとき、そしてすべての囲碁コミュニティが何か違うものを見ました。なぜなら、AlphaGoは本当に、本当にうまくプレイしたからです。私は、ああ、第2局の、37手目を覚えています。そのような美しい手。本当に、本当に美しく、とても創造的で、人間にとって非常に創造的です。私たちはこの手を決してプレイしないでしょう。その手の後、囲碁の世界ではすべてが変わりました。なぜなら、私たちにとって、今日すべてが可能だからです。生徒でさえ、生徒でさえAIを使って学びます。だから、はい、これは囲碁コミュニティ全体にとって本当に、本当に良いことだと思います。それは囲碁コミュニティのためだけではないと思います。それは世界のためでもあると思います - すべてのために。
司会者: まったくです。ファン・フイさん、ご参加いただき誠にありがとうございました。特に大きな記念日が近づいている中で、本当に嬉しいおまけでした。
デビッド: またお会いできて嬉しいです。そして、ええ、来てくれてありがとう、そしてAlphaGoでしてくれたことすべてに感謝します。それは… あなたなしでは同じではなかったと思います。もし私たちが道中で私たちを助けるあなたのアドバイスを持っていなかったら、私たちはいくつかのひどい間違いを犯していたと思います。だから。ありがとう。
ファン・フイ: ありがとう、デイブ。
(終)
