サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2025年ランキング
note.com/it_navi
その内容がとても素晴らしかったので、公開されたプロンプトを参考にして、マンガ作成用の汎用的なプロンプトフォーマットを作成し、これを使用して様々なマンガを作成できるGem(カスタマイズしたGemini)を作ってみました。 1.npakaさんのマンガ作成用プロンプトnpakaさんがnote記事「Nano Banana Pro で1ページ漫画ができるまで」で紹介しているプロンプトは以下のとおりです。(参照画像は省略します。) # 指示 日本のAI紹介漫画を描いてください。 右から左読み進める日本漫画のフォーマット (Original Japanese format)。 画像サイズは768x1376。 コマ割りは縦4分割で高さは等倍ではなく、横は4分割で幅は等倍ではない。 上から2行目は左3コマをつなげてポップなタイトル「そらみ と へにへに のゆるふわAI研究所」と「npaka」(作者名)。右1
11月20日、GoogleのNotebookLMにスライド作成機能が追加されました。収集した情報を美しいスライドに変換できるこの機能は、その利便性の高さから大きな注目を集めています。論文PDFやYouTube動画のスライド化はもちろんですが、実はまだ知られていない「裏技」的な使い道も存在します。 本記事では、NotebookLMのポテンシャルを最大限に引き出す、斬新な活用術を解説します。 1.ソース無しでもスライド作成実は、ほとんどソース無しでも、Geminiが最初から持っている知識を生かしてスライドを作成することができます。 (1) 「生成AI」をテーマとしたスライドの作成まず、NotebookLMにアクセスして、「ノートブックを新規作成」をクリックします。すると、以下のような画面が表示されます。 ここで、「コピーしたテキスト」を選択し、「生成AI」とだけ入力して挿入をクリックします。
約1か月前の11月12日にGPT-5.1リリース。その直後にGoogleがGPT-5.1を圧倒する性能のGemini 3 Proを発表しました。これを受け、OpenAIのサム・アルトマンCEOは直ちに社内で「Code Red(緊急事態宣言)」を発令。その結果として12月11日(日本時間12日)に緊急リリースされたのが、GPT-5.2です。 ベンチマーク評価において、GPT-5.2はGemini 3 Proを凌駕するスコアを記録しました。この記事では、Gemini 3 Proとの比較を通じて、GPT-5.2の実際の性能を検証します。 1.GPT-5.2の概要(1) 2種類のモデルGPT-5.2モデルには以下の2種類があり、GPT-5.2 Auto を選択すると、ユーザーのリクエストに対して自動的にどのモデルを使用するかが決定されます。複雑なタスクでは、GPT-5.2 Thinkingに切り替
Googleの最新画像生成AIのNano Banana Proを使えば、以下のようなマンガも簡単に作成できます。 Geminiを使用する場合、よく使うプロンプトは、Gem(自分用にカスタマイズしたGemini)を作っておくと便利です。 そこで、今回は上のようなマンガを効率的に作成するためのプロンプトを作成するGemの作り方を紹介します。 以下が今回作成したGem「マンガの作成」です。ぜひアクセスして使ってみてください。後程、詳しい使い方は説明しますが、基本的に描きたい内容(ニュース記事、小説など)をコピペして実行するだけです。 1.Gemの使い方と作り方(1) Gemの使い方Geminiの操作画面の左メニューから使いたいGemのタイトルをクリックします。 例えば、「マンガの作成」をクリックすると、以下のような画面が表示されます。 入力欄に必要なプロンプトを入力して実行することで、Gemを使
2025年11月20日(現地時間)に発表されたGoogleの最新画像生成モデル「Nano Banana Pro」(正式名称:Gemini 3 Pro Image)について、そのアーキテクチャ、推論プロセス、および既存モデル(Imagen 3やMidjourney、Flux等)との決定的な技術的差異に焦点を当てて解説します。 本モデルは、単なる「Text-to-Image」モデルの進化版ではなく、「Multimodal Reasoning(マルチモーダル推論)」を画像生成プロセスに本格的に統合した初の商用ハイエンドモデルである点が最大の注目点です。 ※ この記事は、Gemini 3 Proによって作成されました。Gemini 3 Proが選んだNano Banana Proの面白い使用例10選も掲載しています。 1. モデルの定義と位置付け正式名称: Gemini 3 Pro Image バ
アプリでは、以下のようなことができます。 テキストからの動画生成 画像からの動画生成 自分や他のユーザーが生成した動画から新たな動画を創作するRemix機能 自分や友人を動画に登場させるCameo機能 自分のペットや自分の作成したキャラクターを動画に登場させるCharacter Cameo機能 生成した動画のSoraコミュニティへの投稿・公開 サイズは、ポートレート(縦型、704×1280ピクセル、9:16)又は横方向(1280×704ピクセル、16:9)、長さは10秒間又は15秒間で30fps、音声付きの動画を生成できます(Plusユーザーの場合。Proユーザーの場合は最長で25秒間)。 動画のサイズ及び長さは、プロンプト入力画面上部の「動画を作成する」の下の「Sora 2」と書かれた部分をクリックすると、以下のようなドロップダウンリストが現れて、変更できます。 (2) Webサイトから
画像生成用のプロンプトを書く際、位置や構図を具体的に説明するのは手間がかかります。 しかし、最近の画像生成モデルでは、文字の大きさや位置でそれらを表現する「指示図」を使ってイラストを作成できます。 これは、指示図からピクトグラムを作成する方法を試行錯誤する中で気づきました。 今回は、こうした指示図を使ってイラストなどを作成する方法を、ChatGPT、Nano Banana(Gemini)、Seedream 4.0を用いて紹介します。
8月26日、Googleが新しいAIモデルのGemini 2.5 Flash Imageをリリースしました。 これは、少し前にLMArenaでnano-bananaという名前で登場し、その編集性能の高さやキャラクターの一貫性でAI界隈を驚かせた画像生成・編集モデルです。 筆者も早速その性能をテストしてみましたので、このモデルの使い方や実際の使用例について紹介したいと思います。 1.特徴Gemini 2.5 Flash Image(旧 nano-banana)は、Googleが開発した最新の画像生成・編集モデルです。このモデルは、文章による指示だけで高度な画像生成や編集を行うことができ、既存画像の編集や合成にも対応しています。 高速な画像生成: 1枚当たり数秒という高速な画像生成が可能で、競合モデルより格段に速い。コスト効率も高い。 画像編集に特化した設計: 画像編集に強く、文章で指示するだ
3.数学オリンピックの問題(1) 国際数学オリンピックの問題以下は、2025年国際数学オリンピックの第1問です。先日、この大会で金メダル相当の成績を収めたOpenAIとGoogleのモデルは、この問題を正解できていました。 問題: n を 3 以上の整数とする. xy 平面上の直線 l が「面白い」とは, l が x 軸, y 軸, 直線 x + y = 0 のいずれにも平行でないことをいう. xy 平面上の相異なる n 本の直線を選ぶことを考える. 次の条件をともにみたすような選び方が存在する非負整数 k をすべて求めよ. ・ a + b ≤ n + 1 をみたす任意の正の整数 a, b について, 点 (a, b) が少なくとも 1 つの選んだ直線の上にある. ・ 選んだ直線 n 本のうち, ちょうど k 本が面白い直線である. zenithの回答 概要 三角形領域 T = {(a,b
最近、次々と高性能なAIモデルが現れ、クリエイティブ・ライティングの性能も格段に向上しています。 そこで、同じプロンプトで短編小説を作成した場合に、どのAIモデルの作品が最も優れているか比較してみました。 比較に使ったAIモデルは以下の通りです。 ChatGPT o3 ChatGPT 4o ChatGPT 4.1 ChatGPT 4.5 Gemini 2.5 Pro Claude Opus 4(Thinkモード) Grok 4 Kimi K2 DeepSeek R1 1.作品の評価基準各モデルが作成した作品は、ChatGPT o3によって評価します。作品の評価にChatGPT o3を使うのは、現時点で分析能力が最も高いモデルだと考えられるからです。本来は、複数のモデルで評価するべきですが、煩雑になるのを避けるため、今回はChatGPT o3のみで評価します。 まず、ChatGPT o3に各
このプロジェクトのルールは以下のようになっています。 作品の文字数は 4,000字以内とする。 95%を生成AI、残り5%を九段理江氏が執筆する。 ただし、その「%」の解釈については九段理江氏に委ねる。 生成AIは九段理江氏が使い慣れているものを使用する。 プロンプトは作品の一部として今後全文公開する。(文字数制限は無し) 今回、「影の雨」の執筆に際して、九段理江さんから生成AIに指示を出した「プロンプト」の全文がネットで公開されたので、九段さんのAIを利用した小説執筆手法を分析しました。 2.小説執筆に使用されたプロンプトの分析(その1)(1) プロンプトの特徴 “影の雨”を生むための〈物語的プロンプト・エンジニアリング〉1. 導入フェーズ 挨拶で始め、AI に〈九段理江〉という存在を認識させる。 作品歴や翻訳予定を AI が自発的に列挙するよう促す。 ↳ 狙い: AI が既に保持してい
2025年6月11日にOpenAI CEOのサム・アルトマン氏が発表したブログ記事「The Gentle Singularity(穏やかなシンギュラリティ)」の全文日本語訳を掲載します。 穏やかなシンギュラリティサム・アルトマン 私たちはすでに事象の地平線を越え、離陸は始まっている。人類はデジタル超知能の構築に近づいており、少なくとも今のところ、それは思われるほど奇妙ではない。 ロボットはまだ街を歩き回っておらず、私たちのほとんどは一日中AIと話しているわけでもない。人々は依然として病気で死に、私たちはまだ簡単に宇宙に行くことができず、宇宙には理解できないことがたくさんある。 それにもかかわらず、私たちは最近、多くの点で人間よりも賢く、それを利用する人々の生産性を大幅に向上させることができるシステムを構築した。仕事の最も困難な部分は過ぎ去った。GPT-4やo3のようなシステムに至るまでの科
最近、OpenAI、Google、Microsoftなど名だたる企業がソフトウェア開発を支援するAIコーディングエージェントを開発・公開しています。こうしたツールは、開発効率の向上やコーディング作業の自動化を目指して急速に進化しており、ITエンジニアにとってますます重要な存在となりつつあります。 本記事では、2025年5月時点で特に注目を集めている6種類のAIコーディングエージェントについて、それぞれの概要、主な機能と特徴、利用方法、そして長所と短所を整理し、比較してご紹介します。 対象となるAIエージェント(提供企業):Codex(OpenAI) GitHub Copilot Agent(Microsoft/GitHub) Jules(Google) Claude Code(Anthropic) Devin(Cognition Labs) Cursor(Anysphere)
最近は、AIモデルの性能が上がって、比較的簡単なプロンプトでも高品質な小説を作成できるようになってきました。 筆者も以前は、複雑なプロンプトを駆使していたのですが、最近は、シンプルなプロットを作成し、それを基に簡単な指示でAIに小説を作成させるという手法を使っています。 筆者は、プロット自体は自分で作成することが多いのですが、プロットもAIに作成させることができるので、今回は、その方法を紹介したいと思います。 1.プロットの作成以下のプロンプトを入力してシンプルなプロットを作成します。 今回は、ChatGPTのGPT-4oモデルを使用します。o3モデルの方が文章構成力や表現力は高いのですが、短編小説としては、複雑な構成や内容を盛り込み過ぎることが多いです。 「○○」をテーマにした短編小説の主要登場人物と舞台の設定と箇条書きの簡単なあらすじだけのシンプルなプロットを作成して。 ※ 「○○」の
Google I/O 2025は、AI業界の勢力図を塗り替えるほどの衝撃的なイベントとして記憶されることとなるでしょう。今回のGoogleの動きは、単なる新機能の発表に留まらず、AIのあらゆる局面において競合他社を圧倒するような、その真の力と壮大なビジョンを世界に示しました。それは、長らくAIの最前線で激しい攻防を繰り広げてきた「帝国」がついにその全能力を解き放ち、反撃の狼煙を上げたかのような印象を与えます。 Google I/O 2025では、事前の噂で期待されていたGemini Ultraの発表こそなかったものの、それを上回る広範かつ深遠なAIの進化が披露されました。Googleは、AIモデルの性能向上から、画像・音声・動画のマルチメディア生成、AIエージェントの進化、そしてGoogle検索、Chrome、スマートグラスXRといった既存サービスとのシームレスな連携に至るまで、考えられる
生成AIは、私たちの日常業務から学術研究、ビジネス戦略の立案に至るまで、情報収集と分析の在り方を大きく変えつつあります。 特に「Deep Research」モード──大量のデータを横断検索し、出典付きで高精度に要約・分析する機能──は、従来なら数日を要した調査プロセスをわずか数分に短縮できる革新として注目を集めています。 しかし一口にDeep Researchと言っても、採用モデルの設計思想や検索アルゴリズムの違いによって、得意領域や日本語対応の質には大きな差が存在します。 この記事では、主要4サービス(ChatGPT、Gemini、Claude、Grok)が提供するDeep Research系機能を対象に、「正確性・網羅性・ソースの質・スピード・使いやすさ・日本語の自然さ・評判」という七つの観点から性能を徹底比較しました。技術者の実検証記事や公式ドキュメント、ユーザーコミュニティの声をも
1.通常モードのo3回答①今回の検証では、以下の質問を使用します。 AI時代の教育の在り方は? 【o3の回答】※今回、ChatGPT o3は1分18秒考え、Web検索も使用しました。 インターネットで調査 ユーザーの質問「AI時代の教育の在り方は?」に答えるには、最新の情報が役立ちそうです。例えば、生成AIを教育に活用する方法や日本の文部科学省のデジタル教科書ガイドライン、OECDの提言などが含まれます。これに基づいて、最近の政策、国際的なガイドライン(2023年のUNESCOなど)をしっかり参考にするため、インターネットで最新の情報を調べることにします。 AI時代の教育の在り方 AI時代における教育は、人間中心のアプローチと能力ベースの学びに焦点を当てます。学習目標は、基礎的なリテラシー(読み書き、数学、デジタル)やAIリテラシー、メタスキル(批判的思考、創造性)にシフトします。教育方法
最近、以下のように次々と高性能なAIモデルが公開されています。 o3(本年4月16日にOpenAIが公開) Gemini 2.5 Pro(本年3月25日にGoogleが公開) Claude 3.7 Sonnet(本年2月24日にAnthropicが公開) これまで筆者は、様々なAIモデルの性能比較を行ってきましたが、モデルの性能が非常に高くなったため、一般的な質問では各モデルの回答に大きな差が出ず、全般的な性能の評価をすることが難しくなってきました。 そのため、今回は、特に創作的な文章執筆の性能に限定して各モデルの比較を行います。 o3(ChatGPT o3)、Gemini 2.5 Pro Preview 03-25(Google AI Studio)、Claude 3.7 Sonnet(Thinkモード)を使用して比較します。 1.最高のハンバーグとの出会いたまたま入った店で人生最高のハ
Google DeepMind: The Podcastの今回のエピソードでは、強化学習担当バイスプレジデントのDavid SilverがAIの未来像を描き、「経験の時代」と現在の「人間のデータの時代」という概念を対比させています。 SilverはAlphaGoとAlphaZeroを例に挙げ、これらのシステムが人間の事前知識なしに強化学習を行うことで、いかに人間の能力を超えたかを強調しています。このアプローチは、人間のデータとフィードバックに依存する大規模言語モデルとは対照的です。Silverは、AIの進歩を促進し、人工超知能を実現するために、この道を探求する必要性を強調しています。 この記事は、以下のYouTube動画の日本語訳です。 プレゼンター:ハンナ・フライ教授 ゲスト:デビッド・シルバー Google DeepMind強化学習担当バイスプレジデント ゲスト:ファン・フイ 最初にA
「AI 2027」は、本年4月に元OpenAI研究者のDaniel Kokotajlo氏らが公開した未来予測シナリオで、AIの超加速的進化にどう向き合うべきかを問う内容となっています。このシナリオには、競争の結末(AI開発競争の加速)と減速の結末(協調的開発停止)という2つの道筋が描かれています。本記事では、それぞれの結末シナリオに対して寄せられた批判とそれに対する回答を分かりやすく整理しました。(※ChatGPTのDeep Researchを使用) 「AI 2027」の内容については、以下の記事(シナリオの全文和訳)をご覧ください。 1.競争の結末シナリオへの批判問1:競争の結末(AI開発競争の加速)シナリオは悲観的すぎるとの声もあります。人類滅亡寸前の予測は信頼できるのでしょうか? 答:多くの批評家が、このレース継続シナリオは極端な悲観論に基づいていると見ています。米AI研究機関AI2
AI 2027 Daniel Kokotajlo, Scott Alexander, Thomas Larsen, Eli Lifland, Romeo Dean 我々は、今後10年間の超人的AIの影響は、産業革命の影響を凌駕するほど、非常に大きなものになると予測する。 我々は、それがどのようなものになるかについて、我々の最善の推測を表すシナリオを作成した。それは、トレンドの予測、ウォーゲーム、専門家のフィードバック、OpenAIでの経験、および過去の予測の成功に基づいている。 ※今回の記事は、元OpenAIガバナンス研究者のDaniel Kokotajlo氏らが本年4月3日に公開した超人的AIの影響についての予測シナリオ「AI 2027」を日本語訳したものです。 これは何か? OpenAI、Google DeepMind、およびAnthropicのCEOたちは皆、AGI(汎用人工知能)が
1.4o Image Generationの特徴4o Image Generationは、DALL-Eなど従来の画像生成モデルで採用する拡散モデルと異なり、自己回帰型のトランスフォーマー・アーキテクチャを採用しています。これにより、今回のモデルでは以下の点が改善されています。 (1) 自然でリアルな画像生成 写実的で自然な画像を生成できます。 (2) 日本語を含む正確なテキストの表示 画像内テキストのレンダリング性能が向上し、日本語を含む正確なテキストを画像内に表示できるようになりました。 (3) 画像の一貫性の維持 画像生成がChatGPTにネイティブに統合されたため、会話を通じて画像を修正できます。画像とテキストを組み合わせて理解しているため、同一のチャットセッション内で画像の一貫性を維持できます。 (4) ユーザーの指示に忠実 ユーザーの複雑な指示にも正確に従うため、画像を細かくコン
Anthropicが公開した新しいAIモデルのClaude 3.7 Sonnetは、簡単な指示だけで高品質な図表を作成することができます。そこで、今回は、この機能を使用してプレゼン用のスライドを作成する方法について解説します。 1.タイトルスライドの作成最初に、タイトルスライドの参考にするデザインサンプルを用意します。Canvaのテンプレートや自分が以前作成したスライドから選んで、画像をコピーしてください。 Canvaのプレゼンテーションテンプレート今回は、筆者が以前Feloで作成した以下のタイトルスライドを使用します。Feloは、生成した文章からプレゼン用スライドを生成することができ、ここにも沢山のデザインサンプルがあります。 Claudeのサイトにアクセスし、Claude 3.7 SonnetモデルとExtendedモードを選択します。 Claudeの入力欄に以下のように入力し、上記の
2月24日に、Anthropicは、新しいAIモデルのClaude 3.7 Sonnetを発表しました。Claude 3.7は、直感的な即時応答と詳細な推論を1つのモデルで実現するハイブリッド推論型のAIモデルです。 数日間Claude 3.7を使ってみたところ、簡単な指示だけで高品質な図表を作成できることに驚きました。そこで今回は、Claude 3.7を使って図表を作成する際のポイントを紹介します。 1.Claude 3.7の概要と特徴Anthropicが2025年2月にリリースした最新言語モデル「Claude 3.7 Sonnet」は、ハイブリッド推論モデルを採用した汎用AIとして注目を集めています。従来モデルを大幅に上回る推論能力と柔軟な運用性を特徴とし、特にソフトウェア開発分野で顕著な進化を見せています。 コア技術の革新 ハイブリッド推論アーキテクチャ ・Standardモード:
近年、OpenAIはChatGPTの急速な進化を牽引し、ユーザーの期待に応えるべく新モデルの開発に注力しています。今回、サム・アルトマンCEOによる最新のロードマップ発表を受け、GPT-4.5とGPT-5の全貌が明らかになりました。この記事では、両モデルの特徴、提供スケジュール、そしてOpenAIの戦略的な意図について詳しく解説します。 OPENAI ROADMAP UPDATE FOR GPT-4.5 and GPT-5: We want to do a better job of sharing our intended roadmap, and a much better job simplifying our product offerings. We want AI to “just work” for you; we realize how complicated our mo
1月31日、OpenAIが新しい推論モデルのo3-miniとo3-mini-highを公開しました。これらのモデルは、o1よりも優れているのでしょうか。3つのモデルの性能を比較してみました。 1.o3-miniの概要OpenAIが2025年1月31日にリリースした「o3-mini」は、同社の推論モデルシリーズの最新かつ最もコスト効率の高いモデルです。このモデルは、ChatGPTおよびAPIを通じて利用可能で、特に科学(Science)、数学(Math)、コーディング(Coding)といったSTEM分野において高い性能を発揮します。 o3-miniは、従来の「o1-mini」の後継モデルとして設計されており、低コストと低レイテンシを維持しながら、より高速かつ正確な応答を提供します。また、推論能力においても「o1-mini」を上回り、特定のタスクでは「o1」と同等の性能を示しています。 主な特
中国発の新しい推論モデルDeepSeek-R1の性能が高いとXで話題になっています。そこで、DeepSeek-R1の性能をChatGPTの旗艦モデルのo1及びGeminiの推論モデルのGemini 2.0 Flash Thinking Experimental 01-21と比較してみました。 1.DeepSeek-R1の概要DeepSeek-R1は、中国のAIスタートアップであるDeepSeekが開発した推論型の大規模言語モデル(LLM)です。2025年1月20日にオープンソースとして公開され、MITライセンスの下で提供されています。 主な特徴: 高い推論能力: DeepSeek-R1は、数学、コーディング、推論タスクにおいて、OpenAIのo1モデルに匹敵する性能を示しています。 強化学習の活用: 教師データを使用せず、強化学習(RL)のみを用いて推論能力を開発しています。この手法は、G
1.タスク機能の使い方(1) タスクを指示する方法ChatGPTの入力画面左上のモデル選択で「スケジュールされたタスクがあるGPT-4o(ベータ版)」を選択します。 次に、入力欄にプロンプトを入力する際に、{毎日}{午後6時に}{1時間後に}{20分ごとに}など、タスクを実行するタイミングを指示します。 すると、以下のようにタスクの計画が表示されます。 ここで、「ChatGPTのTipsを提供」と書かれた部分をクリックすると、以下のようにタスク画面が表示されます。 ここで、名前や指示やスケジュールを修正・変更することができます。 スケジュールで指定した時間になると、以下のようにタスクが実行されます。 (2) タスクの実行スケジュールなどの確認右上の自分のアイコンをクリックして、ポップアップ画面を開き、「タスク(ベータ版)」をクリックします。 すると、以下のように、タスクの実行スケジュールや
2024年12月5日、OpenAIが高度な推論能力を持つo1の正式版を公開しました。現在、有料のChatGPT Plusなどのユーザーがo1を利用できます。同年9月からプレビュー版のo1-previewが使えるようになっていたのですが、それよりもかなり性能が上がっています。 また、Googleは、2024年12月6日にGemini-Exp-1206(Gemini 2.0 Experimental Advanced)、同月11日にGemini 2.0 Flash Experimental、同月19日にo1のような推論モデルのGemini 2.0 Flash Thinking Experimentalを公開しました。 AIモデルの性能が著しく向上し、平均的な人間の能力を超えてきたため、筆者が性能を評価するのも難しくなってきていますが、今回も、現在、最高峰と言えるこれらのAIモデル(o1とGem
次のページ
このページを最初にブックマークしてみませんか?
『IT navi|note』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く