AI
DeepSeek-OCRの仕組みが面白いので遊んでしまっている。 最初に試したときは、純粋にOCRさせてますね。きれいな心をしている。 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena そして前回はランダムな文字列を読ませて誤認…
おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは?」というのをやっていて、テキストを画像にしてトークン化した…
AIが読むんだから読みやすくする必要はないんでは、という話が流れてきた。 けど、実際にはAIにも読みやすさは大事だと思う。 データ形式によって、そのデータに関する回答精度がどうかわるかという調査がある。 Which Table Format Do LLMs Understand Best…
子ども向けの説明するモデルに賢さはあまり必要ないという話が流れてきて、ちょっと「あれ?」ってなった。 さらに、答えを直接ださずに考えを導くとあって、それってかなり性能が高いモデル能力を要求するんではと思った。 子ども向けの説明で大事なことは…
AIとやりとりしてると、こんな感じでさっきのバグを再現してしまって「アホか!」って暴言吐きたくなることありますね。 で、このエントリのときに、こういうチャットは捨てて やりなおしたほうがいいと書きました。 AIに激詰めしてしまうのはAIだからじゃな…
AIコーディングエージェントが100倍速くなるエントリに、10000tok/secとTDDとがあればコーディングはガチャになるというブックマークコメントがありました。 AIコーディングエージェントは100倍速くなる - きしだのHatena LLMはじめとした機械学習は、よりよ…
みなさん、AIコーディングしてますか?そうですよね、やってますよね。 みなさん、AIに激詰めしてますか?罵声あびせてますか?やってますよね。 「おめーは何回いえばわかるんだ」みたいなことを、そんなこと書いても意味ないとわかってるのにやってしまい…
GPT-5が出ましたね。コーディング能力もめっちゃあがってる!みたいなことが書いてあるので、いろいろ試してみました。 開発者向け GPT-5 のご紹介 | OpenAI 結論を書いておくと、GPT-5のコーディング能力は確かにあがってSonnet 4と同等くらいになってるけ…
技評さんのサイトで「JavaでAIプログラミングをはじめよう」という短期連載をやってました。 LLMを動かして接続してRAGやMCPも組んでひととおりやってみるという連載になってます。 JavaでAIプログラミングをはじめよう 記事一覧 | gihyo.jp ● 初回は、LM St…
OpenAIのオープンモデルが来ました。 120Bと20B。どちらもMoEで、アクティブパラメータはそれぞれ5.1B、3.6Bです。 そして4bit浮動小数点での量子化があるので、120Bは80GBのVRAM、20Bは16GBのVRAMで動きます。 Introducing gpt-oss | OpenAI LM Studioで動…
Qwen3のアップデートがいろいろ出ていて、ベンチマークですごい結果を出したりしています。 けど、実際に使うと全然そんな性能が出てる気しないです。 これたぶん、コンテキストが長くなったときの性能劣化が激しいんじゃないかと思います。 なので、ベンチ…
エージェントとエージェントで通信するA2Aプロトコルで、さまざまなエージェントがやりとりする世界みたいなのが描かれがちだけど、組織をまたがって自分たちでコントロールできないエージェントにシステムが依存するのってあまり現実的じゃないなと思ったの…
Mistal.aiからMistral 3.1 Smallをベースにしたコーディング専用モデルDevstralが出ていたので、これを使ってエージェントを作ろうと思ったのです。 Devstral | Mistral AI Devstralは、24Bというサイズで他の大きなオープンウェイトモデルも凌駕するコーデ…
AIコーディングエージェントが流行りだしてますね。 AIコーディングエージェントでは、いろいろなロジカルな処理でLLMを制御することで、プログラミングの計画をたて実装してテスト、修正といった流れを実行します。 このAIコーディングエージェントを病院の…
もう全人類128GBとか512GBとか載ったMacを手にいれてクソデカモデルを試すようになっていますね。 ぼくもMac Studio 512GBを1日借りてて試したのだけど、Llama4がなんだかんだで強いという印象でした。 ※2025/8/27追記 もちろん、Qwen3 CoderやKimi K2など、…
ぼくもAIコーディングエージェントを作ったほうがいいんじゃないか、ということで、かろうじてコーディングエージェントと呼べるものを作りました。 指示したJavaファイルを作って保存して実行してエラー出なくなるまでやりなおすというものです。 ただまあ…
少ないVRAMで長い動画を生成できるFramePackというのが出ていたので、試してみました。6GBのVRAMでいいらしい。 Windowsは「明日またここに来てください」って書いてあったので、WSLでLinux版を動かしました。 https://github.com/lllyasviel/FramePack イン…
「生成AI」という言葉の雑な流れのメモ。話題ごとにまとめているので、時系列は少し前後してます。 2012年、AlexNetで畳み込みニューラルネット(CNN)で画像認識の性能が劇的向上して、ディープラーニング大流行の幕開け 2014年、敵対的生成ネットワーク(GAN)…
ChatGPTでFunction Callingができるようになったときに、いろいろ試してたのでした。 OpenAIのFunction Callingを使って自然言語でツールの操作をする - きしだのHatena Gemma 3が案外Function Callingが動くので、試しにLangChain4Jを使ってローカルで試し…
GoogleからGemma 3が出たり、AlibabaがQwQを出したりで、27Bや32BでDeepSeek V3の671Bに匹敵すると言っていて、小さいサイズや2bit量子化でも実際結構賢いので、普通の人がもってるPCでもローカルLLMが実用的に使える感じになってきています。 Gemma 3 Gemma…
DeepSeek R1が話題になってだいぶたちますが、日本語対応モデルも出てきてますね。 そして2/15にrinnaからDeepSeek R1の蒸留モデルが出ていて、これがかなりいい感じなのでびっくりしてます。驚き屋してます。 DeepSeek R1では、こっそりと回答方針を決める…
さて、おうちで動画生成は難しいという結論になりました。 Open Soraを使っておうちのWindowsで動画生成する - きしだのHatena ということで、GPUサーバー借りてやるのがいいのではと、Google Colabで試してみました。それなりに動画が生成できたので、末尾…
Open-Soraという、オープンな動画生成モデルのバージョン1.2が6/17に出ていたのでWindowsで試してみました。 GPUメモリほしい。 GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All Open-Soraのアーキテクチャとか…
LINEヤフーから日本語CLIPが出ていたので、どうやって使うんだろうと試してたら、なんかめちゃくちゃ便利な画像検索ができてしまいました。 clip-japanese-basic LINEヤフーの日本語CLIP、clip-japanese-baseはこちらで紹介されています。 高性能な日本語マ…
画像認識対応モデルのLLaVAで、おうちでも設計画像からコードが生成できるようになりました。 LLaVAを使っておうちのパソコンでも画像からコード生成 - きしだのHatena llama.cppが対応したことでMacでも動かしやすくなりました。 https://github.com/ggerga…
ChatGPTが画像対応して、画像からいろいろなコードが生成できて楽しいことになっていましたが、同じようなことをおうちで動かせるLLaVAが出ていたので試してみました。 GPUはVRAM 12GBあれば十分、8GBはギリギリという感じ。 LLaVA-1.5 先週、LLaVAのバージ…
ChatGPTによるメンバーで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDEVが結構おもしろかった。 ChatDEVは、ChatGPTによってCTOやプログラマー、レビュアー、テスターといった役割をもつエージェントをやりとりさせることでソフトウ…
Stability AIから日本語画像モデルが出ていたので試してみました。 Windows + RTX 4060 Ti 16GBです。 Stability AIのリリースはこちら 日本語画像言語モデル「Japanese InstructBLIP Alpha」をリリースしました — Stability AI Japan モデルはこれ。 stabil…
Stable Diffusionの新しいバージョン、SDXLが出ています。 ただ、SDXLは大きい画像で学習しているためか、ちゃんとした画像を生成するにはそれなりの解像度を設定する必要があります。 ということで、Stable Diffusion Web UIの解像度設定をスライダーからド…
Metaがテキストから音楽や音声を生成するAIを公開していました。 https://audiocraft.metademolab.com/ AudioGenが効果音とかを生成、MusicGenが音楽を生成ですね。 MetaのMusicGenに「90年代コムロJPOP」って言ったらそれぽいものが生成された、気がする。h…