DeepSeek-OCRの弱点をつく

AI

DeepSeek-OCRの仕組みが面白いので遊んでしまっている。最初に試したときは、純粋にOCRさせてますね。きれいな心をしている。画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい - きしだのHatena そして前回はランダムな文字列を読ませて誤認…

2025-10-22

画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい

AI LLM

おとといくらいにDeepSeek-OCRというのが出てました。 https://github.com/deepseek-ai/DeepSeek-OCR ただのOCRじゃなくて、「テキストを画像にしたほうがトークンサイズを小さくできるのでは？」というのをやっていて、テキストを画像にしてトークン化した…

2025-10-07

AIが読み書きするコードも読みやすいほうがいい(トランスフォーマの特性の考慮やリーダブルコードについて追記)

AI

AIが読むんだから読みやすくする必要はないんでは、という話が流れてきた。けど、実際にはAIにも読みやすさは大事だと思う。データ形式によって、そのデータに関する回答精度がどうかわるかという調査がある。 Which Table Format Do LLMs Understand Best…

2025-09-24

子ども向けの説明するLLMモデルに賢さは必要ない、のか？

AI

子ども向けの説明するモデルに賢さはあまり必要ないという話が流れてきて、ちょっと「あれ？」ってなった。さらに、答えを直接ださずに考えを導くとあって、それってかなり性能が高いモデル能力を要求するんではと思った。子ども向けの説明で大事なことは…

2025-09-05

なぜ一度失敗したAIとの会話は打ち切るほうがいいのか

AI LLM

AIとやりとりしてると、こんな感じでさっきのバグを再現してしまって「アホか！」って暴言吐きたくなることありますね。で、このエントリのときに、こういうチャットは捨ててやりなおしたほうがいいと書きました。 AIに激詰めしてしまうのはAIだからじゃな…

2025-09-01

AIに得意かどうかはユニットテストが書きやすいかどうかで判別できる

AI

AIコーディングエージェントが100倍速くなるエントリに、10000tok/secとTDDとがあればコーディングはガチャになるというブックマークコメントがありました。 AIコーディングエージェントは100倍速くなる - きしだのHatena LLMはじめとした機械学習は、よりよ…

2025-08-15

AIに激詰めしてしまうのはAIだからじゃなく、そのくらい言わないとわからなそうだから

AI

みなさん、AIコーディングしてますか？そうですよね、やってますよね。みなさん、AIに激詰めしてますか？罵声あびせてますか？やってますよね。「おめーは何回いえばわかるんだ」みたいなことを、そんなこと書いても意味ないとわかってるのにやってしまい…

2025-08-11

GPT-5とClaude Sonnet 4でコーディング比較。ChatGPTはツールとして使い物にならない

ChatGPT AI

GPT-5が出ましたね。コーディング能力もめっちゃあがってる！みたいなことが書いてあるので、いろいろ試してみました。開発者向け GPT-5 のご紹介 | OpenAI 結論を書いておくと、GPT-5のコーディング能力は確かにあがってSonnet 4と同等くらいになってるけ…

2025-08-08

「JavaでAIプログラミングをはじめよう」という短期連載をgihyo.jpで出しました

AI java

技評さんのサイトで「JavaでAIプログラミングをはじめよう」という短期連載をやってました。 LLMを動かして接続してRAGやMCPも組んでひととおりやってみるという連載になってます。 JavaでAIプログラミングをはじめよう記事一覧 | gihyo.jp ● 初回は、LM St…

2025-08-06

OpenAIのオープンモデルGPT-oss 20Bがすごすぎる

AI ChatGPT LLM

OpenAIのオープンモデルが来ました。 120Bと20B。どちらもMoEで、アクティブパラメータはそれぞれ5.1B、3.6Bです。そして4bit浮動小数点での量子化があるので、120Bは80GBのVRAM、20Bは16GBのVRAMで動きます。 Introducing gpt-oss | OpenAI LM Studioで動…

2025-08-02

Qwen3-235BやQwen3-30B、Qwen3 Coder Flashは長コンテキストでの性能劣化が激しいのでは

AI LLM

Qwen3のアップデートがいろいろ出ていて、ベンチマークですごい結果を出したりしています。けど、実際に使うと全然そんな性能が出てる気しないです。これたぶん、コンテキストが長くなったときの性能劣化が激しいんじゃないかと思います。なので、ベンチ…

2025-07-18

他組織のAIエージェントをA2Aで呼び出すのは非現実的かも

エージェント AI

エージェントとエージェントで通信するA2Aプロトコルで、さまざまなエージェントがやりとりする世界みたいなのが描かれがちだけど、組織をまたがって自分たちでコントロールできないエージェントにシステムが依存するのってあまり現実的じゃないなと思ったの…

2025-06-10

Tool Useが効かないDevstralでコーディングエージェントを作る

AI LLM

Mistal.aiからMistral 3.1 Smallをベースにしたコーディング専用モデルDevstralが出ていたので、これを使ってエージェントを作ろうと思ったのです。 Devstral | Mistral AI Devstralは、24Bというサイズで他の大きなオープンウェイトモデルも凌駕するコーデ…

2025-05-30

AIエージェントの流れはAGI(汎用人口知能)から一旦離れる流れ

AI

AIコーディングエージェントが流行りだしてますね。 AIコーディングエージェントでは、いろいろなロジカルな処理でLLMを制御することで、プログラミングの計画をたて実装してテスト、修正といった流れを実行します。このAIコーディングエージェントを病院の…

2025-05-09

クソデカオープンモデルではLlama4が最強かもしれない

AI LLM

もう全人類128GBとか512GBとか載ったMacを手にいれてクソデカモデルを試すようになっていますね。ぼくもMac Studio 512GBを1日借りてて試したのだけど、Llama4がなんだかんだで強いという印象でした。 ※2025/8/27追記もちろん、Qwen3 CoderやKimi K2など、…

2025-04-25

LangChain4Jで雑なAIコーディングエージェントを作る

AI

ぼくもAIコーディングエージェントを作ったほうがいいんじゃないか、ということで、かろうじてコーディングエージェントと呼べるものを作りました。指示したJavaファイルを作って保存して実行してエラー出なくなるまでやりなおすというものです。ただまあ…

2025-04-18

少ないVRAMで長い動画を生成できるFramePackを試す

AI

少ないVRAMで長い動画を生成できるFramePackというのが出ていたので、試してみました。6GBのVRAMでいいらしい。 Windowsは「明日またここに来てください」って書いてあったので、WSLでLinux版を動かしました。 https://github.com/lllyasviel/FramePack イン…

2025-04-01

「生成AI」の成り立ちと流れの雑なまとめ

AI

「生成AI」という言葉の雑な流れのメモ。話題ごとにまとめているので、時系列は少し前後してます。 2012年、AlexNetで畳み込みニューラルネット(CNN)で画像認識の性能が劇的向上して、ディープラーニング大流行の幕開け 2014年、敵対的生成ネットワーク(GAN)…

2025-03-28

Gemma 3とLangChain4JでローカルLLMでFunction Calling

AI LLM

ChatGPTでFunction Callingができるようになったときに、いろいろ試してたのでした。 OpenAIのFunction Callingを使って自然言語でツールの操作をする - きしだのHatena Gemma 3が案外Function Callingが動くので、試しにLangChain4Jを使ってローカルで試し…

2025-03-15

Gemma 3やQwQなどでローカルLLMがそろそろ使い物になってきた

AI LLM

GoogleからGemma 3が出たり、AlibabaがQwQを出したりで、27Bや32BでDeepSeek V3の671Bに匹敵すると言っていて、小さいサイズや2bit量子化でも実際結構賢いので、普通の人がもってるPCでもローカルLLMが実用的に使える感じになってきています。 Gemma 3 Gemma…

2025-02-17

rinnaのDeepSeek R1蒸留モデルがすごい

AI LLM

DeepSeek R1が話題になってだいぶたちますが、日本語対応モデルも出てきてますね。そして2/15にrinnaからDeepSeek R1の蒸留モデルが出ていて、これがかなりいい感じなのでびっくりしてます。驚き屋してます。 DeepSeek R1では、こっそりと回答方針を決める…

2024-06-30

Open SoraをGoogle Colabで動かして高速動画生成

AI

さて、おうちで動画生成は難しいという結論になりました。 Open Soraを使っておうちのWindowsで動画生成する - きしだのHatena ということで、GPUサーバー借りてやるのがいいのではと、Google Colabで試してみました。それなりに動画が生成できたので、末尾…

2024-06-30

Open Soraを使っておうちのWindowsで動画生成する

AI

Open-Soraという、オープンな動画生成モデルのバージョン1.2が6/17に出ていたのでWindowsで試してみました。 GPUメモリほしい。 GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All Open-Soraのアーキテクチャとか…

2024-06-11

日本語CLIPを使って画像検索を作ったら素晴らしすぎた

AI java

LINEヤフーから日本語CLIPが出ていたので、どうやって使うんだろうと試してたら、なんかめちゃくちゃ便利な画像検索ができてしまいました。 clip-japanese-basic LINEヤフーの日本語CLIP、clip-japanese-baseはこちらで紹介されています。高性能な日本語マ…

2023-10-17

画像対応モデルのLLaVAをMacで動かす

AI LLM

画像認識対応モデルのLLaVAで、おうちでも設計画像からコードが生成できるようになりました。 LLaVAを使っておうちのパソコンでも画像からコード生成 - きしだのHatena llama.cppが対応したことでMacでも動かしやすくなりました。 https://github.com/ggerga…

2023-10-13

LLaVAを使っておうちのパソコンでも画像からコード生成

AI LLM

ChatGPTが画像対応して、画像からいろいろなコードが生成できて楽しいことになっていましたが、同じようなことをおうちで動かせるLLaVAが出ていたので試してみました。 GPUはVRAM 12GBあれば十分、8GBはギリギリという感じ。 LLaVA-1.5 先週、LLaVAのバージ…

2023-09-01

ChatGPTで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDevがおもしろい

ChatGPT AI

ChatGPTによるメンバーで構成された仮想のソフトウェア会社にシステム開発を行ってもらうChatDEVが結構おもしろかった。 ChatDEVは、ChatGPTによってCTOやプログラマー、レビュアー、テスターといった役割をもつエージェントをやりとりさせることでソフトウ…

2023-08-21

Stability AIの日本語画像言語モデルをWindows+RTX 4060 Ti 16GBで試す

LLM AI

Stability AIから日本語画像モデルが出ていたので試してみました。 Windows + RTX 4060 Ti 16GBです。 Stability AIのリリースはこちら日本語画像言語モデル「Japanese InstructBLIP Alpha」をリリースしました — Stability AI Japan モデルはこれ。 stabil…

2023-08-07

Stable Diffusion Web UIの解像度をSDXLにあわせたドロップダウンにする

AI Stable Diffusion

Stable Diffusionの新しいバージョン、SDXLが出ています。ただ、SDXLは大きい画像で学習しているためか、ちゃんとした画像を生成するにはそれなりの解像度を設定する必要があります。ということで、Stable Diffusion Web UIの解像度設定をスライダーからド…

2023-08-04

MetaのMusicGenに90年代コムロJ-POPを作ってもらう

AI

Metaがテキストから音楽や音声を生成するAIを公開していました。 https://audiocraft.metademolab.com/ AudioGenが効果音とかを生成、MusicGenが音楽を生成ですね。 MetaのMusicGenに「90年代コムロJPOP」って言ったらそれぽいものが生成された、気がする。h…