Gemma 4を手元で使ってみると、翻訳や要約ならローカルLLMでも十分に実用的だと感じた。モデル選び、GPU選び、Macや専用AIマシンの価格感まで、個人が無理なく始めるための判断材料を整理する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
先日、ローカルLLM(手元のPCで動かす生成AI)のGemma 4(Google DeepMindが2026年4月にリリースしたオープンウェイトモデル)を試しに使ってみた。日本語の翻訳をさせてみたところ、手元のGPU(VRAM=GPU上のメモリが8GB)でも想像以上に高速に動作し、品質も実用に耐えるレベルだった。「翻訳でこれだけ動くなら、タスクによってはもうローカルLLMで十分なのではないか」……そう感じたことが、今回の記事を書くきっかけである。
2026年春、ローカルLLMを取り巻く状況は大きく動いている。Gemma 4、Kimi K2.6(Moonshot AI、2026年4月)、Qwen3.6-35B-A3BやQwen3.6-27B(Alibaba、2026年4月)など、強力なオープンウェイトモデルが相次いで登場している。中には、MoE(Mixture of Experts:処理内容に応じてモデル内の一部だけを使う仕組み)を採用することで、総パラメーター数の大きさに比べて動かしやすいモデルもあり、手元のマシンで動かせる選択肢は確実に広がっている。
ローカルLLMモデル選びの前提となるハードウェア4分類しかし、いざ「自分の環境でローカルLLMを使おう」と思うと、最初の壁にぶつかる。どのモデルを、どのハードウェアで動かせばよいのか。性能ベンチマークを見ると、どうしても高スコアを出す大規模モデルに目が向く。しかし、それらを手元で動かすには、数十GBから、時には数百GB級のメモリ(VRAM)が必要になる。一方、手元のPCに載っているのは、せいぜい8GBか16GBのVRAMという人も多いだろう。このギャップがローカルLLM選びを難しくしており、筆者自身も手探り状態だった。
そこで本稿では、複数の情報源を当たり、ハードウェア別に「現実的に動かせるモデル」と「そのために必要な投資額」を整理する。前半でエッセンスをコンパクトに提示し、後半で詳細を深掘りしていく構成だ。なお、ローカルLLMでClaude CodeやCodexのようなAIコーディングエージェントを動かす話題は、別記事であらためて取り上げる予定である。本稿では「ローカルLLMをどう選び、どのくらいのマシンを用意すればよいか」という基本軸に絞って論じる。
――ここからは『Deep Insider Brief』恒例の“ひと言コメント”として、ローカルLLMは本当に「手元で使えるAI」になりつつあるのか、そして今から始めるならどのハードウェアを選ぶべきなのかについて、筆者の見方を述べていく。
本稿後半では、8GB VRAMの手元PCから、Mac mini、Mac Studio、DGX Spark、ASUS Ascent GX10のような専用機に近いマシンまで、ハードウェア別に現実解を整理する。ローカルLLMを「何となく気になる技術」で終わらせず、どの環境なら、どこまで活用できるのかを見極め、次の一歩を考えるための材料にしてもらうことが、本稿の狙いである。
Deep Insider編集長の一色です。こんにちは。
冒頭で述べたGemma 4の試用で感じたのは、ローカルLLMが「とりあえず動かして遊ぶもの」から、「用途を選べば実務に使えるもの」へ変わりつつある、ということです。もちろん、クラウドの最先端モデルを何でも置き換えられるわけではありません。それでも、翻訳、要約、文書処理のような用途では、手元のマシンでAIを動かす意味がかなり出てきました。
ただし、ここで一気に「ではローカルLLMに全面移行しよう」と考えるのは、まだ早いと思います。特にAIコーディングのような重い用途では、ローカルLLMを自前で動かすよりも、Claude CodeやCodexなどのAI開発ツールが標準で利用するクラウドLLMに任せる方が、当面は現実的です。大規模なコードベースを読み、複数ファイルをまたいで修正し、エージェント的に作業を進めるには、まだかなりの計算資源が必要になります。
では、個人は何から始めるべきか。私の結論は、まず手元にある8〜24GB級のVRAM、あるいはそれに近いユニファイドメモリ(CPUとGPUが共有するメモリ)環境で、翻訳、要約、文書処理、軽いコード説明のような用途から使うことです。私のように最低限の8GB VRAM環境でも、4bit量子化された軽量モデルなら十分に使える場面があります。文章を翻訳する、社内資料や個人メモを要約する、ログを整理する、ちょっとしたコードの意味を確認する。こうした用途なら、ローカルLLMはかなり頼れる道具になってきています。
一方で、これから専用マシンを買うなら悩ましいところです。コストパフォーマンスを重視するなら、私ならまずMac miniを候補に入れます。Mac miniはユニファイドメモリを使えるため、GPU専用VRAMだけに縛られにくく、省電力で静かに使えるのも魅力です。
ただし、人気構成は品薄になりやすく、欲しいときにすぐ買えないという問題があります。また、メモリ容量を増やしても、上位機に比べるとメモリ帯域幅(データをやり取りする速度の幅)が限られるため、大きなモデルを動かしたときに期待ほど速度が出ない可能性もあります。
本格的にローカルLLMを使いたいなら、Mac Studio、NVIDIA DGX SparkやASUS Ascent GX10のようなマシンは非常に魅力的です。特に128GB級のユニファイドメモリを持つマシンは、ローカルAI専用機にかなり近い存在です。私自身もかなり欲しいです。ただ、価格は一気に数十万円から100万円前後の世界になります。ここまで来ると、「クラウド型AIサービスのサブスクリプションやAPIを使った方が安いのではないか」という現実的な問題が出てきます。
だからこそ、今のローカルLLM選びで大事なのは、いきなり最強環境を目指さないことだと思います。まずは手元のPCで小さく使い、どの作業ならローカルで十分なのかを見極める。その上で、毎月のクラウド利用料金、扱うデータの機密性(プライバシー)、必要な処理量を見ながら、Mac miniにするのか、Mac Studioにするのか、あるいはDGX SparkやGX10級まで投資するのかを考える。この順番が、2026年春時点では最も現実的です。
今はまだ、クラウドAIが当面の現実解です。しかし、1年後も同じ構図が続いているとは限りません。モデルは軽くなり、量子化は進み、ローカル推論向けのハードウェアも増えていくはずです。ローカルLLMは「全てを置き換えるAI」ではありません。まずは、翻訳や要約、文書処理のように、手元のマシンで完結できる作業を増やすための選択肢として捉えるべきでしょう。その入口は、もう十分に見え始めています。2026年春は、ローカルLLMの使いどころを見極め始める“良いタイミング”だと思います。
それでは、ローカルLLMをめぐる2026年春の現状を整理していこう。
2026年に入ってから、オープンウェイトのLLM(重みが公開され、自分のマシンで動かせる大規模言語モデル)のリリースが加速している。主なものを時系列で整理すると次のようになる。
※なお、本稿ではモデル規模を表す単位として、B(Billion:10億)とT(Trillion:1兆)を使う。例えば27Bは270億パラメーター、1Tは1兆パラメーターを意味する。
またMoEモデルでは、「総パラメーター数」と、推論時に実際に使われる「アクティブパラメーター数」を分けて表記する。一方、Denseモデルは基本的にモデル全体を使う通常型の構造である。
特に注目すべきは、MoE(Mixture of Experts)構造の広がりだ。MoEとは、モデル全体を毎回全て使うのではなく、処理内容に応じて一部のパラメーターだけを使う仕組みである。例えばGemma 4 26B A4Bは総パラメーター数が26Bあるが、推論時にアクティブになるのは4B相当とされる。これにより、総パラメーター数の大きさに比べて、手元のマシンでも動かしやすくなる。
本稿では「オープンウェイトモデル(open-weight model)」という表現を使っている。これは、モデルの重み(学習済みパラメーター)が公開されていて、ユーザーがダウンロードして自分のマシンで動かせるモデルを指す。
ただし、これは厳密な意味での「オープンソース(open source)」とは同じではない。オープンソースと呼ぶには、ソースコードや利用条件などについてより厳密な定義がある(参考:Open Source Initiativeによる定義)。一方、オープンウェイトモデルでは、重みは公開されていても、学習データや学習手順の全てが公開されているとは限らない。
本稿の関心は、モデルを自分の環境で動かせるかどうかにある。そのため、ここでは重みを入手してローカル環境で実行できるモデルを、オープンウェイトモデルとして扱う。なお、商用利用や再配布が可能かどうかはモデルごとにライセンス条件が異なるため、実際に業務で使う場合は個別に確認が必要である。
もう一つ重要なのが、量子化である。量子化とは、モデルの重みをより少ないビット(bit)数で表現し、必要なメモリ量を減らす手法だ。ビット数を下げるほどモデルは軽くなるが、その分、出力の品質や推論性能が少しずつ劣化しやすくなる。つまり量子化は、「軽さ」と「品質」のトレードオフを調整する技術である。
例えば4bit級の量子化は、モデルの重みをおおむね4bit相当の精度で扱い、必要なメモリ量を減らす方式である。実際のローカルLLM環境では、Q4、INT4、FP4など似たような表記を見かけるが、まずは「数字が小さいほど、必要メモリが少なくて済むが、品質低下のリスクも高くなる」と考えればよい。
※量子化や数値精度の表記には、Q4、INT4、FP4、FP16、BF16など複数の書き方がある。厳密には方式が異なるが、初心者はまず次のように捉えると分かりやすい。
本稿では細かな方式の違いには踏み込まず、基本的に「4bit級=軽くして手元で動かしやすい形式」「8bit級=品質を保ちやすいが重い形式」「16bit級=高精度だがメモリを多く使う形式」という目安で扱う。
では、ローカルLLMではどの量子化を選べばよいのか。大まかな目安は次の通りだ。
ローカルLLMの実用では、8bit、5bit、4bitあたりを見かけることが多い。16bitやBF16/FP16のような形式は、量子化というより「高精度のまま動かす形式」と考えた方が分かりやすい。品質は保ちやすいが、その分、必要メモリは大きくなる。
ここで重要なのは、同じモデルでも、どの量子化サイズを選ぶかによって必要なVRAMが大きく変わることだ。例えば、フル精度では手元のGPUに載らないモデルでも、Q4量子化版なら8GBや16GBのVRAMで動かせる場合がある。逆に、品質を重視してQ8やFP16に近い形式を選ぶと、必要なメモリは一気に増える。
そのため、個人環境でローカルLLMを使うなら、まずはQ4、つまり4bit量子化モデルを基準に考えるのが分かりやすい。8GB VRAMでは軽量モデルのQ4版、16〜24GBでは中規模モデルのQ4〜Q5版、64GB以上ではより大きなモデルや高精度な量子化版が現実的になってくる。
ただし、ローカルLLM選びでは、手元のマシンで動かせるかどうかだけを見ればよいわけではない。長く使うなら、そのモデルがどのようなライセンスで提供され、今後もオープンウェイトとして公開され続けるのかも重要になる。
ローカルLLMを選ぶときは、性能や日本語能力だけでなく、モデルの公開方針も確認しておきたい。Qwen系は小〜中規模のオープンウェイトモデルを継続的に公開している一方、Qwen3.6-Max-Previewのようなフラッグシップ級モデルはAPI提供中心のプロプライエタリモデルとして展開されている。
ただし、これは「QwenがローカルLLMとして使えなくなった」という意味ではない。Qwen3.6-35B-A3BやQwen3.6-27Bのように、ローカル実行向けの有力モデルは引き続き公開されている。ただ、今後も全ての上位モデルがオープンウェイトで提供されるとは限らない。ローカルLLMを長く使うなら、ライセンス、公開範囲、開発継続性も含めて見る必要がある。
ここからが本稿の中核だ。ローカルLLMは、モデル名だけで選ぶことはできない。手元のVRAM(GPU専用メモリ)やユニファイドメモリの容量によって、現実的に動かせるモデルの規模が大きく変わるからだ。ここでは、4bit級の量子化(Q4/INT4/FP4など)を前提に、おおまかな目安を整理する。
| AI用メモリ容量 | マシン例 | 概算価格 | 動かせるモデルの目安 | 用途 |
|---|---|---|---|---|
| 8GB | GeForce RTX 5060 8GB搭載PC | GPU単体5〜7万円台前後 | Gemma 4 E4B、 Qwen 3.5 9B などの量子化版 |
翻訳、 要約、 チャット、 軽量なコード補助 |
| 16GB | GeForce RTX 5060 Ti 16GB搭載PC | GPU単体9〜13万円前後 | Gemma 4 26B A4B、 Qwen 3.5 9B(余裕あり) などの量子化版 |
小規模な日本語RAG、 文書作成、 軽めの開発補助 |
| 24GB | GeForce RTX 3090中古、 Mac mini M4 24GB |
RTX 3090中古12〜22万円前後、 Mac mini 15万円台 |
Gemma 4 31B、 Qwen3.6-27B、 Qwen3.6-35B-A3B などの量子化版 |
RAG、 ローカル文書処理、 マルチモーダル入門、 軽めのコーディング |
| 64GB | Mac Studio M4 Max 64GB | 43〜45万円前後 | Gemma 4 31B、 Qwen3.6-27B、 Qwen3.6-35B-A3B などの量子化版 (長めの文脈でも余裕あり) |
本格的なローカルLLM、 文書生成、 軽めのエージェント運用 |
| 128GB | NVIDIA DGX Spark、 ASUS Ascent GX10 |
90〜115万円前後 | Kimi K2.6、 MiniMax M2.5 などの大型MoEモデル の量子化版、 200B級モデル のFP4量子化版など |
本格的なローカルAI開発、 エージェント運用、 研究用途 |
この表から見えてくるポイントは次の3点だ。
簡易版では、VRAM/ユニファイドメモリ容量ごとの全体像を示した。次のセクションでは、GPUやMac、ローカルAI向けマシンごとに細分化し、より実践的な選び方に落とし込んでいく。
表中で「VRAM」と「ユニファイドメモリ」を分けているのには理由がある。どちらもLLMを動かすためのメモリとして使われるが、同じ24GBでも性質はかなり異なる。
VRAM(Video RAM:GPU専用メモリ)は、GPUが直接使う高速なメモリである。推論速度を出しやすい一方、容量を増やすにはハイエンドGPUが必要になり、価格も高くなりやすい。
ユニファイドメモリ(Unified Memory:統合メモリ)は、CPUとGPUが同じメモリ空間を共有する方式である。Apple Silicon(M1〜M4チップ)や、NVIDIA GB10を搭載するDGX Spark/ASUS Ascent GX10のようなSoC系マシン(CPU・GPU・NPUなどを1つのチップ、または1つの基盤上に統合したマシン)で使われる。GPU専用VRAMより大容量を確保しやすい一方、構成によってはメモリ帯域幅(データをやり取りする速度の幅)がボトルネックになり、専用GPUほどの推論速度が出ない場合がある。
例えばMac mini M4 24GBと、NVIDIAのGeForce RTX 3090 24GBは、どちらも「24GB」と書ける。しかし前者はCPUとGPUで共有するユニファイドメモリ、後者はGPU専用VRAMであり、推論速度、扱いやすいモデル、消費電力、導入コストは大きく異なる。この違いを理解した上で選ぶ必要がある。
以下の詳細な表では、具体的なGPU、Mac、ローカルAI向けマシンごとに、メモリ種別、価格感、向いている用途を整理する。
| 区分 | マシン例・GPU例 | メモリ種別 | メモリ容量 | 想定OS | 概算価格 | 記事内での扱い |
|---|---|---|---|---|---|---|
| 入門GPU | GeForce RTX 5060 8GB | VRAM | 8GB | Windows/Linux | 5〜7万円台前後 | 最小構成。軽量モデル、ローカルチャット、翻訳、要約向け |
| 入門〜中級GPU | GeForce RTX 5060 Ti 16GB | VRAM | 16GB | Windows/Linux | 9〜13万円前後 | コスパ重視の現実ライン。日本語RAG、軽めの文書生成向け |
| 旧世代中古GPU | GeForce RTX 3090 24GB | VRAM | 24GB | Windows/Linux | 中古12〜22万円前後 | 24GBを安く確保したい人向け。中古リスクあり |
| 現行ハイエンドGPU | GeForce RTX 5090 32GB | VRAM | 32GB | Windows/Linux | 65〜85万円前後 | 32GB VRAMを確保できるが、個人用途では費用対効果を慎重に見る |
| Apple小型機 | Mac mini M4 24GB | ユニファイドメモリ | 24GB | macOS | 15万円台 | 省電力・静音・導入しやすい。個人向けの有力候補 |
| Apple上位機 | Mac Studio M4 Max 64GB | ユニファイドメモリ | 64GB | macOS | 43〜45万円前後 | Apple系の本命候補。本格的なローカルLLM用途に向く |
| ワークステーションGPU | NVIDIA RTX 6000 Ada | VRAM | 48GB | Windows/Linux | 130万円前後 | 業務・研究用途。個人向けというより法人向け |
| ワークステーションGPU | NVIDIA RTX PRO 6000 Blackwell | VRAM | 96GB | Windows/Linux | 160〜180万円前後 | かなり業務寄り。高度なローカルAI開発向け |
| パーソナルAIスーパーコンピュータ | ASUS Ascent GX10 | ユニファイドメモリ | 128GB | DGX OS/Ubuntu Linuxベース | 75〜95万円前後 | DGX Sparkより安い選択肢として有力 |
| パーソナルAIスーパーコンピュータ | NVIDIA DGX Spark | ユニファイドメモリ | 128GB | DGX OS/Ubuntu Linuxベース | 95〜120万円前後 | ローカルAI専用機に近い。NVIDIA純正環境を重視する人向け |
| データセンターGPU | NVIDIA A100 | GPUメモリ(HBM) | 40GB/80GB | Linuxサーバ中心 | 80GBは500〜670万円級 | 研究・クラウド・サーバ向け |
| データセンターGPU | NVIDIA H100 | GPUメモリ(HBM) | 80GB | Linuxサーバ中心 | 500万円超 | エンタープライズ、クラウド、研究機関向け |
まず入口になるのが、8〜16GB VRAMのGPUだ。8GBでは動かせるモデルは限られるが、4bit量子化された軽量モデルであれば、翻訳、要約、チャット、短いコード説明といった用途には十分使える場面がある。
8〜16GB帯は、ローカルLLMで何でもできる環境ではない。しかし、最初から高額なマシンを買わずに、手元で完結できる作業を増やす入口としては十分に意味がある。まずはこのクラスで用途を見極め、その後に24GB以上へ進むかを考えるのが現実的だ。
表2を見ると、24〜32GB帯には性質の異なる選択肢が並んでいる。24GB VRAMを安く確保する中古GPU、扱いやすいMac mini、32GB VRAMを備える現行ハイエンドGPUでは、価格も消費電力も使い勝手も大きく異なる。
24〜32GB帯は、個人がローカルLLMを本格的に意識し始める中級ラインだ。8GBや16GBより扱えるモデルの幅は大きく広がり、軽めのコーディング補助やローカル文書処理も現実的になってくる。一方で、どの選択肢にも一長一短がある。安くVRAMを確保するなら中古RTX 3090、扱いやすさを重視するならMac mini、GPU性能と32GB VRAMを重視するならRTX 5090が候補になる。
AIコーディング用途を強く意識するなら、32GB VRAMは一つの目安になる。小さなコード片の説明や軽い補助なら8〜16GB帯でも使えるが、リポジトリ全体を読み、複数ファイルをまたいで修正するようなエージェント用途では、24GBでも心もとない場面がある。本格的にローカルでAIコーディングを行うなら、まずは32GB以上、できれば64GB以上の環境を視野に入れたい。128GB級は、さらに本格的なエージェント運用や研究開発まで見据える場合の候補になる。
64GB帯では、Mac Studio M4 Max 64GBの存在感が大きい。43〜45万円前後の価格帯で64GBのユニファイドメモリを確保できるため、ローカルLLMをかなり本格的に活用したい個人にとって、現実的な上位候補になりやすい。
一方、NVIDIA RTX 6000 Adaのような48GB VRAMのワークステーション向けGPUは、価格が130万円前後まで上がる。専用GPUのVRAMは推論速度の面で有利だが、価格は一気に業務・研究用途寄りになる。この価格差は、ローカルLLM用途でユニファイドメモリ搭載機が注目される理由の一つだ。
ただし、ユニファイドメモリは専用GPUのVRAMと同じではない。大きなモデルを載せやすい一方で、メモリ帯域幅やGPU性能によって推論速度が制限される場合がある。Mac Studioは「安く最強」ではなく、「容量、価格、扱いやすさのバランスがよい」選択肢と見るのがよい。
128GB帯では、NVIDIA GB10を搭載したDGX SparkとASUS Ascent GX10が候補になる。どちらもCPUとGPUが共有できる大容量のユニファイドメモリを備えた、ローカルAI向けの小型マシンだ。
2026年5月時点の掲載例では、ASUS Ascent GX10は75〜95万円前後、NVIDIA DGX Sparkは95〜120万円前後の価格帯が目安になる(※どちらもメモリ価格や在庫状況の影響を受けやすく、今後も価格が動く可能性がある)。ASUS Ascent GX10は価格を抑えた選択肢、DGX SparkはNVIDIA純正環境やサポートを重視する選択肢と考えると分かりやすい。
このクラスは、個人が気軽に買うというより、かなり覚悟のいる投資になる。複数モデルの使い分け、エージェント運用、社内検証、研究用途まで見据えるなら魅力的だが、クラウドAIやAPI利用料との比較は必須である。
A100やH100はLLM関連の記事でよく見かけるGPUだが、一般的な個人PC向けの候補ではない。基本的には、データセンター、クラウド、研究機関向けの製品である。
従って、本稿ではA100/H100を「買う候補」というより、ローカルLLM環境の上限を理解するための比較対象として扱っている。個人や小規模チームが現実的に検討するなら、8〜24GB級のGPU、Mac mini、Mac Studio、あるいはDGX Spark/ASUS Ascent GX10級までが主な検討範囲になる。
ここまでハードウェア別に整理してきたが、重要なのは「その環境で何をするか」だ。ローカルLLMは万能ではないが、用途を絞れば既にかなり実用的になっている。AIコーディング以外の代表的な用途を、必要になりやすいメモリ帯と合わせて整理すると次のようになる。
特にローカルLLMと相性がよいのは、翻訳、要約、分類・タグ付け、大量バッチ処理だ。これらは最先端モデルでなくても十分な品質を得られる場合があり、ローカルで動かすメリットが出やすい。社内資料、未公開原稿、個人メモなど、外部サービスに送るのをためらうデータを扱いやすい点も大きい。
逆に、大規模リポジトリを理解して複数ファイルを修正するAIコーディングエージェントや、長い文脈を保った高度な対話は、まだクラウド型サービスの方が有利な場面が多い。ローカルLLMは、まず「軽いが頻繁に発生する作業」を手元で処理する道具として見るのが現実的である。
最後に、ここまでの整理を踏まえて、筆者なりのお薦めをまとめておきたい。
筆者の現時点での結論は、無理に最初から高額なマシンを買わないことだ。AIコーディングのような重い用途は、当面はクラウド型AIサービスを使う方が現実的である。一方、翻訳、要約、分類、文書処理、大量バッチ処理のような用途では、ローカルLLMは既に十分に選択肢に入ってきた。
ローカルLLMは、クラウドAIをすぐに置き換えるものではない。しかし、手元のマシンで完結できる作業を少しずつ増やす道具として見れば、2026年春の時点でも十分に意味がある。まずは手元の環境で用途を見極め、必要になった段階でMac mini、Mac Studio、ローカルAI向け専用機へ進む。この順番が、今もっとも現実的な始め方だと思う。
Copyright© Digital Advantage Corp. All Rights Reserved.