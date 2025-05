OllamaはLinux、Windows、macOSとクロスプラットフォームに対応するソフトウェアです。今回解説する内容について、動作を確認した筆者のPC環境を紹介します。一般的なLinux環境であれば同様に実行できるでしょう。

エンタープライズのGPUサーバではなく、BTO(Build To Order)のPCなどで構成可能なハイスペックGPUタワー相当を想定した構成となります。

筆者の動作確認環境ではNVIDIA製GPUを用いているため、記事内に登場するコマンドなどはNVIDIA製のソフトウェアで統一します。AMD製GPUを利用している場合は、適宜読み替えてください。

Ollamaのインストール方法は本連載内でも何度か解説してきましたが、本記事では、Linuxにインストールする方法を紹介します。

OllamaはLinux用のインストーラーを提供しているため、公式の手順に従って以下のコマンドで設定します。

このインストーラーは主に、以下のことを設定してくれます。

インストーラーが「NVIDIA GPU ready.」を表示すれば、インストールは完了です。ドライバおよびCUDAが正常にインストールされているかどうか、以下のコマンドを実行して確認してみてください。該当のGPUのステータスが表示されていれば、インストール完了です。

Ollamaが正常にインストールされているかどうかについては以下のコマンドを実行し、ステータスが「Active: active (running)」であることを確認してください。

OllamaでGPUの設定をするに当たって、基本的なOllamaの構成を以下に示します。

ollama serveコマンドにより起動したサーバプロセスに対して、ollamaコマンドを実行して、Ollamaを操作します。

例えば、Metaのllama3.1を利用するために「ollama run llama3.1」と実行すると、サーバプロセスがOllama Libraryからllama3.1のモデルをPCにダウンロードし、子プロセスとしてollama runnerを起動します。ollama runnerの起動後は、ollama runコマンド実行時に起動したプロンプトをollama runnerに送信し、生成結果を取得するという仕組みです。

Ollama利用時にGPUを利用した推論処理はサーバプロセスの子プロセスであるollama runnerで実行されるため、GPU関連のパラメーターはサーバプロセス側に設定する必要があります。Ollamaは利用可能なGPUがある場合、自動的に利用しますが、「利用するGPUの枚数を制限したい」「試験的にGPUを利用したくない」という場合は、サーバプロセスである「ollama serve」の設定ファイルである/etc/systemd/system/ollama.serviceを開き、[Service]セクションに対して以下の設定を追加します。

設定ファイルの変更後は以下のコマンドを実行し、設定を有効化してください。

特定のGPUのみを利用したい場合は、「CUDA_VISIBLE_DEVICES」に該当のGPUのインデックスを指定します。詳細はNVIDA公式ドキュメントを参照してください。

Ollamaは先述した通り、GPUが利用可能な環境は自動的にGPUを利用してLLMを実行します。llama3.1を実行する場合は、以下のコマンドを実行します。

これを実行すると以下のようにプロンプトの入力シェルが起動します。ここにプロンプトを入力することで、プロンプトに応じた文章が生成されます。

ollama runコマンドはデフォルトのプロンプトモード以外に、与えたプロンプトに対して1回だけ生成を実行することもできます。

また以下のようにコマンドを入力すると、プロンプトに対する生成内容と、生成に関する統計情報を確認できます。

統計情報を確認すると以下のようなことが分かります。

つまり、この出力例だと、RTX 4090を用いた生成で1秒当たり150トークンをモデルが生成できていることを確認できます。では、ollamaサーバにGPUを使わない設定をした場合と比較してみましょう。

GPUを使わない場合は、先述の通りsystemdの設定に環境変数で「CUDA_VISIBLE_DEVICES=-1」を設定します。同様のプロンプトでGPUを使わずCPUのみでモデルを実行した結果が以下のようになります。

実行してみると体感できると思いますが、1秒当たり11トークン程度と、GPUを使わない場合は明らかに生成速度が下がります。このように、家庭用のGPUを活用することで、ローカルでLLMを快適に実行可能なことが分かります。

なお、ollama pullコマンドで取得できるモデルは、Ollamaが提供するモデルハブであるOllamaHubと一般的に広く利用されているHugging Faceから利用でき、先ほど利用したllama3.1は、OllamaHubから取得されたモデルになります。

OllamaHubで提供されているllama3.1の公式モデルをOllamaHubで確認すると、llama3.1はデフォルト(既定)では、8Bのモデルが利用され、Q4_K_Mで量子化されていることも確認できます。

Hugging Faceのモデルを利用する際には、gguf形式のモデルを利用できます。Hugging Faceで公開されているモデルの取得方法は、本連載第2回の「モデルハブの歩き方」の項目を参考にしてみてください。

llama3.1での文章生成を試すことができたので、今度は他のモデルを実行してみます。

Ollamaはモデルを管理し、提供するためのHub機能であるOllamaHubを提供しています。また、OllamaHubの中のOllama LibraryではOllamaが公式でメンテナンスするモデルを提供しています。ユーザーは個人のアカウントを作成し、自分でカスタマイズしたモデルをOllamaHubを通して提供することも可能です。

OllamaHubでモデルを探すには公式サイトの「model」のタブをクリックし、一覧から探すか、「model」タブの右側にある検索ボックスで検索します。

ここでは例としてMicrosoftのphi4を選んでみます。

それぞれのページにはモデルの詳細情報である「model」、生成時の設定で利用する「params」、推論時に利用する入出力の方法を指定する「template」、モデルの利用に関する「license」が記載されています。

家庭用のGPUでモデルを実行する際は、モデルのサイズが、GPUのメモリ容量内に収まっているかどうかを確認してください。GPUのメモリ容量がモデルのサイズよりも10〜20%ほど大きければ、モデルをスムーズに実行できるでしょう。

使用したいモデルが決まったらページ右上にあるコマンドを実行することで、ローカルで実行できます。phi4の場合は「ollama run phi4」で利用できます。

ここまではllama3.1(8B)、phi4(14B)のような一般的には小から中サイズ程度のLLMを試してきました。一方で、昨今ではより小さいパラメーターサイズのモデルも提供されるようになってきています。特に家庭用GPUの場合、GPUのメモリサイズの制約からこうした小型のLLMを中心に試すことになるため、ここでは1Bから4Bのパラメーター数のモデルを提供しているllama3.2、gemma3、phi3.5を中心に比較していきます。

それぞれのモデルが自然な会話ができるかどうかを確認するため「渋谷から新宿に行くにはどうしたらいいですか?」という質問をしてみました。

この質問に対する各モデルの出力結果は以下のようになりました。

渋谷から新宿へ移動する方法の一般的なガイドは以下の通りです:

1. **公共交通機関を利用**: JR東京駅に到着した場合、都内を横断する「Yamanote線」または「Saikyu線」に乗車。目的地の新宿で降り立

つ前提となりますが、行き先に応じて列車を利用してください:

- 渋谷からYamanote線へ: 渋谷駅(S13)より北の出発口で降車。新宿駅は2番目に近い「三ノ輪」が利用可能です。

- Saikyu線を使う場合、JR御 partiellement used in the above answer, as it is directly related to providing public

transportation options from Shibuya to Shinjuku. If you need further explanation on how these lines operate or other

alternatives (such as bus services), please feel free to ask for more details!

2. **車やタクシーを利用**: もし、スピード感が重要であるなどの理由から自家用車を持っている場合は、高速道路(東名/中央/新小牛地

下街道)や都心部まで入り、最終的に渋谷と新宿間の交通状況に基ed依頼するか車を調べてください。

3. **サードライダーやシェアリングカー**: Appsで自動二次市場の利用も可能で、渋谷と新宿間には往き先から送ってくれる交通手段を見

つけることが出来ます。

必要な所到着時間や予算等の詳細情報があれば、よりパーソナライズされたアドバイスに役立ててもらえるでしょう。