Back to home

M4 Mac mini 32GB でいろんなローカルLLMを動かしてみた

6 min read
Table of Contents

お久しぶりです。

皆様、Mac mini をお持ちでしょうか?
(なければ、今すぐ Amazon で「M4 Mac mini 32GB」検索して、今週中に届くように頼んでみてください。)

最近、M4 Mac mini で OpenClaw を動かし、AI モデルをローカルで使おうという風潮が強まっています。私も「はい、私も!」と心の中で叫びつつ、とりあえず様子見をしています。

さて、私は以前に M4 Mac mini 32GB を購入しました。
https://autumn-color.com/blog/memo/2025/07/2025-07-09/

せっかくなので、2026/02/17 現在、M4 Mac mini 32GB で動かせるローカルLLMをいろいろと試してみました。

mac mini 選びの参考になれば幸いです。


前提

色々なローカルLLMを動かすにあたって、以下の前提条件で試しています。

試すこと

M4 Mac mini 32GB RAM で、独断と偏見で選んだローカルLLMを動かしてみる。

この評価は、あくまで M4 Mac mini 32GB RAMで動くかどうかを見るだけで、モデルの性能や精度を評価はしない。

昨今のローカルLLMは文章の解釈の他にも、画像や音声の理解もできるものが多いですが、今回は文章の解釈に絞って試してみます。

ハードウェア

M4 Mac mini 32GB RAM
macOS Tahoe 26.2

平常時のRAM
8 GB 程度

ローカルLLMを動かすソフト

lm studio 0.4.2+2 (0.4.2+2)

モデル読み込みのガードレールは、バランスに設定しています。

ガードレール

ローカルLLMのモデル

私の独断と偏見で、以下のモデルを試しています。

20 ~ 30B パラメータのモデルを中心に選びました。

コンテキスト長は、モデルによって異なりますが、最大を試します。

また、モデルよっては thinking という機能がありますが、使えるモデルは使っていきます。

提供元モデル名パラメータ量子化コンテキスト長thinking機能備考
alibabaqwen3-32b32B4bit40,960 トークン
nvidianemotron-3-nano30B4bit26,2144 トークン
openaigpt-oss-20b20B4bit131,072 トークン有( Medium Reasoning )
Z.aiglm-4.7-flash30B4bit100,714 トークン(最大は 202,752 トークンだが読み込みエラーになる。)2026年2月17日現在、lm studio では試せない。 ollama は試せる
googlegemma-3-27b27B4bit131,072 トークン

入力するプロンプト

以下のプロンプトを入力して、モデルがどのような回答をするかを見てみます。

  • 今の日本の総理大臣は誰?

    • どこまでの知識があるかを試すプロンプト
  • 1キロの綿と1キロの鉄、どちらが重いですか?理由も併せて説明してください

    • 物理的な知識があるかを試すプロンプト
  • 「リンゴが3つあります。1つ食べて、1つ友達にあげました。その後、2つ買い足しました。今、手元には何個ありますか?ステップバイステップで考えてください。」

    • 複数のステップを踏む問題を解けるかを試すプロンプト
  • Mac Mini M4 を買った 記事の内容を要約してください。

    • 長文を理解して要約できるかを試すプロンプト
    • 注意: URLアクセスはできないので、記事の原型である markdown を貼り付けて入力しています。

結果

qwen3-32b

今の日本の総理大臣は誰?

出力
RAM使用量使用トークン数TTFT(Time to First Token)
18.1 GB276 トークン2.96 秒

1キロの綿と1キロの鉄、どちらが重いですか?理由も併せて説明してください

出力
RAM使用量使用トークン数TTFT(Time to First Token)
18.23 GB587 トークン3.68 秒

りんごの問題

出力
RAM使用量使用トークン数TTFT(Time to First Token)
18.51 GB1,002 トークン3.37 秒

記事の要約

出力
RAM使用量使用トークン数TTFT(Time to First Token)
20.17 GB970 トークン35.31 秒

nemotron-3-nano

今の日本の総理大臣は誰?

出力
RAM使用量使用トークン数TTFT(Time to First Token)
17.39 GB1,270 トークン2.31 秒

1キロの綿と1キロの鉄、どちらが重いですか?理由も併せて説明してください

出力
RAM使用量使用トークン数TTFT(Time to First Token)
19.22 GB1,111 トークン1.88 秒

りんごの問題

出力
RAM使用量使用トークン数TTFT(Time to First Token)
17.40 GB233 トークン2.10 秒

記事の要約

出力
RAM使用量使用トークン数TTFT(Time to First Token)
17.54 GB599 トークン5.91 秒

gpt-oss-20b

今の日本の総理大臣は誰?

出力
RAM使用量使用トークン数TTFT(Time to First Token)
12.18 GB509 トークン0.61 秒

1キロの綿と1キロの鉄、どちらが重いですか?理由も併せて説明してください

出力
RAM使用量使用トークン数TTFT(Time to First Token)
12.20 GB817 トークン0.64 秒

りんごの問題

出力
RAM使用量使用トークン数TTFT(Time to First Token)
12.13 GB507 トークン0.73 秒

記事の要約

出力
RAM使用量使用トークン数TTFT(Time to First Token)
13.06 GB604 トークン4.18 秒

glm-4.7-flash

今の日本の総理大臣は誰?

出力
RAM使用量使用トークン数TTFT(Time to First Token)
5.31 GB347 トークン0.51 秒

RAM 使用量がかなり少ないなと思いつつ、アクティビティモニタ見ていましたが、
LLMを読み込んでいるプロセス(node)の詳細みると、22GB ぐらい使っていた。

glmに関しては他の回答も同様です。

nodeのRAM使用量nodeプロセスの実サイズ

1キロの綿と1キロの鉄、どちらが重いですか?理由も併せて説明してください

出力
RAM使用量使用トークン数TTFT(Time to First Token)
5.35 GB1,090 トークン0.65 秒

りんごの問題

出力
RAM使用量使用トークン数TTFT(Time to First Token)
5.45 GB715 トークン0.73 秒

記事の要約

出力
RAM使用量使用トークン数TTFT(Time to First Token)
5.35 GB1,589 トークン5.74 秒

gemma-3-27b

今の日本の総理大臣は誰?

出力
RAM使用量使用トークン数TTFT(Time to First Token)
17.98 GB27 トークン1.79 秒

1キロの綿と1キロの鉄、どちらが重いですか?理由も併せて説明してください

出力
RAM使用量使用トークン数TTFT(Time to First Token)
17.89 GB172 トークン1.97 秒

りんごの問題

出力
RAM使用量使用トークン数TTFT(Time to First Token)
17.81 GB126 トークン2.22 秒

記事の要約

出力
RAM使用量使用トークン数TTFT(Time to First Token)
17.92 GB418 トークン23.32 秒

まとめ

M4 Mac mini 32GB RAM で、いろんなローカルLLMを動かしてみました。

モデルによって、RAM使用量やTTFTにかなり差があるなという印象でした。

しかしながら、どのモデルも M4 Mac mini 32GB RAM で動かすことができました。

どのモデルも時事的な質問は厳しそうです。どのモデルも日本の総理大臣を正しく答えることができませんでした。

その他については、どのモデルも正しく答えることができていると思います。

ローカルLLMを動かす環境作りの参考になれば幸いです。