第47回

9Bなのに120B超え!?　Qwen3.5-9BがローカルAIの常識を変えた

2026年03月20日 17時00分更新

LM StudioでQwen3.5-9Bを動かす

　では実際にローカルで動かしてみよう。今回は2つの環境でQwen3.5-9Bの動作を検証した。

環境	スペック	役割
Windows PC	RTX 4070 / 12GB VRAM / 32GB RAM	メインのデモ環境（GPU推論）
M2 MacBook Air	M2 / 16GB統合メモリ	ノートPCでの動作検証

　ローカルLLMを手軽に試すなら、WindowsにもMacOSにも対応しているLM Studioが現時点で最も敷居が低い選択肢だ。GUIでモデルを検索・ダウンロードし、そのままチャットできる。lmstudio.aiから自分のOS向けインストーラーをダウンロードして実行するだけで準備が整う。

　LM Studioを起動したら、左サイドバーの検索アイコンをクリック。モデル検索ウィンドウが表示される。トップに「Qwen3.5 9B」が表示されている。

　ただし、デフォルトで表示されているのは無圧縮のベースモデル（約18GB）で、VRAM 12GBのRTX 4070には収まらない。量子化済みモデルを検索しよう。

　量子化とは、モデルの重みデータを圧縮してファイルサイズとメモリ使用量を削減する技術だ。精度をわずかに犠牲にする代わりに、一般的なPCで動かせるサイズに収まる。量子化レベルが高いほど精度は上がるが、その分ファイルサイズと必要メモリも増える。一般的なPCではQ4_K_M前後が実用的なバランスとされている。主な選択肢は以下の通りだ。

量子化	ファイルサイズ	特徴
Q4_K_M	約5〜6GB	定番。品質と軽さのバランスが良く、迷ったらこれ
Unsloth UD-Q4_K_XL	約6GB台	重要度の高い重みを優先して高精度で保持する量子化方式。均一量子化より精度劣化が少ない
Q3_K_S	約4GB	8GBメモリ環境向け。品質はやや落ちる
Q5_K_M〜Q8	約6〜9GB	VRAMやRAMに余裕があるなら高品質版

　16GBのMacやRTX 4070環境なら、Q4_K_MまたはUnsloth UD-Q4_K_XLを選んでおけば問題ない。検索欄に「Qwen3.5-9B」と入力して検索、出てきた候補の中から一番上、lmstudio-communityのものを選んで「Download」ボタンを押す。「GGUF」、「Q4_K_M」と表示があるのを確認しよう。