第 5 天：Silly Tavern 本地模型利用

Silly Tavern 第 5 天標題

現在我們在第 4 天中學習瞭如何連接到雲模型，讓我們嘗試使用本地模型。本地模型是在您自己的計算機上運行的人工智能。不需要互聯網，完全免費，並且您的隱私受到完全保護。

在這篇文章中，我們將根據2026年的最新信息，以通俗易懂的方式為初學者講解什麼是本地模型、如何使用Ollama以及應該選擇哪種模型。我們還將詳細解釋雲模型之間的差異以及每種模型的優缺點。

在這個為期 7 天的系列的第 5 天，掌握利用本地模型並完全免費享受 Silly Tavern。

本地模型是什麼？｜在自己的PC上運行的AI

什麼是本地模型是在您自己的計算機上運行而無需連接互聯網的AI模型。例如，如果雲模型是“從圖書館借書”，則本地模型就像“家裡書架上的書”。

本地模型如何運作

使用本地模型，您下載一個文件（模型文件），該文件是人工智能的“大腦”，並在您自己的計算機上運行它。該文件的大小通常為幾 GB 到幾十 GB，並使用計算機內存 (RAM) 和 GPU 運行。

與雲模型的差異

項目	本地模特	雲模型
互聯網	不需要	必填
費用	免費	很多都是收費的
隱私	全面保護	數據傳出
性能	取決於電腦性能	始終高性能
設置	有點複雜	簡單
硬件要求	高	低

> 💡 提示：我們建議初學者從雲模型開始（參見第 4 天），然後在習慣後嘗試本地模型。

本地模型的優缺點

在使用本地模型之前，請了解其優點和缺點。

好處

完全免費：一旦下載，無論使用多少次，都是免費的。
隱私保護：對話內容不對外傳輸
離線使用：無需網絡，可以在任何地方使用
無限制：沒有API使用限制或速率限制
可定製：您可以根據自己的喜好調整模型

缺點

硬件要求高：需要足夠的內存和GPU
設置複雜：對於初學者來說可能很困難
性能取決於PC：在低規格PC上運行速度很慢
大模型尺寸：需要幾GB到幾十GB的存儲空間
性能可能不如雲：可能不如最新的雲模型

Ollama 是什麼？｜最簡單的本地模型執行工具

Ollama 是一個可以讓您輕鬆運行本地模型的工具。比如，它就像一個“本地模特專屬的應用商店”。您可以下載並運行您的模型，無需任何複雜的配置。

Ollama 的特點

安裝簡單：使用 Homebrew 一次性安裝
輕鬆的模型管理：通過一個命令下載並運行
Apple Silicon 優化：M1/M2/M3 芯片運行速度更快
自動內存管理：自動調整可用內存
Silly Tavern 兼容：與標準 API 輕鬆連接

Ollama 概述 - 最簡單的本地模型執行工具

安裝 Ollama | macOS 上的步驟

讓我們安裝 Ollama。如果您已經在第 2 天安裝了 Homebrew，那麼這非常簡單。

第 1 步：安裝 Ollama

在終端中運行以下命令。

bash

brew install ollama

安裝完成後，檢查版本。

bash

ollama --version

如果顯示版本號則說明成功。

Ollama安裝-版本確認

第2步：啟動Ollama服務

在後臺啟動 Ollama。

bash

ollama serve

運行此命令後，Ollama 將在後臺運行，並且 API 將在 http://localhost:11434 處可用。

Ollama 服務已啟動 - 已在運行

> 💡 提示：保持此終端窗口打開。當您關閉它時，Ollama 將停止。

模型下載 |你應該選擇哪一個？

Ollama 有多種型號可供選擇。我們將推出截至 2026 年的推薦型號。

型號名稱	尺寸	所需內存	性能	應用
Qwen3.5 7B	4.7GB	4.7GB 8GB	非常高	多語言/日語最強，適合初學者
米斯特拉爾小型 3.1	4.5GB	4.5GB 8GB	高	通用/快速響應，日常對話
DeepSeek-R1 7B	5.2GB	10GB	非常高	擅長推理/長文本/複雜任務
Nemtron Mini 4B	2.7GB	2.7GB 6GB	中等	適用於 NVIDIA 低規格 PC
Phi-4 迷你 3.8B	2.5GB	2.5GB 6GB	中高	微軟製造，輕量、高效

如何下載模型

打開一個新的終端窗口並運行以下命令。

bash

ollama pull qwen3.5:7b

下載將需要幾分鐘時間。完成後，模型即可使用。

模型下載-Ollama上的模型獲取

Silly Tavern 和 Ollama 之間的連接

Ollama 準備好後，與 Silly Tavern 連接。

第 1 步：設置 Silly Tavern

啟動Silly Tavern：訪問http://localhost:8000
打開API設置：從左上角菜單中選擇“API連接”
選擇“聊天完成”選項卡
選擇API類型：選擇“聊天完成”→“Ollama”
輸入 URL：http://localhost:11434（默認）
選擇模型：下載的模型（例如qwen3.5:7b）
點擊“連接”

第2步：連接測試

選擇一個角色併發送消息。如果得到回應，那就成功了！

> 💡 提示：第一次回覆可能需要一些時間。因為模型已加載到內存中。

性能優化 |舒適使用的技巧

我們將介紹優化技術以方便地使用本地模型。

1.內存管理

問題：內存不足導致運行緩慢

解決方案：

選擇較小的型號（例如 Nemotron Mini 4B）
關閉其他應用程序
在 Ollama 設置中調整最大內存

2. Apple Silicon 優化

配備 M1/M2/M3 芯片的 Mac 可以通過以下設置來加速。

bash

# 啟用Metal（GPU）（默認啟用）
export OLLAMA_GPU_LAYERS=999

3.模型量化

量化是一種減小模型大小的技術。例如，您可以通過量化為 8 位或 4 位來減少內存使用量。

在 Ollama 中，模型名稱包含量化級別：

qwen3.5:7b - 標準
qwen3.5:7b-q4_K_M - 4 位量化（較小）
qwen3.5:7b-q8_0 - 8 位量化（平衡）

其他本地模型工具

除了 Ollama 之外，還有其他工具可以讓您運行本地模型。

LM工作室

LM Studio 是一個基於 GUI 的本地模型執行工具。它比 Ollama 更直觀，更適合初學者。

URL：https://lmstudio.ai/
特點：GUI操作、型號搜索功能、輕鬆設置
Silly Tavern 連接：可與 OpenAI 兼容的 API 連接

狗頭人人工智能

什麼是KoboldAI是一個專門用於故事生成的本地模型工具。

URL：https://github.com/KoboldAI/KoboldAI-Client
特點：故事生成，冒險模式
Silly Tavern 連接：使用專用 API 連接

Oobabooga 文本生成 WebUI

Oobabooga 是一個高度可定製的本地建模工具。

URL：[https://github.com/oobabooga/text- Generation-webui](https://github.com/oobabooga/text- Generation-webui)
功能：豐富的設置和擴展
Silly Tavern 連接：與 OpenAI 兼容的 API 連接

LM Studio - 基於 GUI 的本地模型工具

雲與本地 |你應該選擇哪個？

我應該使用雲模型還是本地模型？

混合使用

許多用戶同時使用：

重要對話：本地模型（隱私保護）
高質量要求：雲模型（性能導向）
日常對話：本地模型（免費）
複雜任務：雲模型（高性能）

常見問題及解決方法

我們將介紹使用本地模型時出現的常見問題以及如何解決這些問題。

問題 1：內存不足錯誤

原因：模型太大或其他應用程序正在使用內存

解決方案：

更改為更小的型號
關閉其他應用程序
使用量化模型

問題2：響應速度非常慢

原因：CPU/GPU性能不足

解決方案：

使用較小的模型
在 Apple Silicon 上啟用 Metal (GPU)
停止後臺進程

問題 3：無法連接到 Ollama

原因：Ollama 服務未啟動

解決方案：

在終端中運行“ollamaserve”
檢查端口11434是否可用

問題 4：找不到模型

原因：模型未下載

解決方案：

在“ollama list”上檢查下載的模型
使用 ollama pull <模型名稱> 重新下載

下一步 |高級定製

您已經掌握了本地模型的基礎知識！接下來我們來學習更多高級定製。

接下來您將學到什麼：

第 6 天：高級定製 - 提示工程和 UI 設置
第 7 天：如何使用智能手機 - 開始使用 MiniTavern 的簡單方法

對於那些想要更輕鬆開始的人：如果您發現建立本地模型有困難，請嘗試MiniTavern。您可以使用雲模型享受簡單的人工智能聊天。有關詳細信息，請參閱第 7 天。

總結

感謝您的辛勤工作！在這篇文章中，我們根據2026年的最新信息解釋了如何在Silly Tavern中使用本地模型。內容從安裝Ollama、選擇模型、連接到Silly Tavern到優化性能，即使對於初學者來說也很容易理解。

通過本地模式，您可以完全免費且私密地享受 Silly Tavern。下一步是學習高級定製，並更深入地瞭解 Silly Tavern！

參考鏈接

關於作者

花（Hana）

AI工具評価の専門家。東京・新宿三丁目周辺で活動し、最新のAIアプリケーションやツールを実際に使用してレビューを提供しています。

常見問題（FAQ）

Q1：本地模型是完全免費的嗎？

是的，它是完全免費的。下載模型後，您可以根據需要多次使用它，而無需任何額外費用。

Q2：我需要多少內存？

最低 8GB，建議 16GB 或以上。較小的型號（Phi-3 Mini）可使用 4GB。

Q3：它可以與 M1/M2/M3 芯片一起使用嗎？

是的，它針對 Apple Silicon 進行了優化，並且運行速度很快。

Q4：性能比雲模型差嗎？

雖然整體表現較差，但對於日常會話水平來說已經足夠了。它具有隱私和免費的優點。

Q5：可以離線使用嗎？

是的，一旦您下載了模型，就可以完全離線使用。

Q6：您推薦哪種型號？

初學者推薦 Qwen3.5 7B。中文支持出色，可在 8GB 內存上運行。

Q7：需要 GPU 嗎？

雖然不是必需的，但擁有 GPU 會顯著加快速度。Apple Silicon Mac 配備集成 GPU，速度更快。

Q8：我可以同時使用多個型號嗎？

如果您有足夠的內存，這是可能的，但通常您一次只使用一個。

Q9：支持中文嗎？

是的，Qwen3.5 和 Mistral Small 3.1 等對中文有良好支持。

Q10：可以在 Windows 上使用嗎？

是的，Ollama 與 Windows、macOS 和 Linux 兼容。

撰寫日期：2026年3月14日
最後更新: 2026年3月27日

第 5 天：Silly Tavern 本地模型利用 ​

本地模型是什麼？ ｜在自己的PC上運行的AI ​

本地模型如何運作 ​

與雲模型的差異 ​

本地模型的優缺點 ​

好處 ​

缺點 ​

Ollama 是什麼？｜最簡單的本地模型執行工具 ​

Ollama 的特點 ​

安裝 Ollama | macOS 上的步驟 ​

第 1 步：安裝 Ollama ​

第2步：啟動Ollama服務 ​

模型下載 |你應該選擇哪一個？ ​

推薦型號列表 ​

推薦給初學者 ​

如何下載模型 ​

Silly Tavern 和 Ollama 之間的連接 ​

第 1 步：設置 Silly Tavern ​

第2步：連接測試 ​

性能優化 |舒適使用的技巧 ​

1.內存管理 ​

2. Apple Silicon 優化 ​

3.模型量化 ​

其他本地模型工具 ​

LM工作室 ​

狗頭人人工智能 ​

Oobabooga 文本生成 WebUI ​

雲與本地 |你應該選擇哪個？ ​

推薦雲模型的人群 ​

推薦本地模特的人 ​

混合使用 ​

常見問題及解決方法 ​

問題 1：內存不足錯誤 ​

問題2：響應速度非常慢 ​

問題 3：無法連接到 Ollama ​

問題 4：找不到模型 ​

下一步 |高級定製 ​

總結 ​

參考鏈接 ​

關於作者 ​

花（Hana）

常見問題（FAQ） ​

7 天教學

在手機上玩 Silly Tavern

Silly Tavern

第 5 天：Silly Tavern 本地模型利用

本地模型是什麼？｜在自己的PC上運行的AI

本地模型如何運作

與雲模型的差異

本地模型的優缺點

好處

缺點

Ollama 是什麼？｜最簡單的本地模型執行工具

Ollama 的特點

安裝 Ollama | macOS 上的步驟

第 1 步：安裝 Ollama

第2步：啟動Ollama服務

模型下載 |你應該選擇哪一個？

推薦型號列表

推薦給初學者

如何下載模型

Silly Tavern 和 Ollama 之間的連接

第 1 步：設置 Silly Tavern

第2步：連接測試

性能優化 |舒適使用的技巧

1.內存管理

2. Apple Silicon 優化

3.模型量化

其他本地模型工具

LM工作室

狗頭人人工智能

Oobabooga 文本生成 WebUI

雲與本地 |你應該選擇哪個？

推薦雲模型的人群

推薦本地模特的人

混合使用

常見問題及解決方法

問題 1：內存不足錯誤

問題2：響應速度非常慢

問題 3：無法連接到 Ollama

問題 4：找不到模型

下一步 |高級定製

總結

參考鏈接

關於作者

常見問題（FAQ）