Skip to content

第 5 天:Silly Tavern 本地模型利用

Silly Tavern 第 5 天標題

現在我們在第 4 天 中學習瞭如何連接到雲模型,讓我們嘗試使用本地模型。本地模型是在您自己的計算機上運行的人工智能。不需要互聯網,完全免費,並且您的隱私受到完全保護。

在這篇文章中,我們將根據2026年的最新信息,以通俗易懂的方式為初學者講解什麼是本地模型如何使用Ollama以及應該選擇哪種模型。我們還將詳細解釋雲模型之間的差異以及每種模型的優缺點。

在這個為期 7 天的系列的第 5 天,掌握利用本地模型並完全免費享受 Silly Tavern。


本地模型是什麼? |在自己的PC上運行的AI

什麼是本地模型是在您自己的計算機上運行而無需連接互聯網的AI模型。例如,如果雲模型是“從圖書館借書”,則本地模型就像“家裡書架上的書”。

本地模型如何運作

使用本地模型,您下載一個文件(模型文件),該文件是人工智能的“大腦”,並在您自己的計算機上運行它。該文件的大小通常為幾 GB 到幾十 GB,並使用計算機內存 (RAM) 和 GPU 運行。

與雲模型的差異

項目本地模特雲模型
互聯網不需要必填
費用免費很多都是收費的
隱私全面保護數據傳出
性能取決於電腦性能始終高性能
設置有點複雜簡單
硬件要求

> 💡 提示:我們建議初學者從雲模型開始(參見第 4 天),然後在習慣後嘗試本地模型。


本地模型的優缺點

在使用本地模型之前,請了解其優點和缺點。

好處

  1. 完全免費:一旦下載,無論使用多少次,都是免費的。
  2. 隱私保護:對話內容不對外傳輸
  3. 離線使用:無需網絡,可以在任何地方使用
  4. 無限制:沒有API使用限制或速率限制
  5. 可定製:您可以根據自己的喜好調整模型

缺點

  1. 硬件要求高:需要足夠的內存和GPU
  2. 設置複雜:對於初學者來說可能很困難
  3. 性能取決於PC:在低規格PC上運行速度很慢
  4. 大模型尺寸:需要幾GB到幾十GB的存儲空間
  5. 性能可能不如雲:可能不如最新的雲模型

Ollama 是什麼?|最簡單的本地模型執行工具

Ollama 是一個可以讓您輕鬆運行本地模型的工具。比如,它就像一個“本地模特專屬的應用商店”。您可以下載並運行您的模型,無需任何複雜的配置。

Ollama 的特點

  • 安裝簡單:使用 Homebrew 一次性安裝
  • 輕鬆的模型管理:通過一個命令下載並運行
  • Apple Silicon 優化:M1/M2/M3 芯片運行速度更快
  • 自動內存管理:自動調整可用內存
  • Silly Tavern 兼容:與標準 API 輕鬆連接

Ollama 概述 - 最簡單的本地模型執行工具


安裝 Ollama | macOS 上的步驟

讓我們安裝 Ollama。如果您已經在第 2 天 安裝了 Homebrew,那麼這非常簡單。

第 1 步:安裝 Ollama

在終端中運行以下命令。

bash
brew install ollama

安裝完成後,檢查版本。

bash
ollama --version

如果顯示版本號則說明成功。

Ollama安裝-版本確認

第2步:啟動Ollama服務

在後臺啟動 Ollama。

bash
ollama serve

運行此命令後,Ollama 將在後臺運行,並且 API 將在 http://localhost:11434 處可用。

Ollama 服務已啟動 - 已在運行

> 💡 提示:保持此終端窗口打開。當您關閉它時,Ollama 將停止。


模型下載 |你應該選擇哪一個?

Ollama 有多種型號可供選擇。我們將推出截至 2026 年的推薦型號。

推薦型號列表

型號名稱尺寸所需內存性能應用
Qwen3.5 7B4.7GB4.7GB 8GB非常高多語言/日語最強,適合初學者
米斯特拉爾小型 3.14.5GB4.5GB 8GB通用/快速響應,日常對話
DeepSeek-R1 7B5.2GB10GB非常高擅長推理/長文本/複雜任務
Nemtron Mini 4B2.7GB2.7GB 6GB中等適用於 NVIDIA 低規格 PC
Phi-4 迷你 3.8B2.5GB2.5GB 6GB中高微軟製造,輕量、高效

推薦給初學者

最推薦Qwen3.5 7B。原因是:

  • 最好的日語支持
  • 適用於 8GB 內存
  • 多語言和高質量的回覆
  • OpenRouter排名第一的熱門類

如何下載模型

打開一個新的終端窗口並運行以下命令。

bash
ollama pull qwen3.5:7b

下載將需要幾分鐘時間。完成後,模型即可使用。

模型下載-Ollama上的模型獲取


Silly Tavern 和 Ollama 之間的連接

Ollama 準備好後,與 Silly Tavern 連接。

第 1 步:設置 Silly Tavern

  1. 啟動Silly Tavern:訪問http://localhost:8000
  2. 打開API設置:從左上角菜單中選擇“API連接”
  3. 選擇“聊天完成”選項卡
  4. 選擇API類型:選擇“聊天完成”→“Ollama”
  5. 輸入 URLhttp://localhost:11434(默認)
  6. 選擇模型:下載的模型(例如qwen3.5:7b)
  7. 點擊“連接”

第2步:連接測試

選擇一個角色併發送消息。如果得到回應,那就成功了!

> 💡 提示:第一次回覆可能需要一些時間。因為模型已加載到內存中。


性能優化 |舒適使用的技巧

我們將介紹優化技術以方便地使用本地模型。

1.內存管理

問題:內存不足導致運行緩慢

解決方案

  • 選擇較小的型號(例如 Nemotron Mini 4B)
  • 關閉其他應用程序
  • 在 Ollama 設置中調整最大內存

2. Apple Silicon 優化

配備 M1/M2/M3 芯片的 Mac 可以通過以下設置來加速。

bash
# 啟用Metal(GPU)(默認啟用)
export OLLAMA_GPU_LAYERS=999

3.模型量化

量化是一種減小模型大小的技術。例如,您可以通過量化為 8 位或 4 位來減少內存使用量。

在 Ollama 中,模型名稱包含量化級別:

  • qwen3.5:7b - 標準
  • qwen3.5:7b-q4_K_M - 4 位量化(較小)
  • qwen3.5:7b-q8_0 - 8 位量化(平衡)

其他本地模型工具

除了 Ollama 之外,還有其他工具可以讓您運行本地模型。

LM工作室

LM Studio 是一個基於 GUI 的本地模型執行工具。它比 Ollama 更直觀,更適合初學者。

  • URLhttps://lmstudio.ai/
  • 特點:GUI操作、型號搜索功能、輕鬆設置
  • Silly Tavern 連接:可與 OpenAI 兼容的 API 連接

狗頭人人工智能

什麼是KoboldAI是一個專門用於故事生成的本地模型工具。

Oobabooga 文本生成 WebUI

Oobabooga 是一個高度可定製的本地建模工具。

LM Studio - 基於 GUI 的本地模型工具


雲與本地 |你應該選擇哪個?

我應該使用雲模型還是本地模型?

推薦雲模型的人群

  • 尋求高性能:想要使用最新的高性能AI
  • 低規格電腦:內存和 GPU 較低
  • 我想輕鬆開始:我想避免複雜的設置
  • 可以支付費用:每月可以支付幾美元到幾十美元。

推薦本地模特的人

  • 注重隱私:我不想將對話內容發送給外部各方。
  • 我想完全免費使用它:我不想花任何錢
  • 離線使用:沒有互聯網連接的環境
  • 高規格PC:有足夠的內存和GPU

混合使用

許多用戶同時使用:

  • 重要對話:本地模型(隱私保護)
  • 高質量要求:雲模型(性能導向)
  • 日常對話:本地模型(免費)
  • 複雜任務:雲模型(高性能)

常見問題及解決方法

我們將介紹使用本地模型時出現的常見問題以及如何解決這些問題。

問題 1:內存不足錯誤

原因:模型太大或其他應用程序正在使用內存

解決方案

  • 更改為更小的型號
  • 關閉其他應用程序
  • 使用量化模型

問題2:響應速度非常慢

原因:CPU/GPU性能不足

解決方案

  • 使用較小的模型
  • 在 Apple Silicon 上啟用 Metal (GPU)
  • 停止後臺進程

問題 3:無法連接到 Ollama

原因:Ollama 服務未啟動

解決方案

  • 在終端中運行“ollamaserve”
  • 檢查端口11434是否可用

問題 4:找不到模型

原因:模型未下載

解決方案

  • 在“ollama list”上檢查下載的模型
  • 使用 ollama pull <模型名稱> 重新下載

下一步 |高級定製

您已經掌握了本地模型的基礎知識!接下來我們來學習更多高級定製。

接下來您將學到什麼

對於那些想要更輕鬆開始的人: 如果您發現建立本地模型有困難,請嘗試MiniTavern。您可以使用雲模型享受簡單的人工智能聊天。有關詳細信息,請參閱第 7 天


總結

感謝您的辛勤工作!在這篇文章中,我們根據2026年的最新信息解釋了如何在Silly Tavern中使用本地模型。內容從安裝Ollama、選擇模型、連接到Silly Tavern到優化性能,即使對於初學者來說也很容易理解。

通過本地模式,您可以完全免費且私密地享受 Silly Tavern。下一步是學習高級定製,並更深入地瞭解 Silly Tavern!


參考鏈接


關於作者

花

花(Hana)

AI工具評価の専門家。東京・新宿三丁目周辺で活動し、最新のAIアプリケーションやツールを実際に使用してレビューを提供しています。


常見問題(FAQ)

Q1:本地模型是完全免費的嗎?

是的,它是完全免費的。下載模型後,您可以根據需要多次使用它,而無需任何額外費用。

Q2:我需要多少內存?

最低 8GB,建議 16GB 或以上。較小的型號(Phi-3 Mini)可使用 4GB。

Q3:它可以與 M1/M2/M3 芯片一起使用嗎?

是的,它針對 Apple Silicon 進行了優化,並且運行速度很快。

Q4:性能比雲模型差嗎?

雖然整體表現較差,但對於日常會話水平來說已經足夠了。它具有隱私和免費的優點。

Q5:可以離線使用嗎?

是的,一旦您下載了模型,就可以完全離線使用。

Q6:您推薦哪種型號?

初學者推薦 Qwen3.5 7B。中文支持出色,可在 8GB 內存上運行。

Q7:需要 GPU 嗎?

雖然不是必需的,但擁有 GPU 會顯著加快速度。Apple Silicon Mac 配備集成 GPU,速度更快。

Q8:我可以同時使用多個型號嗎?

如果您有足夠的內存,這是可能的,但通常您一次只使用一個。

Q9:支持中文嗎?

是的,Qwen3.5 和 Mistral Small 3.1 等對中文有良好支持。

Q10:可以在 Windows 上使用嗎?

是的,Ollama 與 Windows、macOS 和 Linux 兼容。


撰寫日期:2026年3月14日
最後更新: 2026年3月27日



最後更新: