首頁 > 科學探索>科技前沿

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

量子位 2023/5/21 18:54:05 責編：夢澤

評論：

Meta 的大語言模型 LLaMA 13B，現(xiàn)在用 2060 就能跑了~

羊駝家族的 Alpaca 和 Vicuna 也都能運行，顯存最低只需要 6G，簡直是低 VRAM 用戶的福音有木有。

GitHub 上的搭建教程火了之后，網(wǎng)友們紛紛跑來問蘋果 M2 是不是也能跑。

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

這通操作的大致原理是利用最新版 CUDA，可以將 Transformer 中任意數(shù)量的層放在 GPU 上運行。

與此前 llama.cpp 項目完全運行在 CPU 相比，用 GPU 替代一半的 CPU 可以將效率提高將近 2 倍。

而如果純用 GPU，這一數(shù)字將變成 6 倍。

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

網(wǎng)友實測的結(jié)果中，使用 CPU 每秒能跑 2.1 個 token，而用 GPU 能跑 3.2 個。

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

生成的內(nèi)容上，開發(fā)者成功用它跑出了“尼采文學”。

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

如何操作

在開始搭建之前，我們需要先申請獲得 LLaMA 的訪問權(quán)限。

傳送門：https://ai.facebook.com/ blog / large-language-model-llama-meta-ai/

此外還需要有一個 Linux 環(huán)境。（Windows 用戶可以用 WSL2）

準備工作完成之后，第一步是將 llama.cpp 克隆到本地。

1git clone https://github.com/ggerganov/llama.cpp.git
2cd llama.cpp
3pacman -S cuda //make sure you have CUDA installed
4make LLAMA_CUBLAS=1

如果沒有安裝 CUDA，可以參考下面的步驟：

1wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin
2sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600
3wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_64.deb
4sudo dpkg -i cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_64.deb
5sudo cp /var/cuda-repo-wsl-ubuntu-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/
6sudo apt-get update
7sudo apt-get -y install cuda

然后是建立 micromamba 環(huán)境，安裝 Python 和 PyTorch 等工具。

接著需要在 micromamba 環(huán)境下安裝一些包：

1export MAMBA_ROOT_PREFIX=（自定義安裝路徑）
2eval "$(micromamba shell hook --shell=bash)"
3micromamba create -n mymamba
4micromamba activate mymamba
5micromamba install -c conda-forge -n mymamba pytorch transformers sentencepiece

然后運行 Python 腳本以執(zhí)行轉(zhuǎn)換過程：

1python convert.py ~/ai/Safe-LLaMA-HF-v2\ \(4-04-23\)/llama-13b/

之后將其量化為 4bit 模式。

1./quantize ~/ai/Safe-LLaMA-HF-v2\ \(4-04-23\)/llama-13b/ggml-model-f16.bin ~/ai/Safe-LLaMA-HF-v2\ \(4-04-23\)/llama-13b/ggml-model-13b-q4_0-2023_14_5.bin q4_0 8

接著是新建一個 txt 文本文檔，把提示詞輸入進去，然后就可以運行了。

1./main -ngl 18 -m ~/ai/Safe-LLaMA-HF-v2\ \(4-04-23\)/llama-13b/ggml-model-13b-q4_0-2023_14_5.bin -f 文檔名稱txt -n 2048q4_0 8

這步當中-ngl 后面的數(shù)字是可以修改的，它代表了轉(zhuǎn)換層的數(shù)量。

當該值為 18 時，運行中消耗的 VRAM 為 5.5GB，根據(jù)顯存的大小最高可以調(diào)至 40。

網(wǎng)友：AMD 不配嗎

這一教程出現(xiàn)之后，網(wǎng)友們的新玩具又增加了。

“苦 OpenAI 久矣”的網(wǎng)友更是感覺仿佛找到了光。

這位網(wǎng)友就表示自己太期待在自己的設(shè)備上運行 LLM 了，寧愿花 5 千美元購置設(shè)備也不想給 OpenAI 交一分錢。

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

但 AMD 用戶可能就不那么興奮了，甚至透露出了嫉妒之情。

這套方法要用到 CUDA（英偉達專用），所以 AMD 是不配了嗎？

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

那么，你期待用自己的設(shè)備跑大語言模型嗎？

參考鏈接：

[1].https://gist.github.com/rain-1/8cc12b4b334052a21af8029aa9c4fafc
[2].https://twitter.com/_akhaliq/status/1657779996247588865
[3].https://news.ycombinator.com/item?id=35937505

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電

如何操作

網(wǎng)友：AMD 不配嗎

相關(guān)文章

6G 顯存玩轉(zhuǎn) 130 億參數(shù)大模型，僅需 13 行命令，RTX2060 用戶發(fā)來賀電