0%

在低显存环境下运行UI-Tars 1.5 7B模型并在UI-Tars-Desktop上使用

主要使用 GGUF 量化模型减少显存占用,同时使用 llama.cpp 运行模型。

部署模型

  1. pull llama.cpp 镜像
    1
    docker pull ghcr.io/ggml-org/llama.cpp:server-cuda
  2. 下载模型
    1
    huggingface-cli download Hack337/UI-TARS-1.5-7B-GGUF --local-dir /data/ui-tars/models/UI-TARS-1.5-7B-GGUF
  3. 启动容器
    1
    docker run -d -it --name ui-tars --gpus all -v /data/ui-tars/models:/models -p 8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda --port 8000 --host 0.0.0.0 -m /models/UI-TARS-1.5-7B-GGUF/UI-TARS-1.5.gguf --mmproj /models/UI-TARS-1.5-7B-GGUF/mmproj-model-f16.gguf -a ui-tars-1.5-7B --api-key xxxx -c 128000 --threads 10

配置 UI-Tars-Desktop