在低显存环境下运行UI-Tars 1.5 7B模型并在UI-Tars-Desktop上使用

主要使用 GGUF 量化模型减少显存占用，同时使用 llama.cpp 运行模型。

部署模型

pull llama.cpp 镜像

1	docker pull ghcr.io/ggml-org/llama.cpp:server-cuda

下载模型

1	huggingface-cli download Hack337/UI-TARS-1.5-7B-GGUF --local-dir /data/ui-tars/models/UI-TARS-1.5-7B-GGUF

启动容器

docker run -d -it --name ui-tars --gpus all -v /data/ui-tars/models:/models -p 8000:8000 ghcr.io/ggml-org/llama.cpp:server-cuda --port 8000 --host 0.0.0.0 -m /models/UI-TARS-1.5-7B-GGUF/UI-TARS-1.5.gguf --mmproj /models/UI-TARS-1.5-7B-GGUF/mmproj-model-f16.gguf -a ui-tars-1.5-7B --api-key xxxx -c 128000 --threads 10

听风

在低显存环境下运行UI-Tars 1.5 7B模型并在UI-Tars-Desktop上使用

部署模型

配置 UI-Tars-Desktop