宇宙有只AGI的博客_LLM_51CTO博客

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册

# LLM

Xinference 安装使用（支持CPU、Metal、CUDA推理和分布式部署）

Xinference 安装使用（支持CPU、Metal、CUDA推理和分布式部署）

1. 详细步骤1.1 安装# CUDA/CPU pip install "xinference[transformers]" pip install "xinference[vllm]" pip install "xinference[sglang]" # Metal(MPS) pip install "xinference[mlx]" CMAKE_ARGS="-DLLAMA_METAL=on"

llm

xinference

置顶原创 24天前 245 阅读 yyds干货盘点

llama.cpp 安装使用（支持CPU、Metal及CUDA的单卡/多卡推理）

llama.cpp 安装使用（支持CPU、Metal及CUDA的单卡/多卡推理）

1. 详细步骤1.1 安装 cuda 等 nvidia 依赖（非CUDA环境运行可跳过）# 以 CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64) 为例，注意区分 WSL 和 Ubuntu，详见 https://developer.nvidia.com/cuda-12-4-1-download-archive?target_os=Linux&targ

llm

llama.cpp

原创 24天前 97 阅读 yyds干货盘点

ChatGLM.cpp 安装使用（支持CPU、Metal及CUDA推理）

ChatGLM.cpp 安装使用（支持CPU、Metal及CUDA推理）

1. 详细步骤1.1 拉取源码# 确保网络通畅 git clone --recursive https://github.com/li-plus/chatglm.cpp.git && cd chatglm.cpp1.2 模型转换/量化1.2.1 安装所需 Python 依赖torchpip install torch -U其他依赖pip install tabulate tqdm

llm

chatglm.cpp

gguf

置顶原创 24天前 113 阅读 yyds干货盘点

Ollama WebUI 安装使用（pip 版）

Ollama WebUI 安装使用（pip 版）

Open WebUI (Formerly Ollama WebUI) 也可以通过 docker 来安装使用1. 详细步骤1.1 安装 Open WebUI# 官方建议使用 python3.11（2024.09.27），conda 的使用参考其他文章 conda create -n open-webui python=3.11 conda activate open-webui # 相关依赖挺多的，

llm

ollama

webui

原创 24天前 42 阅读

迁移 ollama 模型文件到新机器（支持离线运行）

迁移 ollama 模型文件到新机器（支持离线运行）

1. 详细步骤以qwen2.5:0.5b-instruct-fp16为例1.1 迁移 manifests 文件# 本地机器 # 查看 manifests 下的配置文件 more ~/.ollama/models/manifests/registry.ollama.ai/library/qwen2.5/0.5b-instruct-fp16 # 输出类似如下 { "schemaVersion":

llm

ollama

原创 24天前 104 阅读 yyds干货盘点

Ollama 安装、运行大模型（CPU 实操版）

Ollama 安装、运行大模型（CPU 实操版）

1. 操作步骤1.1 安装# 通过 homebrew 安装 brew install ollama1.2 验证（可跳过）# 输出命令使用提示则安装成功 ollama --help1.3 启动服务端# 启动 ollama 服务（默认在 11434 端口，模型文件在 ~/.ollama） ollama serve1.4 跑通第一个模型# 新开一个终端窗口，执行如下命令（将下载并运行 Qwen2 的 0

llm

ollama

原创 24天前 152 阅读