- https://github.com/thu-pacman/chitu
git clone --recursive https://github.com/thu-pacman/chitu && cd chitu
pip install -r requirements-build.txt
pip install -U torch
TORCH_CUDA_ARCH_LIST=8.6 CHITU_SETUP_JOBS=4 MAX_JOBS=4 pip install --no-build-isolation .
## 单 GPU 推理
torchrun --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1 infer.pp_size=1 infer.tp_size=8
## 混合并行 (TP+PP)
torchrun --nnodes 2 --nproc_per_node 8 test/single_req_test.py request.max_new_tokens=64 infer.pp_size=2 infer.tp_size=8 models=DeepSeek-R1 models.ckpt_dir=/data/DeepSeek-R1
## 启动服务
- 在 localhost:21002 启动服务
```
export WORLD_SIZE=8
torchrun --nnodes 1 \
--nproc_per_node 8 \
--master_port=22525 \
example/serve.py \
serve.port=21002 \
infer.stop_with_eos=False \
infer.cache_type=paged \
infer.pp_size=1 \
infer.tp_size=8 \
models=DeepSeek-R1 \
models.ckpt_dir=/data/DeepSeek-R1 \
keep_dtype_in_checkpoint=True \
infer.mla_absorb=absorb-without-precomp \
infer.soft_fp8=True \
infer.do_load=True \
infer.max_reqs=1 \
scheduler.prefill_first.num_tasks=100 \
infer.max_seq_len=4096 \
request.max_new_tokens=100 \
infer.use_cuda_graph=True
```
- 测试服务
```
curl localhost:21002/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is machine learning?"
}
]
}'
```
## 性能测试
- 使用 benchmark_serving 工具进行全面性能测试
python benchmarks/benchmark_serving.py \
--model "deepseek-r1" \
--iterations 10 \
--seq-len 10 \
--warmup 3 \
--base-url http://localhost:21002
上篇:
Argilla - 高效构建高质量 AI 数据集的协作工具
下篇:
KTransformers - 推理
1 OpenAI Agents SDK:轻量级多智能体工作流框架 2 agno-deepknowledge - 基于Agno 的深度智能知识探索框架 3 Oliva - 高效的商品检索能力,支持 语音交互 4 ZO2:低显存环境下的 175B LLM 全参数微调解决方案 5 AIaW - 全功能、轻量级、可扩展的AI对话客户端 6 Mastra : 专为 TS 开发者设计的 AI 应用开发框架 7 GraphRAG:基于图像检索增强生成开源到爆火,解锁新RAG技术 8 GeoAI: 人工智能驱动的地理空间数据分析 9 text-generation-inference - 推理任务 10 cognita - 低代码 RAG 框架 11 OpenManus 开源版 12 Refly - 开源的AI原生创作引擎