工作常用命令记录--sglang-尧图建网站

sglang操作记录python-msglang.launch_server\--model-path Qwen/Qwen3-8B\--speculative-algorithm DFLASH\--speculative-draft-model-path z-lab/Qwen3-8B-DFlash-b16\--speculative-num-draft-tokens16\--tp-size1\--attention-backend flashinfer\--mem-fraction-static0.75\--trust-remote-codeCUDA_VISIBLE_DEVICES=3vllm serve /root/models/Qwen3-8B\--speculative-config'{"method": "qwen3_next_mtp", "model": "/root/models/Qwen3-8B-DFlash-b16", "num_speculative_tokens": 15}'\--max-num-batched-tokens32768CUDA_VISIBLE_DEVICES=3VLLM_USE_V1=0vllm serve /root/models/Qwen3-8B\--port8188\--served-model-name qwen3\--tool-call-parser hermes\--dtypebfloat16\--max-model-len16384\--reasoning-parser deepseek_r1\--gpu-memory-utilization0.6\--enable-prefix-caching\--kv-cache-dtype fp8\--speculative-config'{"method": "dflash", "model": "/root/models/Qwen3-8B-DFlash-b16", "num_speculative_tokens": 15}'CUDA_VISIBLE_DEVICES=3python-msglang.launch_server --model-path /root/models/Qwen3-8B--reasoning-parser qwen3CUDA_VISIBLE_DEVICES=3python-msglang.launch_server\--model-path /root/models/Qwen3-8B\--speculative-algorithm DFLASH\--speculative-draft-model-path /root/models/Qwen3-8B-DFlash-b16\--tp-size1\--dtypebfloat16

相关新闻

专业级漫剧平台深度评测：谁解决了 “角色不换脸” 和 “批量不崩坏” 两大工业难题？

具身智能数据采集的成本结构深度拆解——硬件、人力、标注、运维全维度分析

GESP2026年6月认证C++五级( 第三部分编程题（2、晚宴））精讲

最新新闻

避开这些Java面试常见误区，提高通过率

高压电极热水锅炉的工作原理是什么？

B站m4s缓存视频合并终极指南：让下架视频永久保存

基于SpringBoot3+Vue3的校园跑腿服务平台的设计与实现（AI 自动审核、WebSocket 实时聊天、协同过滤算法、Echarts图形化分析）

ChatGPT写代码总出错？92%开发者忽略的5个Prompt底层逻辑与修复方案

如何轻松获取网易云和QQ音乐歌词：163MusicLyrics实用指南

日新闻

iOS自动化测试：基于facebook-wda与weditor的稳定元素定位实战

AI Agent五大设计模式解析与实战优化

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！