大模型核心概念科普:Token、上下文长度、最大输出,一次讲透 Post Views: 49 Token 是什么 token 是大模型(LLM)用来表示自然语言文本的基本单位,可以直观的理解为 “字” 或 “词”。 通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 token 一般情况下模型中 token 和字数的换算比例大致如下: 1 个英文字符 ≈ 0.3 个 token。 1 个中文字符 ≈ 0.6 个 token。 所以,我们 AIGC admin 1天前 16 热度 0评论
vllm serve的参数大全及其解释 Post Views: 280 以下是 vllm serve 的常见参数说明以及它们的作用: 1. 基本参数 model_tag 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。 示例: vllm serve "gpt-neo-2.7B" --config CONFIG 说明:允许从 YAML 配置文件加载参数。适合复杂配置。 示例: vllm 大模型 admin 18天前 285 热度 0评论
vLLM部署大模型的基准测试 Post Views: 124 官方文档:Benchmark Suites — vLLM github官网项目:https://github.com/vllm-project/vllm 硬件状况:4张4090的24G的卡 咨询vllm官网的AI 问:如何完成基准测试 答:如下图所示 下载测试数据集 下载python测试脚本 如下是脚本的部分内容,全部代码过长无法粘贴(后面我选择了拉取整个vllm项 AIGC admin 22天前 129 热度 0评论
DeepSeek-R1满血版推理部署和优化 Post Views: 233 前情回顾 比较现实的是两个极端, 一方面是各种平台的测评, 例如公众号“ CLUE中文语言理解测评基准”的 另一方面是尤洋老师在微博的一个评论MaaS的商业模式和平台推理亏损, 这里提到了4台H800的总吞吐量 另一方面是各种私有化部署的需求, 例如小红书上最近经常刷到 还有章明星老师的KTransformer可以在单卡的4090 24GB上配合Intel CPU的 大模型 admin 22天前 239 热度 0评论
vLLM 0.6.0推理框架性能优化 Post Views: 98 简介 在此前的大模型技术实践中,我们介绍了加速并行框架Accelerate、DeepSpeed及Megatron-LM。得益于这些框架的助力,大模型的分布式训练得以化繁为简。 然而,企业又该如何将训练完成的模型实际应用部署,持续优化服务吞吐性能?我们不仅要考量模型底层的推理效率,还需从请求处理的调度策略上着手,确保每一环节都能发挥出最佳效能。 本期内容,优刻得将为大家 大模型 admin 22天前 99 热度 0评论
vLLM推理框架本地benchmark测试 Post Views: 116 vllm环境搭建:略 本地硬件环境:RTX4090 24G显存 CUDA12.4 多卡 测试命令单卡张量并行: (vllm_python_source) zxj@zxj:~/zxj/vllm/benchmarks$ python benchmark_throughput.py --backend vllm --input-len 128 --output-len 5 大模型 admin 22天前 125 热度 1评论
大模型之推理 – 容量估算 Post Views: 101 LLM之推理成本高主要原因在于: •模型自身复杂性:模型参数规模大,对计算和内存的需求增加 •自回归解码:逐token进行,速度太慢 推理加速一般可以从两个层面体现:延迟与吞吐量 •延迟 (Latency) :主要从用户的视角来看,从提交一个prompt,至返回response的响应时间,衡量指标为生成单个token的速度,如16 ms/token;若batch_s AIGC admin 22天前 104 热度 1评论
100,000 个 H100 集群:电源、网络拓扑、以太网与 InfiniBand、可靠性、故障、检查点 Post Views: 359 原文:https//www.semianalysis.com/p/100000-h100-clusters-power-network 前沿模型扩展挑战和要求、通过内存重建进行故障恢复、机架布局 有一个阵营认为,自 GPT-4 发布以来,人工智能能力就陷入了停滞。这通常是正确的,但这只是因为没有人能够大规模增加专用于单个模型的计算量。已发布的每个模型大致为 GPT- AIGC admin 2024-11-04 361 热度 0评论
AI时代的GPU集群网络算力分析 Post Views: 722 引言在生成式AI(GenAI)和大模型时代,不仅需要关注单个GPU卡的算力,更要关注GPU集群的总有效算力。单个GPU卡的有效算力可以通过该卡的峰值算力来测算,例如,对于Nvidia A100,峰值FP16/BF16稠密算力是312 TFLOPS,单卡有效算力约为~298 TFLOPS 。本篇将聊聊GPU集群网络配置和GPU集群规模以及总有效算力,重点讨 AIGC admin 2024-11-04 732 热度 0评论