fastllm

[fastllm]多线程下动态组batch实现解析

# [fastllm]多线程下动态组batch实现解析 ## 需求分析新版本的fastllm中添加了ForwardBatch的功能，用于处理批量推理请求，单次推理请求会被视为batch为1的批量请求，这样做似乎没什么问题。然而在具体实践中，用户的请求往往是一个一个来的，每来一个请求都要等上一个请 ......

线程 fastllm 动态 batch更新时间 2023-08-26

[fastllm]cuda-kernels源码解析

接着前面第一篇架构的分析，这篇文章主要分析fastllm中使用cuda-kernels的写法，在fastllm中主要有以下几种使用频率较高的kernel：gemv_int4, gemv_int8, gemm_int8, RMSNorm, softmax，RotatePosition2D，swiglu ......

cuda-kernels 源码 fastllm kernels cuda更新时间 2023-08-23

fastllm源码解析

# fastllm源码解析 ## 文件结构 1. include: 头文件，包含utils, basellm，chatglm， factoryllm, fastllm, fastllm-cuda, moss, vicuna 2. src: 源码文件，包含chatglm, fastllm， fast ......

源码 fastllm更新时间 2023-08-19

共3篇 :1/1页 首页上一页1下一页尾页

JZTXT

fastllm

[fastllm]多线程下动态组batch实现解析

[fastllm]cuda-kernels源码解析

fastllm源码解析