fastllm
[fastllm]多线程下动态组batch实现解析
# [fastllm]多线程下动态组batch实现解析 ## 需求分析 新版本的fastllm中添加了ForwardBatch的功能,用于处理批量推理请求,单次推理请求会被视为batch为1的批量请求,这样做似乎没什么问题。 然而在具体实践中,用户的请求往往是一个一个来的,每来一个请求都要等上一个请 ......
[fastllm]cuda-kernels源码解析
接着前面第一篇架构的分析,这篇文章主要分析fastllm中使用cuda-kernels的写法,在fastllm中主要有以下几种使用频率较高的kernel:gemv_int4, gemv_int8, gemm_int8, RMSNorm, softmax,RotatePosition2D,swiglu ......
fastllm源码解析
# fastllm源码解析 ## 文件结构 1. include: 头文件,包含utils, basellm,chatglm, factoryllm, fastllm, fastllm-cuda, moss, vicuna 2. src: 源码文件, 包含chatglm, fastllm, fast ......