Tokenization

Tokenization 简介

Tokenization是将文本分割成更小的单位，称为"token"的过程。在自然语言处理中，token可以是单词、短语、句子或其他更小的文本单位，具体取决于任务和需求。 Tokenization的目的是将文本分解成离散的、可处理的单元，以便进行进一步的文本处理和分析。它是自然语言处理任务的重要预处 ......

Tokenization 简介更新时间 2023-09-04

怎么让英文大预言模型支持中文？（一）构建自己的tokenization

代码地址：https://github.com/taishan1994/sentencepiece_chinese_bpe Part1前言目前，大语言模型呈爆发式的增长，其中，基于llama家族的模型占据了半壁江山。而原始的llama模型对中文的支持不太友好，接下来本文将讲解如何去扩充vocab里 ......

tokenization 预言模型更新时间 2023-06-24

共2篇 :1/1页 首页上一页1下一页尾页

JZTXT

Tokenization

Tokenization 简介

怎么让英文大预言模型支持中文？（一）构建自己的tokenization