为什么中文语言模型这么难

发布时间 2023-03-31 23:09:43作者: 万里同风

1.数据量级

gpt-4 1750亿参数

2、不同自然语言训练表现不同

中文较差

3、数据来源问题

(1)中文网站优质内容少,且需要付费,优质平台消亡

(2)很多现存平台内容质量差,如csdn

(3)水军、自媒体、营销号和饭圈太多,豆瓣,贴吧,微博小红书

(4)互联网大厂行业竞争与垄断,用户数据生态封闭

4、中文人工智能的未来

(1)最大的难点在于获取数据