您现在的位置: 首页 > 动态资讯 > 行业观察
百川智能推出70亿参数量预训练大模型——baichuan-7B
发布时间:2023-06-16 信息来源:界面新闻 字体:

6月15日,搜狗创始人王小川的新公司百川智能推出了70亿参数量的中英文预训练大模型——baichuan-7B。目前,baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。在构建预训练语料库方面,百川智能称其大模型以高质量中文语料为基础,同时融合了优质的英文数据。在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的筛选。在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。(界面新闻)

往期推荐

微信

小程序
Produced By CMS 网站群内容管理系统 publishdate:2025-02-25 10:44:38