简介
MATHPILE:一个高质量、大规模的数学语料库,29 GB,包含约 95 亿个token。涵盖从 K-12 到大学、研究生水平和数学竞赛的内容,包括高质量教科书、讲义、科学论文等。提供详细的数据记录,包括数据集表格和质量注释,提高透明度并允许用户根据需要定制数据。-数据来源和处理:数据最初来源于多个不同的数据源,总计大约 520 亿个令牌,占 2.2 TB 的数据量。源数据包括 StackExchange、ProofWiki、Common Crawl、arXiv,以及其他来源。这些数据经过一系列严格的处理过程,包括数据预处理和预过滤、语言识别、清理和过滤,以及去重。-MATHPILE 语料库:经过处理后,得到了一个以数学为中心的语料库,即 MATHPILE。这个语料库总计有 29 GB 的数据量,包含约 903,000 篇文档,以及大约 95 亿个令牌。主要特点
以上就是本篇文章【MATHPILE:一个高质量的大规模的数学语料库】的全部内容了,欢迎阅览 ! 文章地址:http://lianchengexpo.xrbh.cn/news/14267.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://lianchengexpo.xrbh.cn/mobile/ , 查看更多