Common Corpus:LLM预训练的最大规模伦理数据集合
背景与学术渊源
起源与学术渊源
本文所解决的问题,即大型语言模型(LLM)预训练在伦理来源和许可数据方面的稀缺性,正是源于LLM的快速扩展和广泛采用。历史上,GPT-3(Brown et al., 2020)等模型的出现标志着该领域的一个重大转变,它确立了在海量数据集上进行训练的范式,这些数据集的规模常常达到万亿级 token。这一趋势持续下去,LLM的训练数据规模呈对数增长,预计到2025年将达到14至36万亿 token。
先前方法的根本局限性和“痛点”在于它们依赖于网络抓取的数据,这些数据虽然公开可用,但往往缺乏明确的许可协议。自然语言处理(NLP)从业者常常依据“合理使用”原则行事,认为LLM训练的转化性质证明了使用受版权保护内容的合理性。然而,这种做法已导致越来越多的法律挑战,例如《纽约时报》起诉OpenAI侵犯版权(Roth, 2023; Pope, 2024)。此外,包括Books3、LAION、GEITje和MATH在内的几个著名数据集,因版权问题或存在儿童性虐待材料(CSAM)等问题内容而面临法律下架或限制,这使得先前的研究难以复现,并给开发者造成了巨大的投资损失。除了法律纠纷,现有的开放数据集普遍缺乏多语言多样性,以英语为中心,并且经常包含低质量或不可用数据,尤其是在低资源语言中。这种集体压力凸显了对一个真正开放、合法合规、高质量且多样化的预训练数据集的迫切需求,以促进开放科学研究和LLM的发展。
直观的领域术语
以下是论文中的几个专业领域术语,用初学者易于理解的比喻进行解释:
- 大型语言模型(LLM): 想象一个超级智能的数字大脑,它“阅读”了互联网和书籍中几乎所有写过的东西。然后,它能够以类似人类的方式理解、生成和回答问题,就像一个受过高等教育、多才多艺的助手。
- Token: 将它们视为LLM理解语言的基本构建块。它们就像模型处理的“单词”甚至更小的单词片段(如“un-”或“-ing”),类似于我们如何将句子分解成单个单词来理解它们。
- 预训练: 这是LLM的初始、大规模学习阶段。这就像让一个学生完成小学、中学和大学教育,在他们专攻某个职业之前,获得广泛的通识教育。模型学习一般的语言模式和知识。
- 许可协议(Permissive Licenses): 将其视为数据的“通用许可单”。它明确说明您可以自由地使用、共享甚至修改数据,用于几乎任何目的,包括训练AI模型,而无需获得特殊许可或担心版权诉讼。这与“保留所有权利”相反。
- OCR错误: 想象一下将一本褪色的旧书扫描到电脑里。有时扫描仪会出错,将“e”变成“c”,或者将两个单词合并在一起。OCR错误是在将文本图像(例如来自旧文档)转换为可编辑文本时发生的数字“拼写错误”或失真。
符号表
坦白说,本文主要描述了一个大型数据集的创建和特性,而不是介绍一个依赖于方程中特定数学变量或参数的新数学模型或算法。因此,论文的正文或图表中没有明确定义或在LaTeX语法中使用的关键数学符号(变量、参数),这些符号对于后续的数学解释是必需的。本文使用“tokens”、“documents”和“words”等描述性术语来量化数据,但这些在公式中并未用单个字母的数学符号表示。
问题定义与约束
核心问题表述与困境
本文的核心问题是大规模、高质量、真正开放且具有许可协议的LLM预训练数据的严重短缺。
输入/当前状态:
目前,LLM在海量数据集上进行预训练,这些数据集通常包含数万亿个 token,来源于各种领域,主要从网络抓取。然而,这些数据中的很大一部分要么受版权保护,要么是专有的,要么缺乏明确的许可协议。这导致了LLM开发,特别是开放科学倡议,处于一个不稳定的境地,正如众多法律挑战所证明的那样(例如,对OpenAI的诉讼,Books3、LAION和MATH数据集的DMCA下架)。现有的“开放”数据集常常存在局限性:它们通常是单语的(主要是英语),严重依赖于许可协议模糊的网络抓取数据(如Common Crawl),或者包含低质量、不可用或存在伦理问题的内容(例如,个人身份信息(PII)、有毒语言)。此外,内容所有者越来越多地实施技术和法律限制,以阻止为AI训练进行数据抓取,进一步缩小了可获得数据的范围。
期望终点(输出/目标状态):
期望的终点是建立一个强大、合法合规且符合伦理的LLM预训练基础。这需要创建一个大规模数据集,该数据集应具备:
1. 真正开放且具有许可协议: 所有内容必须不受版权保护,或在明确的许可协议下可用,以确保法律确定性并促进开放科学。
2. 多语言和多领域: 数据集应涵盖广泛的语言,包括低资源语言,并覆盖多样化的领域(例如,政府、文化、科学、代码、网络、语义数据),以促进模型性能的泛化和强大。
3. 高质量且经过精心策划: 数据必须经过仔细清理,过滤掉PII、毒性和OCR错误,并提供详细的出处和元数据,以确保透明度和可复现性。
缺失环节或数学鸿沟:
确切的缺失环节是缺乏一个全面、伦理来源且法律清晰的数据集,该数据集能够与目前用于LLM训练的专有或许可协议模糊的数据集相媲美。本文试图通过组装、策划和发布Common Corpus来弥合这一差距,该数据集从头开始设计,以满足这些严格的法律和伦理标准,同时仍提供大量多样化的 token,适用于多语言预训练。数学鸿沟不在于特定的方程,而在于缺乏一个明确定义、大规模且法律干净的输入空间来处理构成LLM训练的复杂优化问题。
困境:
先前研究人员陷入的中心、痛苦的权衡是“规模 vs. 合法性/伦理/质量”的困境。要实现最先进LLM性能所需的大规模,历史上必须使用海量、通常是无差别抓取网络数据。这种方法虽然在规模上有效,但不可避免地导致:
* 法律脆弱性: 包含受版权保护或专有内容,导致诉讼和数据集下架,破坏了可复现性和开放研究。
* 伦理妥协: 存在PII、有害或有偏见的内容,引发伦理担忧和监管不合规(例如,GDPR)。
* 质量下降: 网络抓取的数据通常包含低质量、嘈杂或不可用的文本,这会负面影响模型性能,并需要大量的、昂贵的后期处理。
困境在于,改进一个方面(例如,确保严格的法律合规性)通常会急剧减少可用数据规模或指数级增加策划成本,使得训练有竞争力的LLM更加困难。反之,优先考虑规模则常常会损害法律和伦理标准。本文还强调了一个“开放数据悖论”,即真正开放的内容在领先的预训练来源中反而不那么显眼,这使得其聚合本身就非常困难。
约束与失效模式
构建一个真正开放、具有许可协议且高质量的LLM预训练数据集的问题,由于存在几个严峻、现实的约束,因此极其困难:
-
法律与许可约束:
- 严格的许可性: 数据必须不受版权保护(公共领域)或在明确的许可协议下(例如,CC-By、MIT、Apache-2.0)。这与通用网络抓取相比,严重限制了可用数据的范围,因为许多公开的网络内容并未获得AI训练的许可。
- 版权期限复杂性: 确定公共领域状态,特别是对于国际和历史作品,涉及复杂的法律标准(例如,作者寿命+70年,美国作者的出版年限+95年),需要细致的权利验证。
- DMCA下架: 对不合规数据采取法律行动和DMCA下架的持续威胁,使得任何建立在模糊来源上的数据集对于长期研究来说都不稳定和不可靠。
-
数据驱动与质量约束:
- 高质量开放数据极度稀缺: 虽然网络浩瀚,但具有清晰许可协议的高质量、多语言、多领域数据的子集相对稀疏且分散。
- 历史文本OCR质量差: 大量有价值的历史数据(开放文化、开放政府)来自OCR质量差的数字化来源,引入了噪声和错误,降低了文本质量。这需要先进的、计算密集型的OCR错误检测和纠正工具。
- PII和有害内容: 公共领域和其他开放来源可能包含个人身份信息(PII)或有害/有偏见的内容(例如,反映过时规范的历史文本,图像数据集中的CSAM)。必须实施强大、准确且高效的PII移除和毒性检测管道,但这在跨语言和跨领域的规模上实现起来具有挑战性。
- 元数据缺乏: 许多潜在数据源缺乏关于出处、许可和语言的足够元数据,使得自动化策划变得困难,需要手动干预或复杂的推理。
- 多语言多样性挑战: 数据处理工具(分段、质量评估)必须在广泛的语言范围内可靠运行,包括低资源语言,而现有NLP工具在这些语言上通常泛化能力较差。
-
计算与基础设施约束:
- 海量规模处理: 处理和策划“约两万亿 token”需要大量的计算资源用于存储、处理、过滤和质量评估。
- 策划工具的计算成本: 尽管至关重要,但像OCR错误检测(例如,OCRerrcr)这样的先进策划工具计算量很大,其扩展效率不如更快、精度较低的替代方案,这在非常大的语料库中带来了准确性和处理速度之间的权衡。
- 数据出处跟踪: 细致地跟踪跨不同来源的每个数据对象的出处、许可和元数据,会给数据管道增加显著的开销。
-
失效模式:
- 法律不合规: 未能准确识别和过滤未获得许可的内容,会导致法律风险和潜在的数据集下架。
- 伦理违规: PII移除或毒性过滤不足,可能导致隐私泄露或在训练的LLM中延续有害偏见。
- 模型性能低下: 使用低质量、嘈杂或不够多样化的数据,可能导致LLM性能低下、泛化能力有限或出现不良行为(例如,纠正任务中的“语言切换”,通用写作风格)。
- 缺乏可复现性: 如果数据集不稳定、文档记录不充分且不可持续可用,基于其进行的研究将无法复现。
- 低效的策划: 手动或缓慢的策划过程在现代LLM训练所需规模下变得不可行,需要高效、自动化但准确的工具。
- 偶尔的虚假重复: 即使有OCRonos等高级工具,也可能偶尔包含虚假重复的单词,这需要后期处理。
为什么选择这种方法
选择的必然性
本文所解决的核心问题并非开发新的大型语言模型(LLM)数学模型或算法本身,而是关键的、高质量的、真正开放的、具有许可协议的、多语言和多领域的预训练数据的严重缺乏。作者们意识到,传统的“SOTA”(State-of-the-Art)数据收集和策划方法根本上是不足的,因为它们导致了一系列法律、伦理和质量问题,严重阻碍了开放科学研究和强大LLM的开发。
现有的数据集,如C4、Books3、LAION、RefinedWeb和Dolma,尽管规模庞大,但都存在显著的缺点:
* 法律和伦理雷区: 许多数据集包含受版权保护或专有内容,导致法律诉讼(例如,《纽约时报》起诉OpenAI的案件,Books3的DMCA下架,以及LAION因CSAM内容被移除)。这使得研究难以复现,并给开发者带来了巨大的风险。
* 访问限制: 内容所有者越来越多地实施技术措施和法律规定,以阻止为AI训练进行抓取,使得大部分公开的网络数据(例如,C4的45%)无法访问或受到限制。
* 单语偏见: 大多数新兴的“开放”数据集主要是纯英语的(例如,C4C、Open License Corpus、KL3M、Common Pile),严重限制了多语言LLM的发展。
* 低质量和偏见: 网络抓取的数据通常存在低质量、机器生成文本、个人身份信息(PII)以及有害或有偏见的内容。特别是多语言数据集,被发现包含大量不可用数据。
鉴于这些普遍存在的问题,作者们得出结论,一种新的数据收集和策划范式是唯一可行的解决方案。这需要一种细致的、从头开始的方法来组装一个数据集,该数据集明确设计为合法合规、符合伦理、高质量且在语言和领域上具有多样性。Common Corpus的“方法”——专注于清晰的许可协议、全面的出处和先进的策划工具——不仅仅是一种改进,而是开放LLM研究的必要基础。
相对优势
Common Corpus方法论通过其在法律合规性、数据质量和多样性方面的结构性承诺,提供了优于先前数据收集方法和现有数据集的定性优势,而不仅仅是原始 token 数量。
- 前所未有的法律与伦理合规性: 与面临法律诉讼和下架风险的数据集不同,Common Corpus完全由不受版权保护或具有许可协议的数据构建(如表4所示的公共领域、CC-By、MIT、Apache-2.0等)。这种结构性优势确保了在Common Corpus上训练的模型可以发布和使用,而不会像许多商业甚至“开放”模型那样面临法律不确定性。这种对“开放”最强意义上的承诺是一次根本性的定性飞跃。
- 通过专业策划增强数据质量: 本文介绍了“不良数据工具箱”(第5节),这是一套定制工具,旨在克服多语言、历史和数字化内容特有的挑战:
- Segmentext: 一种用于鲁棒文本分段的 token 分类模型,即使输入损坏或非结构化,也比基于布局的方法更优越,当视觉信息丢失时尤其如此。
- OCR错误检测(OCRoscope & OCRerrcr): OCRoscope 提供快速、大规模的质量估计,而 OCRerrcr 提供细粒度的、 token 级别的错误识别。这对于历史和数字化文档至关重要,确保了比原始OCR输出更高的输入质量。
- OCR纠错(OCRonos): 一个从Llama-3-8B微调而来的生成式LLM,专门训练用于纠正OCR错误、单词分割和结构伪影。它被设计为保守的,并抵抗语言切换,这是小型通用LLM在面对嘈杂输入时常见的失效模式。
- PII移除: 利用Microsoft的Presidio和自定义正则表达式来识别和替换PII为虚构但真实的数值,保留文本格式和模型理解,这是一种比简单移除或标记更复杂的方法。
- 毒性检测(Celadon): 一种多语言毒性分类器(DeBERTa-v3-small),针对历史文本、OCR噪声和非英语内容进行了优化。它实现了与更大模型(Llama 3.1-8B-Instruct)相当的性能,但速度快40倍以上,使得大规模过滤成为可能。这显著减少了有害内容的出现,这是网络抓取语料库中的一个主要问题。
- 真正多语言和多领域多样性: Common Corpus是最大的完全开放数据集(2万亿 token),具有高多语言多样性,涵盖了广泛的高资源和低资源语言(图2,表5)。其在不同领域(开放政府、开放文化、开放科学、开放代码、开放网络、开放语义)的构成如图1所示,超越了“网络抓取”数据(表1,图3b)。这些集合的时间和语义概览在图3中进一步说明。这种结构性多样性对于训练泛化能力强、性能强大的LLM至关重要,使其在不同任务和语言上表现良好,这是纯单语或以网络文本为中心的数据集的明显优势。
- 可复现性和开放科学基础设施: 通过提供详细的出处、处理步骤,并公开发布策划工具,Common Corpus充当了开放科学的关键基础设施。这种透明度和工具共享直接解决了因数据集突然移除而导致的研究不可复现性问题。
虽然本文没有明确详细说明从 $O(N^2)$ 到 $O(N)$ 的内存复杂度降低(针对数据策划过程),但对Celadon(毒性检测速度快40倍)和OCRoscope(大规模处理计算量较低)等高效工具的强调,表明在处理LLM预训练所需的海量数据方面具有结构性优势。这种效率使得创建如此高质量、大规模、经过策划的语料库成为可能。
与约束的对齐
Common Corpus的方法论完美地契合了问题定义中隐含和明确的约束,这些约束集中于为LLM预训练提供合法、高质量、多样化且开放访问的数据。
- 约束:严格的法律和伦理合规性: 本文的主要动机是提供“符合数据安全法规”且“不受版权或其他法律限制”的数据。Common Corpus通过仅包含不受版权保护或具有许可协议的内容(表4)来实现这一点。此外,它实施了强大的PII移除(使用Presidio)和毒性检测(使用Celadon),直接解决了隐私和有害内容的伦理问题。这种“结合”确保了在Common Corpus上训练的LLM可以部署,而不会像以前的数据集那样面临法律和声誉风险。
- 约束:高质量和可用性数据: 问题强调,现有数据集常常包含“低质量或完全不可用数据”,尤其是在多语言环境中。Common Corpus解决方案通过其“不良数据工具箱”直接解决了这个问题。Segmentext处理非结构化和数字化文本,OCRoscope和OCRerrcr检测错误,OCRonos纠正错误,将降级输入转化为可用文本。这套工具确保了即使是历史或嘈杂的数据也能有意义地为训练做出贡献,满足了高质量输入的要求。
- 约束:多语言和多领域多样性: 以前“开放”数据集的一个关键限制是其单语性或有限的领域覆盖。Common Corpus被明确设计为“最大的完全开放预训练数据集……具有高多语言多样性”(图2,表5),并涵盖了广泛的领域(开放政府、文化、科学、代码、网络、语义)。这直接解决了对在不同语言和知识领域表现强大的LLM的需求。
- 约束:开放科学和可复现性: 本文强调了“真正开放的预训练数据”和“可复现的研究产物”的必要性。Common Corpus通过提供详细的出处、处理步骤,并公开发布其策划工具(不良数据工具箱),与之保持一致。这种透明度和方法共享直接支持开放科学生态系统,确保基于该数据进行的研究可以被验证和复现。
- 约束:大规模: LLM需要“大量的训练数据”(引言)。Common Corpus,拥有“约2万亿 token”,满足了这一规模要求。其策划工具的效率(例如,Celadon的速度)使得处理和维护如此庞大的语料库成为可能,确保了即使在如此巨大的规模下也能满足质量和多样性约束。
替代方案的拒绝
本文通过强调其根本性缺点,隐含和明确地拒绝了几种流行的方法和现有数据集,而Common Corpus旨在克服这些缺点。
- 拒绝无差别网络抓取(例如,C4的Common Crawl,Books3): 作者们明确指出,“大多数网络数据没有足够的元数据来确定其是否具有许可协议”,并且“越来越多地存在使用这些数据的法律挑战”。他们引用了《纽约时报》起诉OpenAI的案件、Books3的DMCA下架以及LAION数据集的CSAM问题作为此类方法失败的直接证据。本文指出,“C4的45%现在因服务条款变更而受到限制”。Common Corpus的方法是仅包含具有清晰出处且不受版权保护或具有许可协议的数据,这是对广泛网络抓取所固有的法律和伦理风险的直接拒绝。
- 拒绝现有的“开放”数据集作为充分的解决方案: 本文将Common Corpus与C4C、Open License Corpus、KL3M和Common Pile等其他项目进行了比较(表1)。它指出,其中许多是“单语的,实际上限制了语言模型的影响范围仅限于英语使用者”。例如,KL3M“仅限于英语的行政和法律文件”。Common Corpus同时满足所有四个标准的能力——多语言、多领域、超越网络抓取且完全许可——表明这些替代方案对于更广泛的开放、通用LLM开发目标来说是不够的。
- 拒绝未经策划或策划不佳的多语言数据集: 本文强调,“许多多语言数据集包含大量低质量或完全不可用数据”(Kreutzer et al., 2022)。这表明,在没有严格策划的情况下简单地聚合来自不同语言的数据(如某些替代方法中所做的那样)会导致次优的训练数据。Common Corpus的“不良数据工具箱”(Segmentext、OCR纠错、毒性检测)直接解决了这个问题,即使对于多样化且具有挑战性的语言来源,也能确保高质量。
- 拒绝忽视PII和毒性的方法: 本文明确指出,“网络数据是有害和有偏见内容的主要来源”,并且“公共领域数据……包括历史期刊和专著……其中许多文本不符合现代伦理标准”。开发像Presidio用于PII移除和Celadon用于多语言毒性检测这样的专用工具,明确拒绝了任何不优先考虑这些关键过滤步骤的数据收集策略。
本质上,作者们拒绝了那些要么未能满足严格的法律和伦理要求,要么缺乏足够的多语言和多领域覆盖,要么在数据质量上妥协的替代方案,而所有这些对于开放LLM的可持续发展都至关重要。
Figure 5. Comparing the fertility of PleIAs tokenizer (marked as “Ours 1B”) and other language mod- els for six languages. The data source for all languages is the devtest set of FLORES200 (Costa- juss`a et al., 2022)
数学与逻辑机制
论文《Common CORPUS: THE LARGEST COLLECTION OF ETHICAL DATA FOR LLM PRE-TRAINING》主要侧重于为训练大型语言模型(LLM)而构建大规模、伦理来源数据集的细致过程和策划。虽然它描述了使用该数据集进行LLM的后续训练和评估,但本文引入或详细介绍的核心数学和逻辑机制主要与数据策划管道相关,而不是新颖的LLM架构或训练目标函数本身。提到的LLM(Llama风格、DeBERTa变体)是现有模型,其学习的底层数学引擎在文献中已得到充分确立。因此,本节将重点关注数据策划过程中使用的逻辑和算法机制,这是本文的核心贡献。
主方程
坦白说,本文没有呈现传统意义上的单一“主方程”,例如新机器学习模型的目标函数或描述新物理过程的微分方程。相反,其“数学引擎”是一套算法和模型驱动的流程,旨在进行数据清理、分段、错误检测、纠正和毒性过滤。这些流程按顺序应用于原始文本数据,以生成最终的Common Corpus。
最接近“核心机制”的是OCRoscope对OCR质量的评估,它依赖于语言识别分数的比较。虽然这不是一个学习的目标函数,但它量化了数据质量的一个关键方面。OCR质量分数,$Q_{OCR}$,对于一个文档可以概念性地表示为:
$$ Q_{OCR} = 1 - \frac{\sum_{i=1}^{N} \mathbb{I}(L(g_i) \neq L_{doc} \text{ or } L(g_i) = \text{Unknown})}{\sum_{i=1}^{N} \mathbb{I}(g_i \text{ is valid})} $$
这个方程虽然是简化的,但捕捉了OCRoscope逻辑的本质。
按词分解
让我们分解一下OCRoscope质量分数的概念组成部分:
- $N$:这代表从输入文本文档中提取的滚动n-gram(具体来说是7-gram,如论文所述)的总数。其数学定义是这些重叠文本片段的数量。其物理/逻辑作用是定义进行局部语言识别的粒度。作者使用n-gram是因为语言识别模型对短序列上的噪声更敏感,这使得它们成为OCR错误的良好指标,而文档级识别对噪声具有鲁棒性。
- $g_i$:这表示从文档中提取的第 $i$ 个滚动7-gram。数学上,它是一个长度为7的子字符串。其逻辑作用是提供一个小的、局部的文本窗口用于语言识别,其中OCR错误更有可能破坏语言模式。
- $L(g_i)$:这是
pycld2模型为第 $i$ 个7-gram识别出的语言。数学上,它是一个分类输出(语言标签或“Unknown”)。其逻辑作用是检测局部语言一致性。如果一个7-gram被OCR错误严重破坏,pycld2很可能会错误地将其分类或标记为“Unknown”。 - $L_{doc}$:这是
pycld2为整个文档识别出的语言。数学上,它是一个单一的分类输出。其逻辑作用是建立文档的地面真实语言,即使存在一些噪声,该语言也被假定为鲁棒识别的。局部$L(g_i)$与全局$L_{doc}$之间的比较是识别差异的关键。 - $\mathbb{I}(\cdot)$:这是指示函数,当其参数为真时返回1,否则返回0。数学上,它是一个布尔值到整数的映射。其逻辑作用是计算局部7-gram的语言识别偏离文档整体语言或无法识别的实例。
- $\mathbb{I}(L(g_i) \neq L_{doc} \text{ or } L(g_i) = \text{Unknown})$:这一项计算“不匹配”或“未知”的7-gram的数量。数学上,它是指示函数之和。其逻辑作用是量化局部语言不一致性的存在,这些不一致性是OCR错误的代理。作者使用了“或”来捕捉明确的错误识别和完全无法识别,两者都表明存在问题。
- $\mathbb{I}(g_i \text{ is valid})$:这一项确保只考虑有效的7-gram(例如,非空或纯标点符号),以防止除零错误或因格式错误的输入导致的比例偏差。
- $\sum_{i=1}^{N} \dots$:这聚合了问题7-gram的数量。这里使用求和是自然地计算序列中的离散事件。
- $\frac{\sum_{i=1}^{N} \mathbb{I}(L(g_i) \neq L_{doc} \text{ or } L(g_i) = \text{Unknown})}{\sum_{i=1}^{N} \mathbb{I}(g_i \text{ is valid})}$:这计算了问题7-gram的比例。其逻辑作用是提供OCR噪声的标准化度量。
- $1 - \dots$:最后的减法将“错误率”转换为“质量分数”,其中1表示完美质量,较低的值表示数字噪声增加。这使得分数作为“质量”指标更直观。
分步流程
想象一个原始的、数字化的文档,可能是一份扫描的历史报纸,进入Common Corpus策划管道。这就像一个复杂的文本装配线:
- 初始摄入与元数据提取: 文档首先进入系统。诸如源URL、潜在许可信息和创建日期等基本元数据被提取或推断。
- 语言识别(文档级别): 整个文档通过语言识别模型(如
fastText或cld2)来确定其主要语言$L_{doc}$。这是关键的第一步,因为后续工具通常依赖于语言。 - 文本分段(Segmentext): 文档的原始字符序列被输入到
Segmentext,这是一个DeBERTa-v2风格的token分类模型。该模型充当智能解析器,识别和标记不同的结构组件:“这是[Title]”,“这是[Text]”,“这是[Table]”,“这是[Paratext](如页码)”。它仅基于文本工作,使其对丢失的布局信息具有鲁棒性。 - OCR错误检测(OCRoscope & OCRerrcr):
- OCRoscope(粗粒度): 然后将文档传递给
OCRoscope。该工具在文本中滑动一个7个字符的窗口(7-gram)。对于每个7-gram,它尝试识别其语言$L(g_i)$。如果$L(g_i)$与$L_{doc}$不匹配或为“Unknown”,则将其标记为潜在的OCR错误。OCRoscope汇总这些标记以生成文档的整体OCR质量分数。这是一个快速的初步检查,用于决定文档是否需要更密集的处理。 - OCRerrcr(细粒度): 对于被识别为需要更多关注的文档,DeBERTa-v3-small模型
OCRerrcr介入。它逐个 token 处理文本,将每个 token 分类为正确或错误。这提供了错误位置的精确映射,为有针对性的纠正做准备。
- OCRoscope(粗粒度): 然后将文档传递给
- OCR错误纠正(OCRonos): 现在结构完整且大部分无错误的文档,进入
OCRonos,这是一个微调的Llama-3-8B生成模型。OCRonos充当熟练的编辑,接收嘈杂的文本并尝试纠正OCR错误,修复不正确的单词分割或合并,并恢复更广泛的结构完整性。它被设计为保守的,尽可能保留原始文本,但可以“合成重写”严重降级的部分,使其可用。 - 个人身份信息(PII)移除: 清理后的文本被扫描,使用
Microsoft Presidio并结合自定义正则表达式来查找PII。该工具识别敏感信息,如电话号码、电子邮件地址和IP地址。它不是简单地移除或编辑,而是用虚构但真实的数值替换PII,以保持文本的流畅性和上下文。 - 去重: 文档与现有数据进行比对,以移除重复项,通常使用PDF元数据或内容哈希。这确保了语料库的唯一性和避免冗余。
- 毒性检测(Celadon): 最后,清理后的文档被传递给
Celadon,一个DeBERTa-v3-small多语言毒性分类器。该模型在多样化的带注释毒性内容数据集上进行训练,可以识别和标记多种维度上的有害或有偏见语言(例如,种族主义、性别歧视、暴力)。超过一定毒性阈值的文档或片段将被过滤掉,确保语料库的伦理完整性。 - 最终组装与元数据丰富: 现在干净、分段、已纠正、无PII且无毒性的文本被组装起来。其丰富的元数据(许可、语言、来源、领域等)被附加,使其准备好被包含在Common Corpus中。
整个过程确保了每个“数据点”(文档)在成为最终高质量数据集的一部分之前都经过严格的处理和审查。
优化动态
本文中的“学习”或“收敛”主要适用于数据策划管道中使用的神经网络模型,因为本文本身并未提出新的LLM训练优化方法。这些模型使用标准的深度学习优化技术进行训练。
- Segmentext、OCRerrcr和Celadon(Token分类模型):
- 损失景观: 这些模型是DeBERTa-vX的变体,它们是基于Transformer的架构。它们的损失景观通常是高维且非凸的。训练的目标是找到一组最小化特定损失函数的权重。
- 损失函数: 对于执行token分类(例如,对每个token的结构角色或错误状态进行分类)的
Segmentext和OCRerrcr,主要的损失函数是交叉熵损失。它衡量模型对每个token的类别预测概率分布与真实类别标签之间的差异。Celadon,毒性分类器,明确使用“自定义加权交叉熵损失函数来处理类别不平衡”。这种加权机制对少数类别的错误分类(例如,通常比无毒内容更稀少的毒性内容)施加更高的惩罚,帮助模型学习更有效地识别这些关键案例。 - 梯度: 在训练过程中,模型使用反向传播来计算损失函数相对于所有模型参数(权重和偏差)的梯度。这些梯度指示了每个参数应该调整的方向和幅度,以减少损失。
- 优化算法: 虽然未明确说明,但通常会使用标准的优化器,如Adam(自适应矩估计)或带动量的SGD(随机梯度下降)。这些算法通过以与梯度相反的方向进行步长来迭代更新模型参数,并按学习率进行缩放。
- 收敛: 当验证集上的损失函数停止显著下降时,模型就收敛了,这表明模型已经学习了训练数据中的底层模式并能很好地泛化。迭代更新通过损失景观移动模型参数,目标是达到局部或全局最小值。
- OCRonos(生成语言模型):
- 损失景观: 作为微调的Llama-3-8B模型,
OCRonos在一个巨大的、复杂的损失景观上运行,这是大型生成式Transformer的典型特征。 - 损失函数: 生成语言模型的主要损失函数通常是下一个token预测损失(也是一种交叉熵)。模型被训练为在给定前面序列的情况下预测序列中的下一个token。在OCR纠错的背景下,这意味着学习从嘈杂的输入序列生成正确、干净的文本。
- 梯度与优化: 与分类模型类似,
OCRonos依赖于反向传播和优化器(可能是Adam或其变体)来更新其参数。模型学习将嘈杂的输入模式映射到干净的输出模式。 - 收敛: 当模型能够可靠地生成高质量、已纠正的文本,这些文本忠实于原始意图,同时又能减轻错误并抵抗不良行为时,模型就收敛了。训练过程迭代地完善模型“重写”降级文本以形成连贯准确形式的能力。
- 损失景观: 作为微调的Llama-3-8B模型,
本质上,这些组件的优化动态是通过迭代地调整这些神经网络的内部参数来最小化它们各自的损失函数,从而提高它们在特定数据策划任务上的性能。这种迭代完善使得管道能够“学会”如何有效地处理和清理多样化、嘈杂的数据。
Figure 2. A schematic world map of languages in Common Corpus with a log-scaled distribution of document counts. For each language, we chose a city that is located in the region where this language is most specific to. To avoid outliers, we show only languages with 10,000+ documents
Figure 3. Temporal and semantic overview of the Common Corpus collections
结果、局限性与结论
实验设计与基线
为了严格验证Common Corpus的效用,作者们进行了一项专注的实验设计。他们训练了两个不同的语言模型,PleIAs 350M和PleIAs 1.2B,两者都基于Llama架构。一个定制的Llama风格分词器,具有65,536个词汇量大小,被开发并训练在Common Corpus的代表性子集上。较小的PleIAs 350M模型在约1万亿 token 的过滤后Common Corpus子集上进行训练,消耗了2,944小时的H100计算资源。较大的PleIAs 1.2B模型在过滤后子集的三个 epoch 上使用完整的Common Corpus进行训练,需要大量的23,040小时H100计算资源。
“受害者”(基线模型)是几个著名的多语言语言模型:Gemma 3(2.7亿和10亿参数)、XGLM(5.64亿和17亿参数)、BLOOM(5.6亿和17亿参数)以及OLMO 1B。这些基线模型混合了在封闭的、非许可数据上训练的模型,或者在OLMO 1B的情况下,在公开发布的数据集上训练的模型。评估使用标准的LM Evaluation Harness在三个已建立的多语言基准上进行:MultiBLiMP、XStoryCloze和XCOPA。此设置旨在提供性能的直接比较,特别强调了仅在许可、伦理策划数据上训练的模型是否能与那些在更广泛、通常法律模糊的数据集上训练的模型相媲美。
证据证明了什么
本文提供的证据明确证明,Common Corpus是一个适合且有效的多语言预训练数据集,它能够在严格遵守法规和伦理规范的同时,促进LLM的开发。核心机制——在海量、多样化且具有许可协议的语料库上进行训练——通过PleIAs模型的性能在现实中得到了验证。
具体而言,在Common Corpus上训练的模型表现出与基线模型相当,甚至在某些情况下优于基线模型的性能。在特别具有挑战性的MultiBLiMP基准上,由于其广泛的语言覆盖范围,PleIAs模型表现出色。值得注意的是,较小的PleIAs 350M模型,尽管规模较小,却能超越大多数1B参数范围的基线模型,除了Gemma 3 1B。此外,两个PleIAs模型持续稳定地超越了OLMO 1B,后者也是在一个公开发布的数据集上进行预训练的基线模型。这是关键证据,因为它直接验证了Common Corpus相对于另一个开源替代品的质量和效用。
除了原始指标,本文还提供了其伦理和质量优势的硬证据。详细的出处、过滤、PII移除、毒性检测和去重过程(如第5节所述)确保了数据不受版权保护或在许可协议下,解决了LLM训练中关键的法律和伦理空白。定性评估,如字符组成指标(图4),证实了数据分布大致在预期范围内,对于代码或监管文本等专业内容存在合理的偏差。定制分词器,PleIAs模型的基础组成部分,也表现良好,仅次于Gemma 3的分词器,后者拥有四倍大的词汇量。这些集体证据表明,Common Corpus不仅是一个大型数据集,而且是一个高质量、符合伦理且有效的训练有竞争力的多语言LLM的数据集。
局限性与未来方向
尽管Common Corpus代表了LLM开发中开放科学的重大进步,但作者们坦诚地承认了几个局限性,这些局限性为未来的研究和发展铺平了道路。首先,尽管其规模庞大(2万亿 token),Common Corpus仍远未涵盖所有可用的开放数据。这种“开放数据悖论”,即有价值的开放内容反而不那么显眼,意味着当前更大的模型需要比Common Corpus本身提供的数据量大得多的数据。
其次,Common Corpus的当前迭代并非为指令微调或特定任务而设计。其主要用途在于预训练,这意味着它不直接适用于在没有附加任务特定数据集的情况下对模型进行微调。这为未来的工作提供了一个机会,可以通过开发利用其多语言、时间、语义多样性的伦理微调数据集来构建Common Corpus。
第三个局限性在于数据策划的固有挑战,特别是对于历史和数字化文本。作者们承认,即使有了他们复杂的“不良数据工具箱”(包括Segmentext、OCRoscope、OCRerrcr、OCRonos和Celadon),实现100%的策划准确性仍然困难。特别是OCR错误仍然是一个相当大的挑战,可能影响模型性能,甚至影响模型如何处理拼写错误。改进这些策划工具,也许通过更先进的AI驱动方法,是一个明确的未来方向。
展望未来,本文的研究结果引发了几个讨论话题:
- 扩大开放数据倡议: 如何克服“开放数据悖论”,使更多具有许可协议的内容对LLM训练可见且可访问?这可能涉及激励文化机构、政府和研究机构的数据共享,或开发新的方法来大规模发现和聚合此类数据。
- 伦理微调与任务特定数据集: 鉴于Common Corpus在多样化、伦理来源的预训练数据方面的优势,社区如何协作构建在同一高伦理标准下的指令微调和任务特定数据集?这需要探索合成数据生成、人机循环标注和联邦学习方法,以创建专用数据集,同时不损害隐私或许可。
- 数据策划工具的进步: 本文强调了OCR错误和其他数据质量问题的持续挑战。我们如何进一步发展像OCRonos和Celadon这样的工具,也许通过整合更先进的多模态理解或利用嘈杂数据上的自监督学习,以大规模实现近乎完美的数据质量?LLM本身能否被训练得对这些不完善之处更具鲁棒性,甚至能更成功地纠正它们?
- 负责任AI中元数据的作用: Common Corpus中对丰富元数据的强调允许用户根据许可、语言和潜在问题过滤数据。我们如何标准化和扩展所有开放数据集的元数据实践,以赋予LLM从业者对其训练数据更大的控制权,从而促进更负责任和透明的AI开发?
- 跨语言和低资源语言发展: Common Corpus的多语言多样性,包括低资源语言,是一个关键优势。如何利用该数据集来突破低资源语言LLM性能的界限,可能减少数字鸿沟并促进更具包容性的AI?这可能涉及迁移学习策略、多语言对齐技术,甚至为优化多样化语言输入而设计的新型架构。
Table 1. Comparison of the contemporary datasets for LLM training
Table 6. Finance Commons sources distribution with languages
Figure 4. Stacked histograms of probability density for qualitative evaluations of Common Corpus on a sample of 300,000 documents. Metric descriptions can be found in Appendix G
与其他领域的同构性
结构骨架
本文提出了一个强大的、多阶段的管道,用于在严格的伦理和质量约束下获取、清理和验证海量、异构数据。
远亲
-
目标领域: 供应链管理
联系: 在全球供应链管理领域,一个持续存在的挑战是确保来自众多国际供应商的原材料和制成品组件的真实性、质量和伦理来源。这通常涉及应对复杂的监管环境、验证认证以及防止假冒或不道德来源的商品流入。本文核心逻辑的细致追踪数据出处、应用多层过滤(针对质量、PII和毒性)以及确保许可协议,与对物理产品“清洁”、“可审计”和“符合伦理”的供应链的需求相呼应。本文描述的“开放数据悖论”,即有价值的开放内容却难以找到和利用,与在碎片化的全球市场中识别真正可靠和透明的供应商的困难产生了共鸣。 -
目标领域: 基因组学与个性化医疗
联系: 在基因组学领域,研究人员通常处理海量的异构生物数据集,包括DNA序列、基因表达谱和患者病历,这些数据通常从各种研究机构和公共存储库中聚合。一个关键的、长期的挑战是确保这些敏感数据的质量、一致性和伦理使用(例如,患者隐私、知情同意),特别是在将其整合用于大规模分析或开发个性化治疗模型时。本文在识别和移除个人身份信息(PII)、纠正数据错误(如文本的OCRonos)以及强制执行不同数据源的适当许可方面的系统方法,直接反映了生物信息学在策划“清洁”、“保护隐私”且“符合伦理”的基因组队列用于医学研究的挑战,在这些研究中,数据完整性和严格的伦理指南至关重要。
如果情景
如果一位供应链管理领域的研究人员“窃取”了本文的精确方程——也就是说,他们采用了其全面的数据策划和验证流程,包括其专用工具——会发生什么?全球贸易的透明度和完整性将发生深刻的突破。想象一下,应用类似Segmentext的模型来自动解析和结构化不同的运输单据、海关申报单和供应商合同,即使是来自扫描的、历史性的文件,无论其原始格式或语言如何。然后,OCRoscope和OCRerrcr可以适应于检测产品ID、数量或原产地声明中的异常或不一致之处,以前所未有的精度标记潜在的假冒品、错误标记的商品或合规性违规。OCRonos可以“纠正”损坏或不完整的数字记录,确保整个供应链中的数据完整性。此外,Celadon的原理可以应用于检测供应商文件和公共记录中“伦理违规”(例如,强迫劳动、环境不合规或不公平贸易行为的指标)。这将带来前所未有的透明度、可审计性和全球商业的合规性,极大地减少欺诈,提高产品安全性,并实现真正“清洁”的供应链,甚至可能创建一个既庞大又可验证的伦理的“全球贸易数据通用语料库”。
结构通用库
本文通过证明严格的数据出处、多层质量控制和伦理合规性的原则并非特定于领域的挑战,而是构建可靠系统的普遍要求,极大地丰富了结构通用库。无论这些系统处理语言、管理供应链还是分析生物数据,都体现了科学问题通过共享数学模式的相互关联性。