原创 蒋璟鑫 胡修棉等
全篇约4560字,8图,阅读需要8分钟
地球科学大数据研究已成为新的科学前沿
随着科学技术的飞速发展、社会需求的强大驱动、数据生产方式的革新以及数据生产、存储成本的急速下降,人类产生的数据量正在呈指数增长(图1)。爆炸式的数据增长促使人类开启大数据时代新航程。大数据研究已成为科技、经济、社会等各领域关注的焦点,诸多国家已将大数据及其研究上升至国家战略层面。
图1全球数据总量增长和预测情况,1ZB=10244GB(据IDC2018白皮书)
地球科学作为典型的数据密集型研究,正在顺应“第四范式”科学研究的潮流。地球科学大数据研究俨然已经成为地球科学发展的新方向,对推动地球科学的进一步发展以及重大科学现象的解释和认知具有重大意义。
沉积大数据现状与问题
沉积岩(物)是地球表层的主要组成部分,是地球表层演化历史和生命演化过程的重要档案。同时沉积岩(物)也蕴含了人类生存发展的各种自然资源,包括油气,水,金属矿产和建筑材料等。长期以来,无论在科学研究上还是实践需求上,沉积学在地球科学中均占据突出位置,因此研究并揭示沉积物质的特征及规律,是我们打开和了解地质历史的必经之路。
早在上世纪80年代,沉积学家就共同发起了全球沉积地质计划(GlobalSedimentary Geology Program,GSGP),以响应板块学说、古海洋学、古气候学以及沉积学等的快速发展,旨在为开展全球尺度的沉积地质研究提供新的方向、机会和动力。
基于GSGP,沉积学家提出了三大关键性的研究主题:1)全球性韵律和事件;2)全球性演化的沉积学记录;3)全球性的沉积岩相分析,并将“白垩纪地质记录与全球地质作用、资源、韵律和事件”作为第一个试点项目(刘宝珺,1988)。这些重大科学问题的提出成为当时推动沉积学发展的主动力。
近几十年来随着沉积学、地层学、古生物学、沉积地球化学、地质年代学、地球观测等学科的飞速发展,沉积地质学家们积累了海量的沉积学相关的数据。如何高效地整合各类数据,并从中挖掘其潜在价值,成为沉积学家急需解决的新时代课题。
表1国际主要沉积学相关数据库(集)
目前,国际沉积学领域已经建立了大量优秀的数据库/集(表1),这些数据库关注某一类或几类数据,主要依靠人工数字化团队对文献中的数据进行结构化,是利用大数据思维模式来解决区域、小规模和短时间尺度特定沉积学问题的有效尝试。但是在面临全球性、大规模和长时间尺度的综合性科学问题时,这些现有的数据库就存在很多局限及不足之处:
1)规模小,数据形式单一,建设和运营多依赖于单个科学家或科研团队;
2)发展前景有限,运行状态完全依赖于资助项目的情况,一旦资助结束,数据库即更新停滞;
3)数据覆盖不均匀,数据收集过程受科学家自身的研究兴趣及主动性影响;
4)时空分辨率低,无法反映真实的信息;
5)文献和数据库资源不开源,难以进行二次引用和整合。
因此,在当前数据量更大、技术更先进的条件下,有必要建立更高精度、更全面的沉积大数据库,更高效地收集和挖掘沉积地质领域的“暗数据”和长尾数据,进一步探索和理解深时沉积地质的演化过程和机制。
机器阅读为大数据获取提供了可能
利用人工汇编、分析已发表文献数据,是一个非常耗时的过程。因此,亟需建立一个可动态扩展的、可靠的网络基础设施或平台,用以发现、获取和引用已发表文献中的数据。美国科学家建立的Macrostrat,已开发出针对文献的机器阅读技术:Geodeepdive,即自动从已发表文献的文本、表格和图片中锁定并提取有用信息的技术,并且应用这个技术产生了新的结果。例如:Peters et al.(2017)利用Geodeepdive技术研究了北美地区叠层石的时空分布。为了从文献中智能提取叠层石数据,Peters博士及其团队设计如下算法:在文献中搜索Stromatolite(叠层石)及其衍生词汇,对包含这些词汇的语句及其上下语句进行语言处理,提取并记录叠层石词汇及岩石地层名称(视为潜在的产出叠层石的地层单元),在通过可靠性检验后,将文献、短语、地层属性等结构化信息反馈至用户。通过快速分析8000余篇相关文献,将其中出现叠层石的地层统计并投射至Macrostrat地层库中成图,结果表明:叠层石的出现与传统上认为的生物大灭绝并没有明显的相关性,而与白云岩总量的增长有很强的相关性(图2)(Peters et al.,2017)。
图2叠层石与白云石演化趋势图(左);叠层石与物种演化趋势图(右)
(据Peters et al.,2017)
基于沉积大数据研究的三个实例
以美国科学家建立的Macrostrat数据库为代表,沉积地质学家尝试性地探讨了全球尺度科学问题,如沉积物质循环、岩性时空分布、深时CO2含量的驱动机制等。
【沉积物质循环】
沉积物质能够真实地记录地球表层圈层和构造演化过程,并且是气候演化、生物演化的唯一岩石学载体。因此研究沉积物质的总量、类型、通量、时空分布规律对于研究地球表层各圈层动态演化和探讨大尺度时空模式下构造、气候和生物演化具有重要意义。
近年来,美国Shana n.E Peters团队对北美地区22282个地层单元进行了定量化处理,针对沉积物质循环问题展开了深入研究(Husson and Peters,2017;Peters and Husson,2017)。沉积物质总量随着年龄变老呈指数降低,但不同沉积环境的岩石具有不同的指数拟合程度(图3)。深海相和非海相沉积物具有随时间变老,呈指数衰减的规律,主要因为其保存受侵蚀作用的影响;浅海相具有多峰分布的特征,主要因为浅海相沉积物分布面积广、数量大、成因多样,其保存受多方面因素的控制。
图3北美地区沉积物质循环(据Peters and Husson,2017)
若将时代限定在显生宙,沉积物质循环问题则更加复杂且有趣。如图4所示,在岩相组成方面,古生代沉积岩以碳酸盐岩为主,至中-新生代则几乎完全变为陆源碎屑岩,研究者将这种转变解释为劳伦大陆从低纬向高纬的移动;此外,沉积物总量在二叠-三叠纪之交出现明显的脉冲,可能与超大陆的旋回相关(图5)。更加有趣的是,显生宙沉积物变化与生物演化存在明显的相关性,沉积记录的间断与生物灭绝事件具有正向协变的关系(图5、6),这种协变关系可能是沉积和生物系统对地球系统演化的共同记录和反馈(Heim and Peters,2011;Peters and Heim,2010,2011)。
图4显生宙北美地区沉积岩相绝对丰度的时间序列变化图(据Peters,2006)
图5沉积物、海相生物(Hannisdal and Peters,2011)与板块演化之间的关系。板块碎片化指数来源于以百万年为单位的EarthByte古地理重建模型(据Zaffos et al.,2017修改)
图6总物种丰度(黑线)与沉积物总量(阴影)的时间序列演化图(据Peters,2005)
【岩性时空分布】
沉积岩(物)占据了现代地球表面约70%的面积,是地球表层的重要组成部分。但是沉积岩的时代和空间分布是不均匀的(图4),某些沉积岩只在某一特定时期出现并可作为这一时期的特征,可以称其为沉积记录中的“时装”,例如条带状含铁硅质建造只出现在前寒武纪晚期;相似地,某些沉积岩只出现在一定的纬度范围内、气候背景下或特定的沉积环境中,例如铁质鲕粒岩多出现在温室气候背景下(Van Houten,2000)。了解诸如煤、黑色页岩、蒸发岩等特殊沉积岩的时空分布特征有助于我们认识整个地球的历史演化,同时为开发矿产资源提供重要依据。
以气候敏感性沉积岩石为例,传统上认为煤、蒸发岩等古气候指针的古纬度分布自二叠纪以来基本保持一致,从而得出大气和海洋环流控制其分布而不是纬向温度梯度控制(Ziegler et al.,2003)。Boucot et al.(2013)基于约2600篇文献数据和古地理数据重建了晚古生代以来的气候敏感性沉积岩石的时空分布,Cao et al.(2018)对这些数据进行了深入分析发现了不同于传统的认识:即煤的沉积在二叠纪开始时由低纬地区明显变为高纬地区;蒸发岩在多数地质时期具有南北纬对称分布的特征,沉积纬度较为稳定;冰川沉积的纬度和冰室期(较低纬)、暖室期(较高纬)交替相一致(图7)。这一结果表明气候敏感性岩石并非在固定纬度分布,不能直接用来重建古纬度。
图7气候敏感沉积物古纬度分布,蓝色线代表纬向分布峰值,蓝色阴影代表50%置信区间,灰色代表95%置信区间(据Cao et al.,2018)
【深时CO2含量的驱动机制】
众所周知,CO2是最常见的温室气体之一,其含量受大气圈、水圈、生物圈和岩石圈的共同控制。自工业革命以来,人类活动产生大量的CO2,使得这个控制体系更加复杂。因此,要讨论当前升温是否是人类排放的CO2的气候效应所致,需要了解地质历史CO2含量的驱动机制。
为了解决这一问题,McKenzie et al.(2016)统计并分析了全球自成冰纪以来的120000个单颗粒碎屑锆石年龄,这些碎屑锆石均来自于靠近弧火山的沉积碎屑岩,因此锆石年龄峰分布可以代表岩浆弧的活跃程度。温室时期,年轻锆石所占比例较高,具有较高峰值;冰室时期年轻碎屑锆石所占比例低,老锆石居多;最明显的是成冰纪,几乎不形成年轻锆石年龄峰。这表明:碎屑锆石的产生、大陆岩浆弧的分布以及气候变化之间存在千丝万缕的联系。
冰期的出现对CO2含量需求低,McKenzie et al.进一步通过对比年轻锆石的平均年龄、峰值频率、超大陆结构以及模拟的CO2含量(图8)发现:超大陆裂解时期,产生大量的年轻锆石,大陆弧岩浆活动增强,同时期的去气作用使大气CO2含量升高,地球步入温室时期,如潘基亚大陆裂解时,地球进入了长期两极无冰的温室气候环境;相反,超大陆聚合时期,大陆弧岩浆活动减弱,大气CO2含量相对降低,地球步入冰室时期,如罗迪尼亚超大陆裂解之前,为“雪球地球”时期。即至少从24亿年开始(罗迪尼亚超大陆形成期),大陆弧岩浆作用释放的CO2为地球长期气候变化的主要驱动力。
图8年轻锆石的平均年龄、峰值频率、大陆结构以及模拟的CO2水平
(据McKenzie et al.,2016)
研究展望
随着地球科学的飞速发展,人工数据分析手段已无法及时“消化”和适应数据的快速增长,因此以“数据”为本,建立高效、统一的大数据平台是地球科学发展的必经之路。可以预见在不久的将来,大数据必将彻底改变地质学家的思维方式,“数据驱动的科学发现”模式必将为地质学的发展带来全新的未来。大数据、机器阅读、人工智能都将在地球科学的研究和发展方面起到重要的作用。身在这个时代,我们要做的是抓住机遇,勇做时代的弄潮儿,拥抱地球科学的大数据时代。
深时数字地球计划(Deep-time Digital Earth,DDE)就是诞生于这样的大数据背景之下,它的目标是建设开放、共享、统一的大数据平台,为全球尺度重大科学问题的研究提供契机。通过对沉积学领域内大数据整合和应用的深度调研,作者建议DDE大数据平台的沉积学应用方面应当聚焦沉积学重大科学问题,有的放矢地进行数据的整合、分析、挖掘并预测;建立统一的时空框架和数据管理规则,高效整合复杂多元的沉积学数据;积极开发文本、图表信息挖掘技术,实现更加高效的机器阅读技术体系。
本文第一作者系南京大学地球科学与工程学院博士生
本文纯属作者本人理解,欲知更多详情,请阅读相关原始文献。
主要参考文献
【1】Cao W C, Williams S, Flament N et al. 2018. Palaeolatitudinal distribution of lithologic indicators of climate in a palaeogeographic framework[J]. Geological Magazine, 156(2): 331-354.
【2】Keller C B, Husson, J M, Mitchell R N, et al. 2019. Neoproterozoic glacial origin of the Great Unconformity[J]. Proc. Natl. Acad. Sci. U.S.A. 116: 1136–1145.
【3】McKenzie N R et al., 2016. Continental arc volcanism as the principal driver of icehouse-greenhouse variability[J]. Science, 352: 444-447.
【4】Peters S E. 2006. Macrostratigraphy of North America[J]. Journal of Geology, 114(4): 391-412.
【5】Peters S E and Husson J M. 2017. Sediment cycling on continental and oceanic crust[J]. Geology, 45(4): 323-326.
【6】Peters, S E, Husson J M and Wilcots J. 2017. The rise and fall of stromatolites in shallow marine environments. Geology, 45: 487-490.
【7】蒋璟鑫,李超,胡修棉.2020.沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例[J].高校地质学报,26(1):027-043.DOI:10.16108/j.issn1006-7493.2019102