胡修棉 侯明才 赖文
大数据时代地球科学的机遇
数据是科学发现的源泉和基石。现代自然科学是建立在数据基础上的实证科学,离开数据,就谈不上科学的发展。长期以来由于传播媒介和技术的局限性,科学家的研究成果仅能以主要证据和结论的方式在专著、会议论文或期刊论文等载体上发表,而在科学研究过程中产生的大量直接或间接的数据多被埋没,甚至丢弃,这是一种极大的资源浪费。随着科学技术的快速发展,科学大数据呈现爆发式增长[1]。同时,信息技术的飞速发展,存储和传播成本的一再下降,使得数据和信息的存储、传播所面临的容量桎梏、时间和空间藩篱逐渐被打破,科学数据的公开和分享的技术瓶颈被攻克,操作也变得简单易行。
科学数据共享是科技进步的新动力和社会发展的重要需求。科学数据的共享,一方面可以提高研究结果的可检验性和公信力,另一方面能够扩展科学研究的范围,拓宽科学研究的视角,产生更多的科学知识,还可以为科研以外的生产活动进行开发和利用,产生难以预料的社会和经济价值[2]。正是由于科学数据共享的巨大价值,如何保存、利用科学大数据已经成为全世界科学家所关注的热点问题,也得到各国政府、资助机构、出版机构、科研单位、公众等关注和推动。
鉴于地球系统的高度复杂性,其研究方法和指标体系纷繁庞杂,数据以多种形式呈现,如图形图像、文字描述、数据表格等。长期以来,由于缺乏统一、高效的地质数据存储标准和机制,海量的地质数据散布在出版物中,或者分散地储存在研究者手中,不但无法整合利用,甚至面临消失的风险。正如张旗先生和周永章教授[3]所言:“在大数据时代,地质观测、野外考察能否被数据化,非结构化数据能否转变为结构化数据,是地质能否进入大数据时代科学殿堂的关键。”地质大数据具有多源(元)异构、时空相关性、复杂性与模糊性、地质体的全球性与国家利益等鲜明特点[4]。蓬勃发展的大数据科学为典型的数据密集型学科——地质学带来了前所未有的机遇与挑战。
新尝试:组织《岩石显微图像专题》
长期以来,科学家对岩石显微图像并没有形成统一的标准,迄今也没有统一规格的岩石显微图像数据库。科学家或者科研团队多根据自己的需要和目标来拍摄少量的图像,置于学术论文中或者存放到网络上,作为科研成果的一部分或者教学材料。随着近年来数字图像技术大发展,大规模拍摄和存储岩石显微图像成为了可能。
“深时数字地球”(DDE)是由我国科学家发起的国际大科学计划,以“整合地球演化全球数据、共享全球地学知识”为使命,以推动地球科学研究范式的变革为愿景。出于“抢救”数据、促进数据共享和高效利用的目的,由沉积学工作组和古地理工作组发起,与国内沉积学界、古地理学界同行共同协商,特在《中国科学数据》上组织出版《岩石显微图像专题》,向国内外同仁征集符合标准的岩石显微图像数据成果,专题内容包括且不限于:1)项目产生和获取的未发表的岩石样品显微图像数据集;2)岩石教学样品显微图像数据集;3)已公开发表过的文章中涉及的岩石样品显微图像数据集;4)团队或个人收集的岩石样本显微图像数据集。
图1 《岩石显微图像专题》封面
不积跬步,无以至千里。通过本专题的组织和出版,一方面积累一批统一标准的、高质量的岩石显微图像集,另一方面也是探索地学暗数据的发掘与共享模式。我们期望并号召地学界的同仁,用实际行动投入到地质大数据的共享和利用中来。人人分享数据,人人受益数据。用小小的行动来探索地学数据的共享机制,扩大基础研究数据的深化研究与应用。
本专题包括1篇沉积岩显微图像数据库标准和21篇数据论文。这些数据涵盖了青藏高原、塔里木板块、华南板块、华北板块等太古代以来(约26亿年至现代)的12类岩石5286个岩石样本(图2,表1)。每一个样本包括每一张薄片的显微图像以及基本特征描述。本专题含27张岩石薄片信息表、46个压缩包、19 333张显微照片,数据量超过110 GB。这些岩石样本涉及超过62个岩石单元的129个剖面或钻孔,样品分布在中国的28个省(区、直辖市)以及捷克波西米亚省(表2)。
图2 《岩石显微图像专题》收录的岩石样品类型与数量
表1 《岩石显微图像专题》收录的岩石样品情况
岩类 | 砂岩 | 砾岩 | 粉砂岩 | 泥页岩 | 火山碎屑岩 | 混积岩 | 灰岩 | 白云岩 | 其他内源沉积岩 | 侵入岩 | 火山岩 | 变质岩 | 汇总 |
数量 | 1525 | 80 | 140 | 97 | 35 | 177 | 2526 | 320 | 54 | 81 | 64 | 185 | 5286 |
表2 《岩石显微图像专题》岩石样品地理分布情况
省份 | 岩石样品数 | 省份 | 岩石样品数 |
西藏 | 2109 | 北京 | 24 |
新疆 | 706 | 甘肃 | 16 |
山西 | 468 | 广西 | 16 |
陕西 | 395 | 贵州 | 16 |
四川 | 350 | 云南 | 14 |
河南 | 193 | 江西 | 12 |
安徽 | 155 | 湖南 | 6 |
江苏 | 138 | 吉林 | 3 |
山东 | 320 | 辽宁 | 3 |
湖北 | 113 | 宁夏 | 3 |
内蒙古 | 81 | 青海 | 3 |
浙江 | 57 | 台湾 | 3 |
重庆 | 56 | 天津 | 3 |
河北 | 45 | 捷克波西米亚省 | 3 |
福建 | 27 |
显微岩石图像的价值
面向大数据时代,本专题数据集建设的目的是便于人机共用,既方便人类读取与使用,也利于计算机去读取与利用。前者很好理解,科学家需要更多的数据集来开展对比研究,来用于教学与大众科普;后者是指伴随着图像技术和人工智能技术的蓬勃发展,基于显微图像的交叉研究成为了可能。实现这种计算机和地质学交叉研究模式的一个重要前提,就是要求一定数量的数据集和统一的标准与信息录入格式,这样才能更有效地实现这些数据的整合。从这个意义来讲,本专题数据集丰富了岩石显微图像数据库,一批高质量的图像数据不仅可以满足地学研究人员的需要,也为机器学习与地质学的交叉研究提供了重要的数据样本。
此外,这些岩石显微图像不仅可以作为大众科普教育的素材,成为大众了解地球奥秘的窗口之一,也可以直接用于图像密码或图像验证码的素材,而一些独特且具有神秘色彩的显微照片更是具有一定的艺术观赏与猎奇的价值。
图3 部分漂亮的典型显微图像照片
最后,希望岩石显微图像数据集的出版能起到抛砖引玉的作用。衷心希望有更多的地质数据集得以出版,更多的地质暗数据被发掘与共享。只有高质量的地质大数据不断积累,地质学拥抱数据科学才有可能。相信,这一天不会太远。
专题数据集目录
如需进一步了解或使用各个岩石显微图像数据集,请点击以下数据集链接:
http://www.csdata.org/p/issue/425/