北佛罗里达大学(University of North Florida)教授斯图尔特·乔克(Stuart Chalk)博士向AZoM讲述了研究人员和行业在获取科学数据时面临的挑战,他正在进行的研究,以及像SpringerMaterials这样的资源是如何帮助更容易获取科学数据的。亚博网站下载
研究人员在搜索科学数据时,主要的痛点是什么?
有了这样一个由专有数据和开放数据组成的异构和广泛分布的全球网络,研究人员在寻找科学数据时必须处理许多问题。它们大致可分为以下几个领域:
数据访问-个别数据是不可版权保护的,但是数据聚集到一个集合是。此外,这些集合中有些是免费的,有些是受到访问限制或禁运的。因此,在许多情况下,很难真正知道研究人员是否可以合法地获取和使用数据。如果数据以不适当的文件格式(例如PDF文件)发布,访问也会受到限制。最后,许多收集到的数据从来没有发表过——所谓的“黑暗数据”——因此研究人员无法找到。
数据表示 - 如何将数据报在其寻性有很大的影响。像使用期限或逗号简单的事情,表示小数,或测量(它是如何报道)为单位的注释可以阻止搜索。数据可以表征不佳 - 无论是用很少或不准确的元数据(相关信息),以及数据的组织(表V的数据库五世的XML)可以是一个问题。
数据交换——即使研究人员可以获得他们需要的数据,他们的能力“阅读”或上传到他们的特定研究应用程序,以进一步研究它,这可能是一个重要的问题,如果它不是在一个开放的格式。许多数据(例如频谱输出)以专有格式存储,在创建20年后可能无法读取。单个大数据集或大量小数据文件(例如,g大小或更大)可能需要很长时间加载。
哪些计划会处理这些痛点?
有许多小组致力于政策、工具、标准或词汇表/本体,以便将科学数据转移到一个更容易找到的时代。这些包括(但不限于):
研究数据联盟(RDA)是由欧洲委员会、美国国家科学基金会和国家标准与技术研究所于2013年发起的一个社区驱动组织,亚博老虎机网登录以及澳大利亚政府的创新部门,其目标是建立社会和技术基础设施,以实现数据的开放共享。RDA工作组(WGs)关注(例如)“持久标识符(PID)信息类型”、“数据基础和术语”、“小麦数据互操作性”和“研究数据存储库互操作性”,他们的建议正在全球范围内得到采纳。
Force11的前身是“研究通讯的未来”的研讨会,并集中在一个新的出版模式,(包括数据)的发展,为电子时代。引述Force11网站“FORCE11是一个由学者、图书管理员、档案管理员、出版商和研究资助者组成的社区,它以有机的方式帮助促进知识创造和共享的变革。无论是个人还是集体,我们的目标是通过信息技术的有效使用,给现代学术交流带来变化。”
数据公平港倡议是在2014年的一次研讨会上提出的,在那次研讨会上,与会者专注于让科学数据的获取变得公平。公平在这里意味着可查找性,可访问性,互操作性和可重用性,即FAIR数据实现的特质。这些原则已通过一些组织(例如,RDA和FORCE11以上),并已成为打开的数据移动的基础。
皮斯托亚联盟(http://www.pistoiaalliance.org/)正在努力解决生命科学行业的科学数据获取问题。亚博老虎机网登录在竞争激烈的工业环境中,数据就是知识产权(IP),数据集越大,潜在的知识产权就越大。然而,发起联盟的公司意识到,竞争前活动的合作对所有相关方都有好处。联盟项目现在包括化学安全库、大分子层次编辑语言(HELM)和本体映射项目(改进知识语义表示的一致性和识别缺口)。
国际科学理事会:科学和技术数据委员会(CODATA)亚博老虎机网登录为所有科学学科服务,除了负责一致性检查和更新基本物理常数之外,还开展了一些侧重于改善科学数据获取的活动。它们包括(工作组(WG)、工作组(TG)、倡议(I)):
- 统一描述系统v2.0(用于纳米级材料)亚博网站下载
- 标准词汇研究数据管理(铱)(WG)
- 研究数据的法律互操作性(WG)
- 协调科学联盟之间的数据标准(TG)
国际纯粹和应用化学联合会(IUPAC)作为负责数据标准的科学联合会之一,在IUPAC出版物和化学数据标准委员会(CPCDS)下成立了化学数据标准小组委员会(SCDS)。该小组委员会的重点是确定目前化学中使用的标准(如JCAMP、thermol和InChI),以及开发化学界所需的未来标准。此外,IUPAC《化学术语汇编》正在作为化学概念本体的来源进行评估。
美国国家标准与技术研究所(NIST)是美国国家计量研究所(NMI),负责高质量的测量、计量、测量科学和标准参考材料。亚博网站下载亚博老虎机网登录它目前正在启动一个项目,以开发基于QUDT (http://qudt.org/科学单位的)语义表示。一旦实施,科学数据可编带用于自动转换成等效的单位机制国际公认的数字单元。
与所有的活动上面有明确的证据表明学术出版物,因为我们目前了解他们,正在改造 - 转变到数据中心的模式它是重要的(如果不是更多)发表的研究报告已在原始数据的工作是基于上,以便其他人可以评估和重用。此外,工具管理,整合和数据可视化的发展是密切相关的这一变化,因为用户会发现自己不堪重负的数据。这样的一个最近宣布的工具是SpringerMaterials互动,一个系统,允许用户与数亚博网站下载据,我们的研究小组已经从兰多尔特 - 伯恩斯坦系列的体积捕获互动。
你的工作是如何解决这些痛点的?
围绕科学数据访问/发现的基本问题是提供一种机制,将测量的上下文与数据一起传输。历史上,科学家们通过在同行评审的文献中发表研究论文来提供这种机制,然而,鉴于研究所基于的数据的复杂性、范围和规模,这种机制很快被认为是一种糟糕的方法。目前科学家们只发布“重要”的研究数据,通常在一个浓缩(总)形式,如果他们确实提供了一份研究报告的数据是基于通常的格式(如PDF)不适合使用由其他科学家——不公平的格式。
在我的团队中,我们正在努力提供一个框架,允许任何科学数据与其元数据一起表示,但不要求数据的结构或需要一个特定的平台。科学数据的sciddata框架是基于这样一个理念:就像一篇研究论文一样,科学数据和元数据(它的上下文数据)可以被组织成三个基本类别:
- 方法-数据是如何获得的,使用了什么设备app亚博体育
- 系统-数据是关于什么,化学,生物,材料,分子系统(计算化学)
- 数据集-按逻辑组织并与方法和系统类别的信息相联系的数据
连同一些额外的元数据,关于谁做了研究,它是哪个项目的一部分,访问数据的可引用的链接和许可声明,这是关于单个数据的重要信息的简洁表示,一直到基于项目的数据集。
在一个理想的世界里,科学数据库是什么样的呢?最重要的功能是什么?
这是一个非常重要的问题,为了找到答案,我想了很多。传统的数据库是关系数据库,这意味着它们有一个模式(布局),它定义了一个表中的数据如何与另一个表中的数据相关联,通常通过向包含另一个表中某行唯一外键的表中添加一列来实现。这种“僵化”的结构不适用于科学数据,因为它迫使数据转换为可能不适合表示数据的格式。
最近,图形数据库变得非常流行,它基于这样一种思想,即任何信息片段都可以与任何其他信息片段相关联,使用主-谓词-对象(spo) ' triple '(例如,数据点(s) -具有数值(p) - 0.1234 (o);数据点(s) -有单位(p) -克(o))。显然,这个数据库没有结构,因为任何东西都可以关联到其他任何东西,因此这样的数据库中的数据组织可能是异构的——这使得以有意义的方式搜索数据变得困难,因为相关数据可能有不同的特征。
在我看来,答案是定义一个框架(模式),在更抽象的层次上组织数据,允许系统搜索,同时允许以适合数据的方式描述数据和元数据。这是我们在SciData中采用的方法,其中框架可以在关系数据库或图形数据库中实现,因为它是一个混合模型。其成功的关键是使用开放和可取消引用的本体不断开发上下文数据类型的语义(本体论)表示和领域特定知识映射。
您已经或正在对来自IUPAC溶解度数据系列和Landolt-Börnstein图书系列的数字数据进行数字化,这两种数据在各自的领域都是成熟的资源。你在工作中遇到的主要挑战是什么?
这些项目中最困难的部分是开发每种资源的迁移策略。我的意思是,即使数据以相对结构化的格式(例如表格)呈现,人类也会自动理解页面上的信息是如何关联的。以下图为例。除了页面上的数据外,页面的结构还隐含着大量的信息,这些信息需要由计算机来解释。
例如,这个页面包含两个完全独立的数据集,由外部黑盒子表示。在底部的数据集中,化学家可以理解字符串75-69-4是化合物CCl的化学摘要注册号(CASRN)3.F,而R-11很可能是一个商品名,因为这种化合物是氟化的,可能是一种制冷剂(这实际上是氟利昂)。可变温度的单位是开尔文,但在表中没有这些数字,因为温度报告为°C。字符串的100 w1'表示物质1的质量百分比,所以如果你想将其转换为质量分数,你必须将列中的值除以100。虽然在页面中没有说明,但这是一个原始研究数据值,从“原始测量”框中指示的参考,而不是在“10”中的数据4X1 '(摩尔分数)和' 100 w1米1-1”(质量摩尔浓度以摩尔g为单位-1而不是mol kg-1)列由编译器计算。最后,右下角的参考文献是右上方参考的研究文章的“METHOD/APPARATUS/PROCEDURE”部分中的一篇论文。
在Landolt-Börnstein Book Series中,我们处理这个问题的方法是使用正则表达式(regex)来匹配文本字符串及其在页面上的位置与页面上的其他信息。这允许我们将字符串标识为属性和列上的单位、化学公式和名称,以及十进制或科学记数格式的数据。例如,下面的正则表达式可用于确定CASRN格式的数字和连字符字符串。'[0-9] '表示任何数字,'{2,7}'表示从2到7个连续数字的序列,'{2}'表示两个数字的序列。CASRN是否在页面上被正确转录尚不清楚,但可以通过一些在线数据库进行检查。
7 [0 - 9] {2} - [0 - 9] {2} [0 - 9]
这种科学数据的数字化究竟如何帮助研究人员在日常工作中?
多年来,科学家们一直在使用各种不同的实验室信息管理系统(LIMS)、电子实验室笔记本(ELNs)和计算机数据库。一般来说,这些系统的最大缺点是让科学家用一组丰富的元数据来注释数据。这主要是因为这项任务是无聊的,科学家热衷于做研究工作,而不是花大量的时间来正确描述他们的数据,尽管这将使查找和使用数据更容易。如果自动化系统可以用来推断尽可能多的关于研究数据的信息(有一种科学家验证它的方法),那么研究企业就可以变得更有效率和更有成本效益。要真正实现这一点,需要实现三个关键部分
- 将其他系统中的数据自动迁移(翻译和特性描述)到研究者的数据系统中
- 除了原始数据外,仪器数据(来自仪器数据系统)的语义注释,包括仪器的唯一标识符(和相当于序列号的id)和用于收集数据的软件
- 数字研究笔记本(DRN)集成到实验室(以及认证在线系统),并收集仪器和仪器、实验室环境条件、实验室工作流程的照片/视频/音频注释,以及用于样品/溶液/反应制备的设备的数据app亚博体育
在多学科领域(如材料科学)中拥有像SpringerMaterials这样的数据库有什么好处?亚博网站下载亚博老虎机网登录
研究人员在像SpringerMaterials这样的数据库中寻找的是他们在其他数据库中找不到的信息。亚博网站下载换句话说,他们正在寻找他们目前不知道存在的信息,但这可能对他们正在进行的研究很重要。要做到这一点,唯一的方法是,数据库是否包含了一种化学物质的多个不同角度或学科的信息。因此,像SpringerMaterials这样的数据库对于材料研究项目的亚博网站下载长期进展至关重要。此外,如上所述,还需要工具来允许用户充分利用可用数据——可视化大型数据集或集成来自多个数据源的数据。最近推出的施普林格Materials Interactive是一个重要的亚博网站下载步骤,允许来自不同学科的用户利用大型数据集,通过能够基于他们的视角查看数据。
对斯图尔特粉笔
斯图尔特粉笔,教授北佛罗里达大学,是在流分析和环境监测等领域的研究重点培养的分析化学家。在过去的几年里,他变得越来越有兴趣在化学信息学,这是现在他的主要焦点。目前的项目包括:ChemExtractor的发展,语义单位的仓库,以支持科学大数据的发展,IUPAC金皮书项目,以及一个基于网络的教学工具的信息学的设计和开发(ChemCurator)。
免责声明:本文所表达的观点仅代表受访者个人观点,并不代表本网站所有者及运营商AZoM.com Limited (T/A) azonnetwork的观点。本免责声明构成条款和条件本网站之使用。