2023-03-06 15:56:39 来源:中国经济网
薛菁华 陈广玉
随着新一代信息技术的飞速发展,海量的大数据已经成为国家重要的基础性战略资源,引领着新一轮的科技创新。日前发布的《数字中国建设整体布局规划》高度重视公共数据的作用,提出推动公共数据汇聚利用,建设公共卫生、科技、教育等重要领域国家数据资源库。《上海市全面推进城市数字化转型“十四五”规划》强调“数字化将不断催生科技创新新范式”是正在发生的重要趋势之一。
传统的科研范式面临数字化转型的需要。厘清科研范式发展及数字化转型的过程,摸清上海家底,有助于帮助上海在关键科研领域实现突破,进而在全球的科技博弈中赢得战略主动。《文汇智库》特刊发入选2022年《上海智库报告》的市科委软科学研究项目“科研范式数字化转型国内外对标与实施路径研究”部分研究成果,以飨读者。
科学发展的本质就是科研范式的变革过程
范式的概念最早由美国科学史学家托马斯·塞缪尔·库恩(Thomas Samuel Kuhn)提出,是指科学共同体成员共同接受的理论体系,是把握研究对象的一种思维方法。范式一旦转变,科学家思考问题和观察世界的方法亦会随之改变。而科研范式是指科学共同体为了使日常科研工作高效有序运转所普遍采用的一套规则体系的集合,涉及建制环境、研究路径、评价体系、研究方法、研究工具、技术路线与研究模式等要素,它会受到社会、经济、文化、国际环境以及个体偏好等因素的影响。简单来讲,范式影响科研范式的选择,当两者相匹配时,科技创新活动会呈现出活跃而高产的状态,反之亦然。
科学发展的本质就是“科学革命”的过程,也是科研范式形成、确定、危机、变革和更新的过程。新范式的产生,一方面是因为范式本身的发展,另一方面是由于外部环境的推动。随着信息技术日新月异、颠覆性技术层出不穷、社会环境快速变化,传统的科研范式受到大数据、人工智能、物联网、区块链、云计算等新一代信息技术的影响,科学研究的思维、方法和过程也面临着巨大的挑战。因此,科研范式的数字化转型是科学技术发展的结果,而把握科研范式数字化转型则将大大推动多学科融合发展,提高科学新发现的机会,提升上海科技创新的活力,为上海参与世界前沿科技攻关,解决科技创新“卡脖子”问题做好准备。
科研范式的数字化转型主要集中在数据密集型科学和开放科学两个阶段。2007年,在美国国家科学研究委员会计算机科学与电信委员会组织召开的会议上,图灵奖得主、关系型数据库鼻祖吉姆·格雷(Jim Gray)发表了题为“第四范式:数据密集型科学发现”的主题演讲,在经验科学、理论科学、计算科学三大范式之后,提出了基于数据密集型计算的科学研究第四范式。第四范式实现了由传统的假设驱动向数据驱动的转变,完成了科研范式的数字化转型。
步入大数据时代,数据密集型科学迎来再发展阶段,其研究对象、研究内容进一步延伸,在数字技术的基础上,研发活动向网络化、生态化方向发展,开源开放、知识共享成为新趋势,进而催生出一种更强调包容与合作的新范式——开放科学。2019年和2021年,经济合作与发展组织以及联合国教科文组织(UNESCO)相继在各自的政策文本中表达了“开放科学是科学研究新范式”的类似观点。开放科学是科学研究受到数字化转型影响而产生的一种新范式,旨在实现人人皆可公开使用、获取和重复使用科学知识,增进科学合作和信息共享,并向科学界以外的社会行为者开放科学知识的创造、评估和传播进程。开放获取、开放数据和开放协作是开放科学的三大关键要素。
推动科研范式数字化转型,关键在科学数据管理
随着信息技术的快速发展和信息获取能力的不断提升,全球科技创新已进入以大数据为驱动的数据密集型科研范式以及追求科学过程高透明、高品质和高参与性的开放科学范式。无论是数据密集型科学还是开放科学,科学数据都是核心要素。数据密集型科学最典型的特点便是对海量数据进行挖掘和分析,可以说,数据密集型科学因数据而起源,由数据计算而产生,并依托各项数据的分析与应用而不断发展。开放科学的关键要素中同样涉及科学数据,即开放数据。海量科学数据对生命科学、天文学、空间科学、地球科学、物理学等多个学科领域的科研活动带来了冲击性的影响,科技创新越来越依赖于科学数据的综合分析。因此,要用好科学数据,进一步推动科研范式的数字化转型,关键在于科学数据管理。
当前,科学数据已成为全球科学系统基础设施的重要组成部分。由于科学数据具有学科领域分布广泛、数据结构多样、数据共享困难等特点,科学数据管理的研究和实践活动对整个社会、科研机构或者科研人员来说都具有重要意义。近年来,发达国家不断加大科学数据开放共享的步伐。例如,美国国家科学基金会在2022年9月宣布,计划建立国家级的数据基础设施“开放知识网络”(OKN),进一步扩大科学数据的开放共享及参与研究的机会,支持21世纪科学数据和下一代人工智能的发展,以应对美国面临的复杂的国家挑战。
科学数据资源的妥善使用和管理,既关乎我国科研力量和进步,也关乎国家安全。我国在科学数据管理方面长期以来都是实践先于政策。2018年出台的《科学数据管理方法》是首次在国家层面释放出开放为主的科学数据管理信号。在科研范式数字化转型过程中,我们特别要对可能面临的问题加以警惕,如科学数据大量流入国外数据库,科研人员过度依赖国外数据库等。《数字中国建设整体布局规划》高度重视公共数据的作用,提出“构建国家数据管理体制机制,健全各级数据统筹管理机构”,并强调“增强数据安全保障能力”。
上海推动科研范式数字化转型的优势与路径
全面推进城市数字化转型,加快建设具有世界影响力的国际数字之都,是上海的坚定目标。在此背景下,上海推动科研范式数字化转型势在必行。作为我国经济发展最活跃、开放程度最高、创新能力最强的城市之一,上海一直致力于建设具有全球影响力的科创中心,这为上海推动科研范式实现数字化转型奠定了基石。
第一,创新主体不断向科学最前沿和技术最前端发起挑战,成为推动上海科研范式数字化转型的有力引擎。在沪高校创新策源能力全国领先;国家实验室、中科院在沪院所、新型研发机构及各类平台不断发挥自身特色,加速推进科技创新;企业主体围绕科技创新不断发力,民营企业迸发出前所未有的科技创新活力。这些具有研发实力和能力的创新主体,对科研范式数字化转型都有非常迫切的需求,将成为上海科研范式数字化转型的有力推动者。
第二,创新能力稳步提升在国内外取得重要影响力,成为推动上海科研范式数字化转型的重要实力保障。上海已初步形成世界级大科学设施集群,集聚了以国家实验室为引领的330余家国家级研发机构,在用在建同步辐射光源、硬X射线装置等14个国家重大科技基础设施,设施数量、投资额和建设进度均全国领先。与此同时,上海科研人员在脑科学、量子科技、纳米材料、基因与蛋白等领域取得一批具有国际影响力的原创成果。这些都是上海创新能力在硬件和软件方面获得显著提升的有力证明,也成为上海科研范式数字化转型能得以实现的重要实力保障。
第三,创新环境不断优化加速创新要素不断集聚,成为推动上海科研范式数字化转型的坚实后盾。上海在科创人才引育、金融支持科创、知识产权保护、开放协同创新、创新创业扶持、科技体制改革等重点领域,持续加大政策支持力度,吸引聚集科技创新要素,不断优化创新生态环境。这些举措极大地优化了上海科技创新的整体环境,为上海科研范式实现数字化转型,并不断催生新的科研范式提供肥沃的土壤。
科学数据管理是上海科研范式数字化转型的地基。为了打好这一地基,上海亟待在以下方面加以突破:
在顶层设计方面,抓紧出台地方政策。上海可抓住全市数字化转型的契机,从开放性、规范性、安全性等角度出发,适时研究各地、各领域的科学数据管理规则、标准与共享规范,尽快出台上海科学数据管理的地方细则。
在支持方向方面,注意优势领域齐抓并举。上海可用软硬件齐抓并举的思路,加快推进科研范式数字化转型。一是建设一支由高校、科研机构、企业研发部门、出版机构、大科学装置、研发基地、数据中心、科技情报机构等不同领域的专家组成的高级专家团队,为上海实现科研范式数字化转型出谋划策。二是了解上海科研优势领域相关机构对于数字化转型的需求,加速推进领域内科研范式数字化转型的进程。三是重视上海研发基地、研发平台和大科学装置的数据存算能力设施建设。
在基础设施方面,加紧落实存算一体平台。科研活动专业性极强,科研数据对于保存、分析和利用的要求也相对较高,一般商业云无法满足对科研活动的支撑,因此有必要为科研工作者打造一朵具有存算一体和海量资源开放共享功能的科研“云”。
在人才培养方面,加快建立人才培养体系。数字化转型带来的最大挑战是数字化人才的短缺。应不断提高上海科技工作者的数字素养,为上海的科技创新提供有力的数字技术支撑。可借鉴欧美等发达国家和地区的经验,一是在高校开设“科学数据管理课程”,引入数据教育长期计划,系统化培养数据管理人才。二是为科研工作者开设短期的数据管理培训课程,提升科研人员的数字素养。
在机制保障方面,敢于突破相关体制机制。现阶段可以从科研经费预算设置和专业人员配备两个方面进行突破,打破传统的固有做法,为上海科技创新营造积极向上、健康有序的科研环境。第一,进一步明确科研经费预算编制科目中有关科研云的租赁费用以及相关科学数据处理费用的支出依据。第二,解决高校及科研机构缺乏数字设备运维及数字技术支持的专业人员的问题。
副研究员;正高级工程师)
相关链接
科学研究四个范式
经验科学、理论科学、计算科学和数据密集型科学是科学研究的四个范式。
2007年,图灵奖得主、关系型数据库鼻祖吉姆·格雷在美国国家科学研究委员会计算机科学与电信委员会(NRC-CSTB)组织召开的会议上发表的题为“第四范式:数据密集型科学发现”的主题演讲中指出:经验科学、理论科学、计算科学和数据密集型科学是科学研究的四个范式。
经验科学即第一范式,也称为实验科学,指以实验方法为基础的科学研究模式,在研究方法上以归纳为主,主要模型是科学实验。典型范例包括伽利略的动力学、牛顿的经典力学、哈维的血液循环学等。
理论科学即第二范式,偏重于对理论的总结和概括,用模型、数学公式、算法等表示形式,在研究方法上以演绎法为主。理论科学的主要研究模型是数学模型,典型范例包括数学中的图论、集合论、概率论、数论;物理学中的相对论、圈量子引力理论、弦理论等等。
计算科学即第三范式,是一个与数据模型构建、定量分析方法以及利用计算机来分析和解决科学问题相关的研究领域,主要用于对各个学科中的问题进行计算机模拟和其他形式的计算。计算科学的主要研究模型是计算机仿真和模拟,其典型范例包括:热力学、分子问题、人工智能和信号系统等。
数据密集型科学即第四范式,由传统的假设驱动向基于科学数据进行探索的科学方法的转变。数据密集型科学的主要研究模型包括机器学习与数据挖掘。其典型范例包括所有的大数据实践场景,以及基于大数据的人工智能。
当前,全球科技创新已进入以大数据为驱动的数据密集型科研范式以及追求科学过程高透明、高品质和高参与性的开放科学范式。