【目的】全面阐述基因组学数据分析方法的现状和未来发展趋势,为精准医学、精准育种、生物安全、生物多样性、分子进化等的相关组学数据分析算法的研究与工具开发提供参考。【结果】基因组学数据分析主要包括基因组、转录组、表观组数据分析,当前基因组学数据主要面临着海量、多维、异构等挑战。本文详细地阐述了基因组学数据分析算法和工具开发的现状、应用、存在的问题和面临的挑战。【结论】充分利用人工智能、统计模型、知识图谱等先进技术,不断地优化和开发更先进的算法和更鲁棒的模型,使其兼具高容错、高准确、高效、计算资源低耗等优点,匹配海量、多维、异构基因组学大数据分析的需求,是未来基因组学数据分析算法和工具开发的方向。
【目的】在大数据驱动和信息技术支持下,使得资源科学综合研究这一学科灵魂问题的突破和解决成为可能,催生和促进资源科学的新发展,促进资源学科领域的创新应用。【方法】基于资源学科领域需求,阐述了资源学科领域数据分析技术前沿,包括资源遥感监测、资源调查、资源网络挖掘以及资源综合分析等技术。以中国科学院“十三五”信息化专项科学大数据工程项目“大数据驱动的资源学科创新示范平台”为例,展示其典型应用架构。【结果】基于应用案例,展现了中蒙俄经济走廊交通与管线生态风险防控、京津冀资源环境承载力评价、大数据驱动的美丽中国全景评价三个典型资源学科领域科研活动应用中的大数据驱动场景。【结论】大数据驱动的资源学科领域数据分析技术具有巨大潜力且已有部分应用展示,但仍需要更多适应资源学科领域发展的新方法和新模式,促进其向综合科学研究的范式转变。
【目的】随着科学大数据技术的发展,问题导向的数据端分析成为常态。科学数据处理以云计算的形式跑在数据端,并提供安全的用户访问方式、可选的算法资源库、高效的数据存取接口、便捷的用户交互工具、有效扩展的计算和存储资源,将有力提升科学家的数据分析探索效率。【方法】本文提出一种基于容器技术的科学数据端云分析服务管理引擎设计方案:资源节点以自动注册的方式进行横向扩展,资源节点可以是物理主机或虚拟主机;当在用资源达到阈值,管理节点通过接口启动资源节点的注册,同时资源入池;可选的算法资源库、高效的数据和计算访问接口均以容器镜像的方式进行版本控制,在构造资源池时选用。容器实例池的健康度在节点内部进行维护,根据用户的最长使用时间、静默时间等进行实例生命周期管理;内部资源池的容器实例有准备中、准备好、使用中、消亡中几种状态,并始终维护资源池的固定大小。用户认证访问时,根据用户的领域算法库的选择和资源池的使用率进行新用户资源的接入,并通过代理配置提供唯一的标识入口以供用户访问;用户以安全加密的网络访问方式访问交互编程组件或交互应用组件,即可使用数据端的数据资源和计算资源。每个交互组件均在独立的容器实例中,可以进行有效的资源隔离。【结果】基于以上科学数据端云分析服务管理引擎构建的交互分析云服务系统IA(Interactive Analysis Cloud Service System)V1.0,实现了科学数据端云分析资源的统一管理服务,可以通过服务门户直接面向终端科学家使用,也可以通过API接口以docker容器交付的方式给其它现有数据系统调用。已逐步构建生命健康、生态环境、气象水文等领域的科学数据端云分析服务,已应用于中国科学院战略先导专项A、中国科学院战略先导专项B、国家烟草专卖局重大专项等重大项目;已应用于国家微生物科学数据中心、国家空间科学数据中心等国家科学数据中心;已应用于地理空间数据云、DarwinTree分子数据与应用环境等领域公共平台。并提供面向R、TensorFlow、Data Science、All Spark等的常用工具服务,用户可以https的方式访问交互编程组件(iJupyter)或交互应用组件(iWorkflow),即可使用数据端的数据资源和计算资源。
【目的】高能同步辐射光源(HEPS)是我国“十三五”期间优先建设的、为国家的重大战略需求和前沿基础科学研究提供技术支撑平台的国家重大科技基础设施,开展超高空间分辨、时间分辨、能量分辨的高通量同步辐射实验。其一期建设的十五条光束线实验站,预计平均每天产生200TB的原始实验数据,峰值可达每天500TB。这些实验数据需要得到存储、共享,并能够进行准确实时的处理与分析。【方法】科学数据处理平台包括基础设施、科学软件、网络、计算、存储、公共信息服务等系统。【结果】该平台将为HEPS设施、科研人员、工程技术人员以及用户提供包括设数据传输、数据存储、数据分析、数据共享、科研协同等在内的网络、计算、存储等基础设施能力,以及提供科学软件、通用软件、通用信息系统和网络信息安全服务等。
【目的】除了提供总体评分,多方面评分系统还可以提供更详细的方面评分,因此它可以帮助消费者更好地理解商品和服务。通过对多方面评分系统评分模式的建模,我们可以更好地发现潜在的评分组以及定量地理解这些评分组的评分行为。另外,这种建模也可以帮助服务提供者更好地改进他们的服务以吸引更多消费者。但是,由于多方面评分系统的复杂特性,对它的建模存在很多挑战。【方法】为了解决这些问题,本文提出了一种两步框架来从多方面评分系统中学习评分模式。详细地说,我们首先提出一种多分解关系学习方法(MFRL)来得到用户和商品的方面因素矩阵。在MFRL中,我们将矩阵分解,多任务学习和任务关系学习引入到同一个优化框架内。然后,我们将MFRL学习得来的用户和商品向量表征作为输入,通过高斯混合模型来构建组与组之间总体评分预测。【结果】我们在真实数据集上验证了提出的研究框架。大量实验结果表明我们提出的方法的有效性。【结论】用户异质性会潜在地影响用户的评分行为,因此在对个体及团体的评分行为进行建模时,要充分考虑到目标异质性带来的影响。
[目的]随着“大数据”时代的来临,大数据技术由于可显著加速材料研发,已经成为材料科学研究者关注的热点技术之一。基于材料数据库平台的材料大数据技术更是成为“材料基因工程”的三大核心技术之一。因此,材料数据库建设对于加速新材料的研发至关重要。[方法]本文通过对国内外材料科学数据库的建设及应用的概括和总结,并结合材料科学数据库的发展趋势,提出了未来的研究方向。[结果]材料基因组(工程)理念的提出和大数据技术的快速发展,促进了国内外大量材料科学数据库的建立。相较国外而言,国内的材料科学数据库建设相对较晚。但在“十三五”国家重点研发计划专项的支持下,我国材料科学数据库平台建设有望在未来几年内取得初步成效。[结论]材料科学数据库的建设已经成为材料基因工程技术发展进程当中一种不可或缺的要素,但在数据库建设和应用过程中还存在很多困难亟待解决,材料科学数据库的发展仍任重道远。
【目的】大数据以其独特的数据科学思维为地学研究知识发现带来重大机遇,但地学数据独特的多源异构、时空关联、多尺度和不确定性等特征亦给地学大数据处理带来一系列挑战。【方法】本文在分析地学数据特点基础上,结合数据关联、中间件系统、微服务及容器等技术手段,提出一种面向地学大数据的处理框架,重点解决地学领域多源数据汇集融合、异构数据综合集成处理问题,并将地学模型引入框架,增强数据处理的地学专业性。【结果】框架及其关键技术已在国家冰川冻土科学数据中心建设、高寒环境联合观测研究云及中巴走廊灾害数据集制备中应用实施。【结论】地学大数据平台处理框架拓宽数据处理维度,可为多主题、多尺度地学研究分析和知识发现提供支撑,未来框架将适应互联网、社交网络、平面媒体等更广泛来源的地学数据处理,进一步融合人工智能技术,提供更智能更迅捷的地学数据处理结果。
【目的】农业是大数据技术应用的重要领域。本文旨在综述大数据在农业领域的应用重点和方向,对农业大数据关键技术进行思考,推动农业大数据发展。【方法】对大数据技术进行整体介绍,从精准农业、农业物联网、农业遥感等关键领域提出了农业大数据发展需求和特点。【结果】从政府和学术角度,对农业大数据内涵和特征进行整理,介绍了农业大数据获取、管理和处理相关关键技术,分析了大数据精准农业智能控制、大数据农业生产环境监控、大数据农情遥感监测预警等应用现状和特点。【局限】作为大数据应用的重要领域之一,农业大数据在数据平台、管理机制、技术支撑等方面有待进一步加强。【结论】农业大数据将是下一步农业农村创新发展的重要方向,将会对重塑农业生产关系、构建农业信息化生态系统、完善乡村治理体系、助力绿色农业发展等起到重要作用。
【目的】本文针对农业病害图像识别问题,探讨在不同数据规模条件下融合不同的机器学习方法,以提高农业病害图像识别准确率。【方法】重点围绕农业病害图像数据规模较小条件下的机器学习建模问题,引入深度迁移学习方法,通过具体实验探讨如何提高小样本条件下的建模效果。【结果】在高质量的农业病害图像数据集上,引入深度迁移学习方法能够有效提高农业病害图像识别准确率。【局限】在基于深度神经网络的机器学习方法中,农业病害图像数据集的质量及规模对于建模效果均有一定的影响,未来将进一步探索在数据质量和规模等方面具有更佳普适性的建模方法。【结论】在农业病害图像识别技术研究中,引入深度迁移学习方法能够有效提高小样本条件下的机器学习建模效果以及最终的病害图像识别准确率,可为后续构建各种农业病害图像识别系统平台提供良好的技术支撑。
【目的】目前,现有的基于深度学习的检测算法针对小目标的检测效果较差。本文旨在通过充分考虑小目标的特点来提升小目标的检测与识别性能。【方法】本文从不同方面来提升小目标检测与识别,其中包括特征融合、上下文学习和注意力机制。针对小目标特征难以提取问题,提出一种双向特征融合的方法。另外,鉴于小目标特征不明显问题,提出一种利用上下文信息来提升检测性能的方法。更进一步,为了更好地识别小目标的类别,提出一种注意力转移的方法。【结果】实验结果表明,我们提出的方法在公共数据集上均显著地提高了小目标的检测和识别性能。【结论】研究特征融合、上下文利用和注意力机制的方法对于提升小目标检测与识别是非常有价值的。
【目的】分布式测试框架是一种通过集群进行大规模测试的方法,它通过中控系统对大量廉价主机进行控制,使其以一种标准化模式进行工作,对于规模庞大的待测试系统具有重要的现实意义。【方法】文章首先介绍了分布式执行集群部署方案和管理中控架构,设计了包含三个实现模块的测试框架流程。然后介绍了分布式测试框架的软硬件环境和对象云存储系统架构,最后通过对象云存储系统进行单桶测试和吞吐量测试。【结论】测试结果表明,面向云存储服务的分布式测试框架具有快速、多模式、高效等特性,有效满足大规模测试系统的性能要求。
【目的】联合国可持续发展目标(Sustainable Development Goals ,SDGs)已经成为全球最重要的可持续发展问题。然而,SDGs指标相关数据高缺失率的现状严重影响了联合国对各国可持续发展目标实行过程的有效监测。研究如何对SDGs中的相关缺失数据进行补全具有重大的技术挑战,也对鞭策各国完成可持续发展目标具备重大意义。【方法】本文提出了一种融合MIC(最大信息系数)进行特征选择的迁移学习方法TLM(一种融合最大信息系数和迁移学习的方法),其能通过其它公开数据为目标变量构造特征,并联合相关回归技术建立数据预测模型,以达到对目标变量的缺失值进行预测的目的。【结果】本文以特定国家中SDGs指标3.2.1的数据集为例,使用TLM方法对目标变量的缺失值进行预测并补全,验证了TLM方法的有效性。【局限】由于影响SDGs指标的波动因素众多,因此,探索更多相关性分析方法并结合TLM方法对缺失值进行更加精确的预测是今后进一步研究的重点方向。【结论】结合了MIC和迁移学习的TLM方法能提升数据预测的准确率,可为SDGs相关领域工作者在处理数据缺失问题时提供重要的参考价值。
【目的】本文在多GPU平台上,对基于快速多极子方法(FMM)和粒子网格方法(PM)的天文N体模拟软件PHoToNs的核心函数进行CUDA加速实现和性能优化。【方法】主要优化方法包括算法的参数优化、页锁定内存和CUDA流优化、混合精度和快速数学库优化等。【结果】优化后的短程力相互作用核心函数在Titan V的GPU平台上采用4张GPU卡的计算速度相对采用4个Intel Xeon CPU核提高了约410倍。【结论】本文的优化技术可为其它高性能GPU异构平台上的进一步算法研究和超大规模天文N体模拟提供支撑。
主管:中国科学院
主办:中国科学院计算机网络信息中心
科学出版社有限责任公司
出版:科学出版社有限责任公司