查礼,男 ,现任中国科学院计算技术研究所副研究员,网络科学与技术重点实验室系统软件组组长。 主要研究方向是分布式系统及大规模数据计算,包括分布式系统软件体系结构,大规模分布式资源管理及任务调度,大规模数据计算系统等。2007年以来,作为技术总负责人参与国家863计划课题“中国国家网格软件研究与开发”,负责软件总体设计和核心技术研发。参与XtreemOS,OMII-EU/OMII-UK欧盟第六框架和英国e-Science国际合作项目。是Hadoopin China开源社区(www.hadooper.cn) 发起人,Hadoopin China2008~2011大会组织者。
教育及工作经历:
2003年获北京理工大学计算机科学与技术系工学博士学位。
2003年1月至今在中科院计算所工作,研究组长、副研究员。现任网络科学与技术重点实验室系统软件组组长。
招生专业
081201-计算机系统结构
081202-计算机软件与理论
招生方向
分布式系统
研究方向:
分布式与网格计算系统、分布式系统软件、分布式资源管理及调度、分布式系统性能分析等。研究重点是大规模分布式资源管理和调度,包括资源命名和组织,策略管理等。
承担科研项目情况:
作为课题负责人承担多项国家科研课题和国际合作研究项目。
1、大规模分布式数据存储与分析系统技术, 主持, 国家级, 2011-01--2012-12
2、大规模数据计算与服务平台, 主持, 国家级, 2013-01--2015-12
3、高性能计算环境应用服务优化关键技术研究-子课题, 主持, 国家级, 2014-07--2016-12
4、大规模半结构化数据管理关键技术及系统, 主持, 国家级, 2016-06--2019-06
5、国家高性能计算环境构建与资源提升关键技术研究, 主持, 国家级, 2016-06--2018-06
6、国家863计划“中英网格试验平台核心技术及应用研究”子课题。
7、科技部科技大平台“国家网络计算环境平台建设”子课题。
8、英国e-Science计划“ICTGridSAM”、“EMeRGE”项目等。
9、作为课题技术总负责人参与国家863计划“中国国家网格软件研究与开发”课题,负责CNGrid GOS总体设计,软件开发和课题协调工作。
科研成果:
曾获2007年度国家科技进步二等奖。
发明专利:
|
专利名称 |
发明人 |
申请人 |
来源数据 |
申请日 |
公开日 |
1 |
一种分布式文件系统的自适应压缩方法及系统 |
查礼;王锐坚;王超 |
中国科学院计算技术研究所 |
中国专利 |
2016-01-18 |
2016-06-29 |
2 |
一种特定分布式数据存储文件结构去冗余构造方法及系统 |
查礼;谷靖宇 |
中国科学院计算技术研究所 |
中国专利 |
2016-01-20 |
2016-06-29 |
3 |
一种面向虚拟机群应用的虚拟节点配置方法,专利号: 201310403402.1 |
查礼;林健;鲁小亿;王锐坚;程学旗 |
中国科学院计算技术研究所 |
中国专利 |
2013-09-06 |
2013-12-25 |
4 |
提高顺序表性能方法、系统、架构、优化方法及存储装置,专利号: 201510462899.3 |
查礼;刘威 |
中国科学院计算技术研究所 |
中国专利 |
2015-07-31 |
2015-11-11 |
5 |
一种面向分布式顺序表的缓存方法及系统,专利号: 201510463230.6 |
查礼;郑忠诚;程学旗 |
中国科学院计算技术研究所 |
中国专利 |
2015-07-31 |
2015-11-11 |
6 |
分布式顺序表片内二级索引方法及系统,专利号: 201410345063.0 |
查礼;万浩;程学旗 |
中国科学院计算技术研究所 |
中国专利 |
2014-07-18 |
2014-11-05 |
7 |
网格计算环境下应用软件的封装集成方法 |
刘杰;查礼;程伯群;乔健;许小亮;彭娟 |
中国科学院计算技术研究所 |
中国专利 |
2009-04-28 |
2010-11-03 |
8 |
一种分布式文件系统上基于硬件加速卡的压缩解压缩方法 |
刘佳;胡肖;查礼 |
北京普泽天玑数据技术有限公司 |
中国专利 |
2012-12-05 |
2013-04-03 |
9 |
一种对服务请求调度的方法和系统 |
刘佳;胡肖;查礼 |
北京普泽天玑数据技术有限公司 |
中国专利 |
2012-12-05 |
2013-04-03 |
10 |
一种分布式系统动态应用隔离的方法和系统 |
刘佳;胡肖;查礼 |
北京普泽天玑数据技术有限公司 |
中国专利 |
2012-12-10 |
2013-04-17 |
11 |
一种分布式顺序表的数据导入方法及其系统 |
刘佳;万浩;查礼 |
北京普泽天玑数据技术有限公司 |
中国专利 |
2012-12-14 |
2013-05-01 |
12 |
一种对分布式顺序表进行多维区间查询的方法及其系统 |
刘佳;谷靖宇;查礼 |
北京普泽天玑数据技术有限公司 |
中国专利 |
2012-12-05 |
2013-04-03 |
13 |
一种分布式顺序表权限控制方法及其系统 |
刘佳;王锐坚;查礼 |
北京普泽天玑数据技术有限公司 |
中国专利 |
2012-12-17 |
2013-04-03 |
14 |
一种多维区间查询方法及系统,专利号: ZL201010205946.3 |
邹永强;刘佳;查礼;王世才 |
中国科学院计算技术研究所 |
中国专利 |
2010-06-12 |
2010-10-20 |
15 |
一种网格文件处理方法及其处理设备,专利号: ZL200810114496.X |
岳强;徐志伟;查礼;谭良;周浩杰 |
中国科学院计算技术研究所 |
中国专利 |
2008-06-06 |
2008-10-22 |
代表论著:
1 PACM: A Prediction-based Auto-adaptiveCompression Model for HDFS, IEEE International Workshop on High-Performance Big Data Computing In conjunction with The 30th IEEE International Parallel and Distributed Processing Symposium (IPDPS 2016), 2016, 第 4 作者
2 An Uncoupled Data Process and Transfer Model for MapReduce, Transactions on Large-Scale Data- and Knowledge-Centered Systems (TLDKS) XVII, 2015, 第 1 作者
3 DataMPI: Extending MPI to Hadoop-like Big Data Computing, The Proceedings of the 28th International Parallel and Distributed Processing Symposium (IPDPS ’14), 2014, 第 4 作者
4 A Text Clustering Approach of Chinese News Based on Neural Network Language Model, International Journal of Parallel Programming, 2014, 第 3 作者
5 天玑大数据引擎及其应用 查礼; 程学旗 集成技术 2014/04
6 Consolidated cluster systems for data centers in the cloud age: a survey and analysis, Frontiers of Computer Science, 2013, 第 2 作者
7 Uncoupled MapReduce: a Balanced and Efficient Data Transfer Model, The Proceedings of the 15th International Conference on Data Warehousing and Knowledge Discovery (DaWaK 2013), 2013, 第 4 作者
8 基于Hadoop的大数据计算技术 查礼 科研信息化技术与应用 2012/06
9 Can MPI Benefit Hadoop and MapReduce Applications, the Proceedings of the International Conference on Parallel Processing Workshops (ICPPW), 2011, 第 3 作者
10 Vega LingCloud: A Resource Single Leasing Point System to Support Heterogeneous Application Modes on Shared Infrastructure, The Proceedings of the 9th IEEE International Symposium on Parallel and Distributed Processing with Applications, 2011, 第 3 作者
11 凌云体系结构及关键技术研究 鲁小亿; 林健; 查礼 计算机研究与发展 2011/07
12 A layered Virtual Organization architecture for grid, The Journal of Supercomputing, 2010, 第 2 作者
13 CCIndex: A Complemental Clustering Index on Distributed Ordered Tables for Multi-dimensional Range Queries, The Proceedings of IFIP International Conference on Network and Parallel Computing , 2010, 第 4 作者
14 CNGrid GOS批作业系统的易用性研究与实现 程伯群; 刘佳; 彭娟; 查礼 华中科技大学学报(自然科学版) 2010/S1
15 CNGrid GOS安全:设计与实现 喻林; 邹永强; 查礼 华中科技大学学报(自然科学版) 2010/S1
16 基于实时数据的钻井作业指导系统 王魁生; 查礼; 屈展 计算机工程 2009/07
17 计算机系统变革性研究的4个问题 徐志伟; 李沛旭; 查礼 计算机研究与发展 2008/12
18 网络计算系统的分类研究 徐志伟; 廖华明; 余海燕; 查礼 计算机学报 2008/09
19 中国国家网格作业管理设计与实现 乔健; 查礼 计算机应用 2008/08
20 A Layered Virtual Organization Architecture for Grid, Yongqiang Zou, Li Zha , et. al., PDCAT2008, Dunedin, New Zealand, 2008.12(best paper award)
21 基于社区的服务网格多粒度授权与访问控制研究 徐京京; 代红雷; 查礼; 徐志伟 计算机应用研究 2006/07
22 基于W3C用例的VEGA GOS分析和评测 沈铮; 陈朔鹰; 查礼; 刘昌树 计算机工程与应用 2005/15
23 面向服务的织女星网格系统软件设计与评测 查礼; 李伟; 余海燕; 蔡季萍 计算机学报 计算机学报,2005,Vol.28(4), pp. 495~504.
24 System Software for China National Grid, Li Zha, Wei Li, et. al., IFIP International Conference on Network and Parallel Computing (NPC 2005), LNCS 3779, pp. 14~21.
25 织女星网格路由器的应用与改进 谈恩华; 查礼 计算机研究与发展 2004/12
26 Vega Hotfile——一种网格文件管理协议的设计与实现 曹立强; 查礼; 余海燕 计算机研究与发展 2004/12
27 网格用户管理体系结构的研究与设计 刘利民; 查礼 计算机研究与发展 2004/12
28 Vega: A Computer Systems Approach to Grid Computing, Zhiwei Xu, Wei Li, Li Zha, Haiyan Yu, Donghua Liu, Journal of Grid Computing, 2004, Vol.2, Issue 2: 109~120.
29 网格环境中资源发现机制的研究 董方鹏; 龚奕利; 李伟; 查礼 计算机研究与发展 2003/12
30 一种面向服务的网格作业管理机制 余海燕; 查礼; 李伟 计算机研究与发展,2003, Vol.40(12), pp.1770~1774.
31 网格环境下一种有效的资源查找方法 李伟; 徐志伟; 卜冠英; 查礼 计算机学报 2003/11
32 数据和计算密集混合元任务的网格调度算法 查礼; 徐志伟; 林国璋; 刘玉树 ,计算机工程与设计,2003, Vol.24(10), pp.1~4.
33 基于Simgrid的网格任务调度模拟 查礼; 徐志伟; 林国璋; 刘玉树 计算机工程与应用,2003,Vol.39(14), pp. 90~92.
34 基于LDAP的网格监控系统 查礼; 徐志伟; 林国璋; 刘玉树; 刘东华; 李伟 计算机研究与发展,Vol.39(8), pp. 930~936.
35 一种多线程计算程序的机群移植方法 查礼; 刘玉树; 徐志伟; 林国璋; 李伟 计算机学报,2002,Vol.25(3), pp.307~312.
荣誉奖励:
1、 大规模网络信息监测与服务系统关键技术及应用,国家科技进步二等奖,国家级, 2012。
2、 中国国家网格,国家科技进步二等奖, 国家级,2007。
查礼:坚持走“接地气”的科研之路
对于从事“云计算”和大数据产业的人来说,一年一度的中国大数据技术大会堪称不容错过的盛会。迄今为止,原名Hadoop in China的中国大数据技术大会(Big Data Technology Conference, BDTC)已成功举办9届,发展成为涵盖各类大数据技术和应用的探讨、分享业界商业项目合作洽谈和资源对接的综合平台,是亚太地区举办最早、规模最大、影响力最大、对技术和行业探讨最专业和深入的大数据行业峰会。
而对于Hadoop in China的发起人——中国科学院计算技术研究所副研究员查礼来说,最初组织大会的宗旨只是“想把最先进的大数据开源技术带到国内,带到工程师的面前,同时建立起一个交流平台,让大家得以互通有无”。
从“网格”到“云计算”
伟人的一句话,往往标志着一个时代的开始。三十几年前,邓小平同志曾经说:“计算机普及要从娃娃抓起。”这句话改变了许多人的一生,查礼,也算是其中之一。
上个世纪八九十年代,为了加快计算机的普及,许多中学开设计算机课。由于不是高考所选科目,大多数人对这门课并没有多少兴趣,但这不包括查礼。“我当时对计算机编程充满了好奇,觉得很有趣。”查礼认为,“做科学研究必须要有好奇心,没有好奇心就没有科学研究的原动力。”基于对计算机的浓厚兴趣,他选择在北京理工大学就读计算机专业,并于2003年获北京理工大学计算机科学与技术系工学博士学位。
博士期间,为了提高学术水平,查礼来到中国科学院计算技术研究所,跟随徐志伟研究员从事分布式系统方向的前沿研究工作。“当时所里有一个‘国家网格’的项目,从‘九五’就开始做了,我也全程参与。”查礼所说的“国家网格”是国家“863”项目,“网格”思想的初衷是希望通过软件把十余个国家级高性能计算中心互联起来,做到资源共享。“这种思想在当时十分先进,其实和后来‘云计算’的理念基本上是一样的。只不过‘网格’的概念是由学术界先提出来的,而‘云计算’是工业界先提出来的,导致两者后续的发展道路完全不一样。”
虽然“云计算”与“网格”的理念相同,但它是由工业界率先提出的,这就注定了其与“网格”有很大区别。“‘网格’更多地偏向学术研究层面,而‘云计算’的外延则要广得多。且与学术界对‘网格’研究的零星火花不同,工业界对于‘云计算’的参与度很深,直接带动了学术界的研究兴趣,所以技术进步就快得多,也实用得多。”对于查礼来说,科研的最终目的是要实用,而工业界的成果转化要比学术界快得多。查礼评价自己:“我的科研之路从这里开始就比较‘接地气’了,比起单纯的论文导向的研究工作,我更愿意解决工业界出现的实际问题。”
从草根大会到领域峰会
这个机会很快到来了。2008年,查礼领导研究小组与Apache Hadoop开源社区合作,发起并组织Hadoop in China大会。这一年,Hadoop in China成功举办第一届草根大会。就是在这第一届鲜为人知的草根大会上,查礼确定了一个研究方向,并向Apache Hive开源项目贡献了“行列混合式存储结构”—RCFile技术和实现代码,该技术现已被Facebook、Yahoo!、阿里巴巴等公司广泛采用。
“第一次大会上,我们请到了Yahoo!、百度、Facebook的人。当时Facebook的工程师提到Hadoop和Hive在Facebook的应用遇到了一些问题——他们用600台机器专门处理数据,但数据太多,存储空间已接近饱和,而新的数据中心尚未交付。”查礼说:“为了解决他们的问题,我们合作研究出了一种新的半结构化数据存储格式:‘行列混合式存储结构’—RCFile技术和实现代码。行列的组合存储比原先节约了百分之二十的空间,为Facebook切换到新数据中心争取到了一段时间,解决了他们的燃眉之急。”为此,查礼团队中的一名博士生直接被Facebook录用,以帮助他们将生产系统的数据全面转换为新的存储格式。当时,在大数据领域,做出这样的成果,让国外的大公司如此大规模地应用,实属凤毛麟角。
中国的大数据时代已呼啸而至,数据技术与数据经济的发展是持续实现大数据价值的支撑,深度应用正将传统“IT”从“后端”推向“前台”。这种情况下,短短几年,Hadoop in China大会的规模不断扩大,从草根大会向领域峰会迈进。
对于查礼来说,最让他开心的不是Hadoop in China大会规模的不断扩大,而是可以借助这个平台接触到工业界,了解他们所遇到的问题,并研究出解决方法。
从工业界的角度来看,除了Facebook从中获益之外,华为的变化也很大。“华为此前从不开源,现在已经能在Hadoop等开源社区里做贡献,从侧面反映了开源理念在中国慢慢得到认可了。”
对于查礼在开源社区方面所做的工作,计算所领导一贯是支持的。查礼说:“现在我的同事做出成果,也有很多直接就开源,毕竟开放源码是展示成果的最好途径。”
从专利技术到“数据魔方”
2011年,查礼开始与淘宝公司合作,帮助他们优化“数据魔方”系统。“数据魔方”是淘宝官方出品的一款数据产品,主要提供行业数据分析、店铺数据分析等。其中包含了品牌、店铺、产品的排行榜,购买人群的特征分析(年龄、性别、购买时段、地域等)。“马云最早说淘宝转型为数据公司,就是凭这个产品才有的底气。”
“要想做到这些分析,最大的技术挑战就是数据量太大,对上百亿的记录做实时查询,传统的数据库是完全做不到的。还有一个问题就是时间范围的限制,他们希望可以尽可能地扩大查询操作的时间范围。”计算所对于查礼去企业解决实际问题的行为非常支持,于是查礼带着2名学生在杭州的淘宝总部花了3个月来攻克这项技术难关。
“这个项目中我们遇到了很多困难,因为淘宝的技术人员的能力已经很高,他们解决不了的问题其实已经很难了。他们已经在一条路上走到了极致,如果我继续沿着这个思路走下去的话,是没有出路的。”查礼坦言道:“所幸我们在这方面曾经做出过创新,有自己发明的专利技术,再做一些适配,才得以解决这个问题。”查礼将“互补式聚簇索引技术”—CCIndex专利发明应用到淘宝网的“数据魔方”产品中,用以支持实时多维区间查询,最终啃下了这块硬骨头。
查礼的成果绝大多数都体现在实际应用中,这也是他与其他高校和科研院所的研究人员最大的不同。他认为,把科研论文写出来之后,并不是终点。他更倾向于再往前一步,将论文应用到实际中。甚至在论文选题的时候,他就做好规划,只选可以解决实际问题并能够最终落地的项目。“我有很多项目的来源是在我去和一线开发人员交流的时候产生的——我的问题是来自实际的,那么我的研究成果就可以直接解决现实问题。”
不管是科研还是教学,查礼都不愿意跟随别人的既定模式去走。他自己探索培养学生的方式,认为指导学生最重要的是要培养他们的科学素养。“当他们对自己研究的科学问题有了一些新的想法,对科研有了兴趣,才算真正入了门。”
“云计算”是新一代信息技术的重要发展方向,是我国新一代信息技术产业实现创新突破、跨越式发展的战略机遇。查礼承担过多项国家“863”重大专项、“863”国际合作、发改委专项和欧盟第六框架(FP6)国际合作课题,以及“863”计划“中国云”一期和二期中与大数据系统相关的课题,曾获2007年度和2012年度国家科技进步奖二等奖。
对于这些成果的取得,查礼认为,每个人都应该找寻属于自己的道路。而最适合他的,就是这样一条与工业界联系密切,“接地气”的科研之路。他选择了这条科研之路,在这条路上走了十余年,并将一直走下去。
来源:科学中国人 2016年第10期
专访:Hadoop中国2011大会联合主席查礼
Hadoopin China开源社区发起人查礼
10月27日,Hadoop中国2011云计算大会组委会举行了媒体见面会。记者就大家关心的一些Hadoop话题采访此次Hadoop中国大会的程序联合主席查礼博士。以下是访谈部分内容整理。
1、Hadoop目前在IT业界有哪些重要的应用?结合这些应用,谈谈Hadoop为什么这么火?
总体来讲,Hadoop依然是大数据(Big Data)处理领域的王牌软件。
目前还是互联网行业应用Hadoop 最为广泛。除了大家都比较了解的通用数据处理,去年年底Facebook上线了message系统,也称mail系统,该系统是迄今最大的HBase应用,提供邮件/消息的持久存储和实时读取能力。
国内淘宝在用Hive构建数据仓库,进行海量数据的分析和挖掘,为淘宝的数据服务产品提供了坚实的基础。Hadoop帮助企业从海量数据中获取有用信息,提供了获取价值的可靠途径和有效手段。在这些叱咤风云的互联网企业的带动下,一方面,其他互联网企业看到Hadoop的潜在价值,也开始纷纷效仿。另一方面,传统IT企业也发现了Hadoop的商业价值,基于Hadoop提供全套解决方案,为那些需要完整产品的用户提供相应的产品和服务。
值得注意的是,互联网企业和传统IT企业的业务模式不一样。理论上来说,前者维护一套系统,追求低成本下的高性能,是不是标准化不是最重要的因素;
后者需要考虑与市场上其他产品的标准化对接,或者用新技术、新软硬件产品创立一个新市场,标准化显得很重要。
2、Hadoop组件HBase与关系型数据库相比,有哪些优势?
总的来说,HBase走的是专业化简约路线,专业化简约是计算所徐志伟老师提出的云计算的重要概念。意思就是,通过功能简化可以达到增强某方面的功能和性能。具体到HBase,从三个方面来说,第一扩展性好,可以横向扩展到千台以上规模,数据均衡分布的话,性能还是线性的。第二性能好,因为走了专业化简约路线,简化了很多不需要的功能,所以可以把性能拉得很高。第三是可靠性好,HBase底层使用HDFS作为存储,用副本以软件的方式保证数据可靠性。即使有个别机器出现故障导致副本丢失或损坏,也不会影响整个系统的运行和服务。还有一点对于特定应用场景也算是优势,即schema free,没有模式的限制数据模型很灵活,这样才有可能按照应用的需要放置数据,数据的分布可以自由控制。
3、HDFS与其它的分布式文件系统有什么区别?优势主要体现在哪些方面?
与HDFS相比的分布式文件系统,最大的差别在于提供的接口语义和标准不同,所以内部的一些技术也就不一样。与Google的GFS一样,HDFS应该说是一种简化了的专用文件系统,最适合存储大数据文件,比如上百GB的文件。特点是数据块通常较大;通常不支持随机读写,只支持顺序读和追加写操作;数据块有多副本,用软件方式管理这些副本,从而提供数据的高可靠性;与上层Map/Reduce结合后,可以说是处理海量数据的利器。
4、您觉得如何把虚拟化技术应用到Hadoop中去?
像Hadoop这样的系统,其主要目的是处理数据,可想而知磁盘I/O占用是很高的。而目前业界成熟的虚拟化技术不能做到扩大I/O带宽的作用,所以目前用虚拟机来运行Hadoop的好处并不多。我只看到如果这样用,带来的好处只有基础设施管理的方便性。但这对研究界来说却是个很好的问题,有没有办法能够弹性扩展机器的I/O带宽?
5、支撑Hadoop生态系统的基础设施(数据中心)都有哪些?它们有什么优势,遇到了什么挑战,是不是成熟?
对于数据中心来说,应用Hadoop还不是很成熟。目前数据中心应用最多的是虚拟化技术,这个可以直接给数据中心带来价值,即降低电费、管理成本等。如果有数据中心想提供数据处理服务,可以使用Hadoop,但业务模式还需要想清楚,并且需要技术团队实现这个业务模式。比如亚马逊的S3、simpleDB等;新浪的SAE有点这方面的意思。换句话说Hadoop可以作为这些系统级服务的支撑技术,但直接用Hadoop还达不到目的。
6、结合近期微软加入Hadoop阵营,谈谈您对Hadoop前景的认识。
Hadoop已经成为互联网企业的标准配置,非互联网的IT企业看到Hadoop在Big Data处理领域的商业价值,肯定会以Hadoop为基础或者为标准打造一些有针对性的产品,为诸如电信、政府、广告、大型企业等需求提供服务。目前互联网企业动辄千台规模在传统IT领域肯定是不现实的,那么面向行业的小型化的技术和产品应该是可以预见的趋势。目前还看不出Hadoop社区有这样的项目出现,这应该是一个机会,无论是开源还是商业都是如此。
个人简介:查礼,2003年获北京理工大学工学博士,2003年1月至今在中科院计算所工作,研究组长、副研究员。主要研究方向是分布式系统及大规模数据计算,包括分布式系统软件体系结构,大规模分布式资源管理及任务调度,大规模数据计算系统等。2007年以来,作为技术总负责人参与国家863计划课题“中国国家网格软件研究与开发”,负责软件总体设计和核心技术研发。参与XtreemOS,OMII-EU/OMII-UK欧盟第六框架和英国e-Science国际合作项目。是Hadoopin China开源社区(www.hadooper.cn) 发起人,Hadoopin China2008~2011大会组织者。