东北大学学报:自然科学版 ›› 2019, Vol. 40 ›› Issue (6): 795-800.DOI: 10.12068/j.issn.1005-3026.2019.06.007

• 信息与控制 • 上一篇    下一篇

基于HDFS的分布式文件系统

刘军1, 冷芳玲2, 李世奇2, 鲍玉斌2   

  1. (1. 东北大学 信息化建设与网络安全办公室, 辽宁 沈阳110819; 2. 东北大学 计算机科学与工程学院, 辽宁 沈阳110169)
  • 收稿日期:2018-04-25 修回日期:2018-04-25 出版日期:2019-06-15 发布日期:2019-06-14
  • 通讯作者: 刘军
  • 作者简介:刘军(1978-),男,辽宁沈阳人,东北大学博士研究生; 鲍玉斌(1968-),男,吉林吉安人,东北大学教授.
  • 基金资助:
    国家自然科学基金青年基金资助项目(61602103); 国家自然科学基金联合基金资助项目(U1435216).

A Distributed File System Based on HDFS

LIU Jun1, LENG Fang-ling2, LI Shi-qi2, BAO Yu-bin2   

  1. 1. Information Construction and Network Security Office, Northeastern University, Shenyang 110819, China; 2. School of Computer Science & Engineering, Northeastern University, Shenyang 110169, China.
  • Received:2018-04-25 Revised:2018-04-25 Online:2019-06-15 Published:2019-06-14
  • Contact: LENG Fang-ling
  • About author:-
  • Supported by:
    -

摘要: 在现有的开源分布式文件存储系统HDFS上,构建一个智能大数据存储系统IHDFS.该系统提出了大数据去重模块、大数据放置模块、大数据智能迁移模块和大数据编码模块,构造了智能分布式文件存储系统,可以提高用户访问效率,节省集群的存储空间.实验结果表明,数据去重模块很好地节省了存储空间;数据放置模块合理地分配文件上传的存储层,使数据上传速度提高一倍;数据智能迁移模块提高了用户在高等存储层上文件的命中率,提高了用户获取数据的效率;数据编码模块节省了集群的储存空间,节省了大约原来存储空间的三分之一.

关键词: 多层存储架构, HDFS, 智能, 优化, 分布式

Abstract: This paper establishes an intelligent big data storage system IHDFS, based on the existing open source distributed file storage system HDFS. The system proposes and implements big data de-duplication module, big data placement module, big data intelligent migration module, and big data encoding module, which improves the efficiency of user visits and saves the storage space of the cluster. Experimental results show that the data de-duplication module can save the storage space. The data placement module provides a reasonable distribution of file upload storage layer, which twice the uploading speed; the data intelligent migration module improves the hit rate of files on the upper storage layer, which improves the efficiency of obtaining data; the data encoding module saves the storage space of the cluster about one third of the original.

Key words: multi-layer storage architecture, HDFS, intelligence, optimization, distributed

中图分类号: