400-650-7353
您所在的位置:首頁 > IT干貨資料 > 大數(shù)據(jù) > 【大數(shù)據(jù)基礎知識】Hadoop之HDFS概述

【大數(shù)據(jù)基礎知識】Hadoop之HDFS概述

  • 發(fā)布: 大數(shù)據(jù)培訓
  • 來源:大數(shù)據(jù)干貨資料
  • 2021-03-03 10:44:32
  • 閱讀()
  • 分享
  • 手機端入口

隨著我們業(yè)務數(shù)據(jù)量越來越大,在一個操作系統(tǒng)管轄的范圍內(nèi)存不下了,那么就需要分配到更多的操作系統(tǒng)管理的磁盤中。但是這給我們帶來的一個問題就是,更多的操作系統(tǒng)非常不方便集中管理和維護。這時迫切需要一種系統(tǒng)來管理多臺機器上的文件,這就產(chǎn)生了分布式文件管理系統(tǒng)。HDFS只是分布式文件管理系統(tǒng)中的一種。

HDFS(Hadoop Distributed File System),它是一個分布式文件管理系統(tǒng)。一是,用于存儲文件,通過目錄樹來定位文件;其次,它是分布式的,由很多服務器聯(lián)合起來實現(xiàn)其功能,并且集群中的服務器有各自的角色。集群不一定是分布式的,但是分布式一定是集群。HDFS的設計適合一次寫入,多次讀出的場景,但不支持文件的修改。HDFS適合用來做數(shù)據(jù)分析,并不適合用來做網(wǎng)盤應用。

下面我們來看下HDFS的優(yōu)缺點吧。

HDFS優(yōu)點:

(1) 高容錯性

a)每份數(shù)據(jù)都自動保存多個副本。HDFS正是通過增加副本的的方式來提高容錯性;

b)如果某個副本丟失,HDFS還可以自動恢復。

(2) 適合大數(shù)據(jù)處理

(a)數(shù)據(jù)規(guī)模:能夠處理數(shù)據(jù)規(guī)模達到GB、TB、甚至PB級別的數(shù)據(jù);

(b)文件規(guī)模:能夠處理百萬規(guī)模以上的文件數(shù)量,數(shù)量相當之大。

(3) 流式數(shù)據(jù)訪問,它能保證數(shù)據(jù)的一致性。

(4) 可構建在廉價機器上,通過多副本機制,提高可靠性。這一點也是HDFS的突出優(yōu)勢,高性能的集群無需采用價格高昂的服務器,而是構建在廉價的機器上呢。

HDFS缺點:

(1) 不適合低延時數(shù)據(jù)訪問,比如毫秒級的存儲數(shù)據(jù),是做不到的。

(2) 無法高效的對大量小文件進行存儲。

a) 存儲大量小文件的話,它會占用NameNode大量的內(nèi)存來存儲文件、目錄和塊信息。這樣是不可取的,因為NameNode的內(nèi)存畢竟是有限的。

b) 小文件存儲的尋址時間會超過讀取時間,它違反了HDFS的設計目標。

(3) 不支持并發(fā)寫入、文件隨機修改。

a) 一個文件只能有一個寫,不允許多個線程同時寫;

b) 僅支持數(shù)據(jù)append(追加),不支持文件的隨機修改。

文章“【大數(shù)據(jù)基礎知識】Hadoop之HDFS概述”已幫助

>>本文地址:http://m.nfbqydst.cn/zhuanye/2021/67401.html

THE END  

聲明:本站稿件版權均屬中公教育優(yōu)就業(yè)所有,未經(jīng)許可不得擅自轉載。

1 您的年齡

2 您的學歷

3 您更想做哪個方向的工作?

獲取測試結果
  • 大前端大前端
  • 大數(shù)據(jù)大數(shù)據(jù)
  • 互聯(lián)網(wǎng)營銷互聯(lián)網(wǎng)營銷
  • JavaJava
  • Linux云計算Linux
  • Python+人工智能Python
  • 嵌入式物聯(lián)網(wǎng)嵌入式
  • 全域電商運營全域電商運營
  • 軟件測試軟件測試
  • 室內(nèi)設計室內(nèi)設計
  • 平面設計平面設計
  • 電商設計電商設計
  • 網(wǎng)頁設計網(wǎng)頁設計
  • 全鏈路UI/UE設計UI設計
  • VR/AR游戲開發(fā)VR/AR
  • 網(wǎng)絡安全網(wǎng)絡安全
  • 新媒體與短視頻運營新媒體
  • 直播帶貨直播帶貨
  • 智能機器人軟件開發(fā)智能機器人
 

快速通道fast track

近期開班時間TIME