工控網(wǎng)首頁
>

新聞中心

>

人物專訪

>

王雪松:大數(shù)據(jù)時(shí)代,我們需要什么樣的服務(wù)器?

王雪松:大數(shù)據(jù)時(shí)代,我們需要什么樣的服務(wù)器?

2016/9/27 14:56:24

主持人:謝謝許總,我本身是跟蹤互聯(lián)網(wǎng)產(chǎn)業(yè)的記者,但是經(jīng)常有跟蹤這些技術(shù)領(lǐng)域的記者老說我,說你跟的那些東西都太膚淺、太浮夸,我這個(gè)高大上。后來我覺得不服,所以今天我來了,來是學(xué)習(xí)了,但我覺得今天的會(huì)議的內(nèi)容非常的棒,無論是早上的主題演講還是下午分論壇大家的演講。所有的東西真的可以看出來是演講嘉賓精心準(zhǔn)備,是跟行業(yè)整個(gè)趨勢(shì)相結(jié)合。所以我希望在座的來聽的聽眾們都給予演講者一個(gè)很好的回饋,你們的一個(gè)眼神是對(duì)我們最大的支持。

    我們接下來有請(qǐng)中太數(shù)據(jù)通信有限公司董事長王雪松先生,他演講的題目是大數(shù)據(jù)時(shí)代,我們需要什么樣的服務(wù)器?

    
    王雪松:其實(shí)我這個(gè)題目改了一下,我們叫大數(shù)據(jù)時(shí)代的存儲(chǔ)型服務(wù)器設(shè)計(jì)。主要是覺得原來那塊說的太大,改小一點(diǎn)。
    剛才有嘉賓談到大數(shù)據(jù),什么是大數(shù)據(jù),嘉賓談到說需要大容量的存儲(chǔ),需要快速的訪問能力,我們其實(shí)今天講的就是這件事情。
    這個(gè)圖其實(shí)用了很多,我不多說了,大數(shù)據(jù)時(shí)代就是數(shù)據(jù)變得特別多。十年前我們其實(shí)談的很多東西,我們談到我們用什么樣的機(jī)器,什么CPU機(jī)器,多少CPU機(jī)器,當(dāng)時(shí)我們談到存儲(chǔ)的時(shí)候,感覺存儲(chǔ)就是一個(gè)雙機(jī)共享一個(gè)存儲(chǔ)很好的。隨著數(shù)據(jù)量越來越大,存儲(chǔ)變得越來越重要。我們過去談到集成下面的時(shí)候說到機(jī)器很重要。現(xiàn)在的時(shí)代隨著數(shù)據(jù)量越來越大的時(shí)候,存儲(chǔ)越來越成為項(xiàng)目的中心。
    現(xiàn)在有一個(gè)問題,我們?cè)趥鹘y(tǒng)的機(jī)構(gòu)下集中式存儲(chǔ),我們真的能不斷擴(kuò)張嗎,我們都知道數(shù)據(jù)越來越大,幾十T,幾百T,上千T,集中式存儲(chǔ)真的可以嗎,這是很嚴(yán)重的問題。我們談的公安案例來說,他是什么狀況?他現(xiàn)在開始把一些監(jiān)控的視頻引入了我們一些分析的數(shù)據(jù)系統(tǒng),對(duì)所有人臉都會(huì)有一些比對(duì)。我們想象一下現(xiàn)在所有都要聯(lián)網(wǎng),納入一個(gè)數(shù)據(jù)庫里面,全國這么多省份、地市,他組成一個(gè)大的數(shù)據(jù)架構(gòu)下面,用什么樣的才可以做呢。真的可以做到嗎?我們談的數(shù)據(jù)不是說我增長幾倍的數(shù)據(jù),我們現(xiàn)在談?wù)撌俏业降自鲩L幾個(gè)數(shù)量級(jí)的數(shù)據(jù),兩個(gè)數(shù)量級(jí),三個(gè)數(shù)量級(jí),甚至更多。
    這種情況下我們提出一個(gè)疑問,集中式的存儲(chǔ)真的可以支持大數(shù)據(jù)時(shí)代嗎?我們都知道像有一些很多像以數(shù)據(jù)庫為中心的數(shù)據(jù)確確實(shí)實(shí)這方面提的很好,但是大量非結(jié)構(gòu)化的數(shù)據(jù)已經(jīng)非常困難了?,F(xiàn)在以X86為基礎(chǔ)的系統(tǒng)已經(jīng)以集中式的系統(tǒng),我們需要什么樣的性能的認(rèn)定。我們提出我們的一個(gè)想法,大數(shù)據(jù)時(shí)代主流系統(tǒng)對(duì)存儲(chǔ)型服務(wù)器,這里不談所謂計(jì)算型服務(wù)器,我們只談存儲(chǔ)型服務(wù)器。我們認(rèn)為他有三個(gè)主要的要求,第一個(gè)要求是大量直連存儲(chǔ)的接入需求??赡芴嗟臄?shù)據(jù)沒辦法存下去,唯一的方式就是把數(shù)據(jù)存儲(chǔ)起來,如果仍然采用像FC這樣的網(wǎng)絡(luò)把存儲(chǔ)放再一個(gè)集中的地方,這顯然不現(xiàn)實(shí)。唯一就是把每一個(gè)存儲(chǔ)服務(wù)器上連接。第二就是在服務(wù)器間有高互聯(lián)帶寬的需求。第三是高性能的壓縮、Hash、加密能力。后面我們會(huì)以Hadoop、Ceph、Openstack。
    這個(gè)是Hodoop一些圖,在圖上我們可以看到Hadoop結(jié)構(gòu)下有兩個(gè)主要的組成部分,一個(gè)是Namenode。由于他的數(shù)據(jù)節(jié)點(diǎn)本身是分離的,因此天然需要直聯(lián)存儲(chǔ)跟這個(gè)連接。根據(jù)他自己相關(guān)的應(yīng)用,我們都知道Hadoop會(huì)把每一份數(shù)據(jù)至少存三份正常情況下,也談到了讀寫分離。在這種情況下,在數(shù)個(gè)節(jié)點(diǎn)之間要有高速復(fù)制的能力,這個(gè)是通過網(wǎng)絡(luò)。我們看到了直聯(lián)存儲(chǔ)的需求,高性能的復(fù)制的需求。是另外一個(gè)圖,我們都知道Hodoop可以通過壓縮來解決我們對(duì)磁盤的壓力。壓縮的時(shí)候?qū)PU有影響,我們畫個(gè)天平,在天平上不斷秤來秤去,我用壓縮搞定我的網(wǎng)絡(luò),還是說要解決我CPU的性能。
    這是Ceph,這是分布式能源系統(tǒng),跟Hodoop很像,只不過他把數(shù)據(jù)節(jié)點(diǎn)改成OSD。他也有大量的數(shù)據(jù)需求,主要的OSD向第三個(gè)OSD復(fù)制需求。他也有直連存儲(chǔ)的需求,他現(xiàn)在壓縮和去除能力并不是現(xiàn)在標(biāo)準(zhǔn)的能力。OpenStack,一樣的,直連存儲(chǔ)的需求。這個(gè)Swift,直連存儲(chǔ)需求。我們認(rèn)為大數(shù)據(jù)時(shí)代基本都是用這么幾個(gè)需求,一個(gè)是直連存儲(chǔ)需求,第二是網(wǎng)絡(luò)間高度復(fù)制需求,第三是需要壓縮的需求。壓縮是用來節(jié)省IO的。
    剛剛我們已經(jīng)談了一下在這個(gè)時(shí)代里我們談到對(duì)存儲(chǔ)型服務(wù)器提出有重要的需求,到底這個(gè)需求有多高?我們認(rèn)為因?yàn)楝F(xiàn)在整個(gè)系統(tǒng)里面我們大家都知道有一個(gè)理論,系統(tǒng)你做的太快,太慢都沒有用。因?yàn)橄到y(tǒng)的整體速度是由他最差的那個(gè)組件來完成的。我們可以看一個(gè)結(jié)構(gòu),這是英特爾一個(gè)測(cè)試,他在利用他多核心庫的品牌支持下,在一路八核的可以形成80Mpps的轉(zhuǎn)發(fā)。我們一般使用數(shù)據(jù)是兩路,他這個(gè)是一路的數(shù)據(jù),正常我們認(rèn)為40G是他標(biāo)準(zhǔn)的一個(gè)能力。
    在現(xiàn)在的CPU性能突飛猛進(jìn)的時(shí)代,我們認(rèn)為對(duì)存儲(chǔ)的單臺(tái)服務(wù)器提出一個(gè)能力需求,至少有20G,最好40G對(duì)直連存儲(chǔ)訪問的能力。至少20G,最好40G的壓縮、Hash、加密能力。這里有一個(gè)大的問題,CPU完成這個(gè)部分,實(shí)際上兩路系統(tǒng)足夠了。最好是有40G服務(wù)器之間的互相的網(wǎng)絡(luò)通訊能力,主要是用來做復(fù)制用的。我們認(rèn)為復(fù)制的情況下,我們需要很高的系統(tǒng),對(duì)外時(shí)候我們需要不需要很高的系統(tǒng)不好說。大數(shù)據(jù)時(shí)代一臺(tái)單獨(dú)的存儲(chǔ)服務(wù)器達(dá)到的要求,用什么樣的硬件可以達(dá)到這樣的能力。
    這是我們談到的硬件,CPU不是很高的,兩個(gè)8核或者是10核。第二個(gè)是關(guān)鍵,2個(gè)Socket,或者是2個(gè)英特爾82599。第三是英特爾的一個(gè)Coleto的芯片。這個(gè)我認(rèn)為對(duì)外提供40G或者是萬兆的接口。也就是說這是我們推薦的認(rèn)為可以滿足服務(wù)器的配置。
    在這里有幾個(gè)關(guān)鍵點(diǎn),第一個(gè)問題我們需要支持DPDK,現(xiàn)在X86架構(gòu)下并沒有規(guī)定只有DPDK達(dá)到最好的速度,但是DPDK是最優(yōu)秀的,他已經(jīng)開源。我們使用英特爾的CPU就是DPDK,但是DPDK有環(huán)境設(shè)備和網(wǎng)絡(luò)的抽象層。我們現(xiàn)在選用網(wǎng)卡全部都是支持英特爾DPDK的網(wǎng)卡,可以提高自己的能力。我們有很多刀片服務(wù)器,他背后的網(wǎng)卡采用方式未必是可以在DPDK工作的。第二我們提供40G的刀片間互聯(lián),可以提供10G的對(duì)外服務(wù)能力。這個(gè)是我們介紹一下芯片,這個(gè)芯片最早開始是用在路由器、防火墻這些網(wǎng)絡(luò)設(shè)備上的。后來存儲(chǔ)設(shè)備公司覺得這個(gè)挺好,他們也用了。
    看一下他的結(jié)構(gòu),這個(gè)芯片結(jié)構(gòu)很簡(jiǎn)單。他的結(jié)構(gòu)里面有一個(gè)加密的協(xié)處理器,里面有一個(gè)壓縮的協(xié)處理器。關(guān)鍵問題在這,他們?cè)谶@個(gè)芯片下可以提供20G的能力。他對(duì)于我們減輕負(fù)載非常有幫助。這是最高級(jí)的,它的壓縮是24G,解壓縮能夠是28G。這樣對(duì)我們?cè)诖笮痛鎯?chǔ)服務(wù)器里面啟動(dòng)壓縮毫無壓力。在這個(gè)芯片上提供了兩個(gè)部分,一個(gè)是軟件包解決大家訪問這個(gè)芯片的一些接口問題。他一共兩種,一種是內(nèi)核級(jí)接口,一種是用戶接口。橋片對(duì)壓縮模式的支持,文件格式有ASCII、HTML等等。
    我公司設(shè)備可以在每刀片提供2個(gè)或4個(gè)MINISAS接口用于連接SAS  Switch。目前建議最高性能配置為每刀片4個(gè)miniSAS接口,每交換機(jī)連接2個(gè)刀片,另提供4個(gè)4U45盤位置之的硬盤箱連接,這樣每刀片可以訪問90個(gè)直連硬盤,訪問直連存儲(chǔ)的帶寬為96G。
    中端的配置建議為每刀片配置2個(gè)minisas用于連接SAS  Switch每交換機(jī)配置6臺(tái)刀片,兩臺(tái)4U90盤位硬盤箱,這樣每刀片連接30個(gè)硬盤,提供峰值48G,平均16G的訪問存儲(chǔ)能力。
    為什么會(huì)采用刀片式服務(wù)器,我們不采用刀片式服務(wù)器,我們采用機(jī)架式服務(wù)器的話,如果我采用10G作為互聯(lián)接口。我們都知道40G光模塊可能也需要幾千美金,如果采用傳統(tǒng)的機(jī)架式服務(wù)器,配這么高的互聯(lián)帶寬是很困難的。采用刀片服務(wù)器,他的成本在主板上。第二是計(jì)算和存儲(chǔ)分離,使得直連存儲(chǔ)走出機(jī)箱,確保系統(tǒng)橫向擴(kuò)展能力。第三利用英特爾的加密的條件,還有就是DPDK的Ready  NIC。因?yàn)榇鎯?chǔ)系統(tǒng)很多數(shù)據(jù)的需求在網(wǎng)絡(luò),他必須通過外部網(wǎng)絡(luò)才可以。我們很難想象說現(xiàn)在硬盤都是連在一起,換句話說這里頭我們不需要說硬盤支持EPK。
    下面是我們一個(gè)建議配置,我們到底有多快,到底配多少服務(wù)器,這是比較小的配置,第一個(gè)機(jī)架配置一臺(tái)刀片服務(wù)器,12個(gè)刀片。兩臺(tái)SAS  Switch,4個(gè)4U90盤位硬盤箱,兩個(gè)支持40G的交換板。
    第二個(gè)機(jī)架配置一臺(tái)刀片服務(wù)器,配置6個(gè)刀片,1臺(tái)SAS  Switch,兩個(gè)4U90潘瑋硬盤箱,兩個(gè)支持40G的交換板。每刀片配置2路10核心CPU,總共提供40個(gè)線程,主辦配置ColetoCreek,內(nèi)存128G。其中由于每刀片連接30個(gè)硬盤,使用30個(gè)線程為30個(gè)OSD  Daemon服務(wù),每個(gè)硬盤使用4G內(nèi)存進(jìn)行緩存。兩臺(tái)機(jī)架間的服務(wù)器通過2×40G+8×10G以太網(wǎng)捆綁鏈路以互聯(lián),用于節(jié)點(diǎn)間內(nèi)部復(fù)制,總共160G帶寬。第一臺(tái)機(jī)架上的服務(wù)分為兩組,每組6個(gè)刀片,連接180個(gè)硬盤。
    這樣的配置下,按3倍復(fù)制能力,對(duì)外可以提供720T存儲(chǔ)。我們對(duì)存儲(chǔ)的訪問總帶寬為288G,對(duì)每一份數(shù)據(jù)寫入的總帶寬為96G??偣蔡峁?20G對(duì)外帶寬提供讀寫服務(wù)。節(jié)點(diǎn)復(fù)制總帶寬達(dá)到480G+160G。在這種切斷下我們都知道這么一個(gè)系統(tǒng)他能提供什么樣的服務(wù),寫入的速度是96G,度曲的速度相當(dāng)于36G,總共720T的存儲(chǔ)容量。如果采用壓縮對(duì)性能毫無影響。這么一個(gè)小型系統(tǒng),總共只有18臺(tái)刀片,就可以提供3倍的復(fù)制以及非常高的讀寫速度。
    總結(jié)一下,基本上我們說用刀片服務(wù)器提供更高的40G以太網(wǎng)內(nèi)置網(wǎng)絡(luò)連接,大量的miniSAS接口提供對(duì)直連存儲(chǔ)的高性能連接,英特爾加密壓縮橋片提供無組塞的壓縮和支持,最后全套的DPDK提供支持。
    我提出一個(gè)新的觀點(diǎn),跟各位交流的時(shí)候,我們認(rèn)為在新的大數(shù)據(jù)的存儲(chǔ)時(shí)代,機(jī)房在數(shù)據(jù)節(jié)點(diǎn)之間的復(fù)制要求上40G已經(jīng)成為主流需求。這是我們的觀點(diǎn),大家有沒有對(duì)這個(gè)發(fā)表看法?
    
    嘉賓:英特爾的CPU速度主流就是40G的帶寬。
    
    主持人:待會(huì)我會(huì)再提這個(gè)問題,我們思考一下。


投訴建議

提交

查看更多評(píng)論
其他資訊

查看更多

直播定檔!見證西門子與中科摩通聯(lián)手打造汽車電子智能制造新范式

光亞論壇·2024 智能產(chǎn)業(yè)聚合高峰論壇舉辦!

新訊受邀參加華為Redcap產(chǎn)業(yè)峰會(huì),并榮獲RedCap生態(tài)合作獎(jiǎng)!

2024年斯凱孚創(chuàng)新峰會(huì)暨新產(chǎn)品發(fā)布會(huì)召開,以創(chuàng)新產(chǎn)品矩陣重構(gòu)旋轉(zhuǎn)

禹衡光學(xué)亮相北京機(jī)床展,以創(chuàng)新助力行業(yè)發(fā)展新篇章