【杭州網(wǎng)站設(shè)計(jì)】直擊HadoopSummit 2011:迎接海量數(shù)據(jù)挑戰(zhàn)
分享 2011.07.01 瀏覽次數(shù):7976次
海量數(shù)據(jù)正在不斷生成,對于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,面對海量數(shù)據(jù),如何分析并有效利用其價(jià)值,同時(shí)優(yōu)化企業(yè)業(yè)務(wù)已成為現(xiàn)代企業(yè)轉(zhuǎn)型過程中不可避免的問題。
作為海量數(shù)據(jù)處理的一個(gè)重要工具——Hadoop也開始受到了越來越多人的關(guān)注。第四屆Hadoop大會(huì)——Hadoop Summit 2011大會(huì)6月29日在Santa Clara舉行了,備受關(guān)注的Yahoo新成立的子公司——Hortonworks在此次大會(huì)上亮相,號(hào)稱比Hadoop快三倍的MapR也亮相了、同時(shí)一些新的項(xiàng)目比如HCatalog等也受到了技術(shù)人員的關(guān)注。我們將此次會(huì)議的一些重要信息整理如下,提供給Hadoop的從業(yè)者們參考。
三大Hadoop支持商爭奇斗艷
Hortonworks——小象變成了大象
Eric Baldeschwieler做了主題演講,他也是Hortonworks(Yahoo剝離出的專門運(yùn)營Hadoop的新公司)未來的CEO。Hortonworks公司將專門負(fù)責(zé)Hadoop的開發(fā)和運(yùn)維。他表示新公司的目標(biāo)是提供商業(yè)上的支持,并為客戶提供完整的Apache Hadoop平臺(tái)。他還表示Cloudera是他們的競爭對手,并且表示兩家公司非常相似。(Eric并未提及MapR,也許在他看來,由EMC贊助的MapR至少在開放性上還很難與Hortonworks和cloudera相比較,不過在對Hadoop的支持上,Cloudera、MapR和Hortonworks將是最有力的三個(gè)貢獻(xiàn)者,從LOGO即可看出,Hadoop已經(jīng)從小象變成了三只大象)。Cloudera提供他們自己的Hadoop分布式系統(tǒng)基礎(chǔ)架構(gòu),類似于Apache發(fā)布的版本,Hortonworks的目標(biāo)是提供類似的服務(wù)。
此外,Sanjay Radia也談到了Hadoop對企業(yè)的影響,Hortonworks在工作安全性(防止用戶數(shù)據(jù)被別人刪除)、服務(wù)水平協(xié)議(SLA)、可預(yù)測性和資源共享調(diào)度等方面進(jìn)行了改善。
MapR——最大處理1010EB數(shù)據(jù)
MapR——MC Srivas介紹了MapR的算法,以及和Apache Hadoop的不同。MapR的Hadoop Distribution對Hadoop的可靠性、性能和易用方面都做了大量的提升。HDFS可以處理10-50PB的數(shù)據(jù),而MapR則可以處理1010EB數(shù)據(jù)!(什么概念??。〩DFS的瓶頸是2000節(jié)點(diǎn)的集群,而MapR的的處理能力則是10000個(gè)節(jié)點(diǎn)以上的集群。
在NameNode HA方面,MapR把元數(shù)據(jù)放在了所有的節(jié)點(diǎn),這樣不僅可以scale還可以實(shí)現(xiàn)HA,由于元數(shù)據(jù)很少檢索,因此有更多的內(nèi)存可用于MapReduce處理。另外,MapR與Pig和Oozie兼容,HDFS也完全兼容了NFS協(xié)議,支持隨機(jī)讀寫功能。
此外,MapR還配備了快照,并號(hào)稱不會(huì)出現(xiàn)SPOF單節(jié)點(diǎn)故障,且與現(xiàn)有HDFS的API兼容,因此非常容易替換原有的系統(tǒng)。
目前,MapR M3 Free版本已經(jīng)提供下載。
Cloudera——3.5版本發(fā)布
CLoudera新發(fā)布的Enterprise 3.5是此次大會(huì)的亮點(diǎn)之一。產(chǎn)品副總裁Charles Zedlewski表示,“最大的變化在于能夠讓用戶在一兩分鐘內(nèi)就可以安裝和配置Google-like這樣的架構(gòu)”。
據(jù)了解,3.5版本能夠自動(dòng)配置、重啟服務(wù)器、添加刪除硬件。另外還有一個(gè)活動(dòng)監(jiān)視器,整合各組件的用戶行為,并提供實(shí)時(shí)查看活動(dòng)、活動(dòng)歷史以及工作;同時(shí)它還提高了資源和授權(quán)的管理,并改善LDAP(Lightweight Directory Access Protocol)系統(tǒng)安全。
Cloudera 3.5提供了10個(gè)組件。Charles Zedlewski還表示將進(jìn)一步增加3到4個(gè)CDH的組件,例如壓縮算法,利用Google的Snappy加快數(shù)據(jù)的導(dǎo)入和導(dǎo)出。
免費(fèi)的Express版已經(jīng)可以下載,這個(gè)版本可自動(dòng)安裝和配置50個(gè)節(jié)點(diǎn)。
Kafka、Haystack、HCatalog——海量數(shù)據(jù)處理的未來
Linkedln——只有7000行代碼的Kafka
Linkedln作為最近最熱的社交網(wǎng)站,受到了與會(huì)者們的重點(diǎn)關(guān)注。開源的Kafka是Linkedln的開源消息隊(duì)列——包括數(shù)據(jù)跟蹤、記錄、指標(biāo)、消息和隊(duì)列。僅僅由7000行Scala編寫,據(jù)了解,Kafka每秒可以生產(chǎn)約25萬消息(50 MB),每秒處理55萬消息(110 MB)。
在kafka的核心思路中,不需要在內(nèi)存里緩存數(shù)據(jù),因?yàn)椴僮飨到y(tǒng)的文件緩存已經(jīng)足夠完善和強(qiáng)大,只要不做隨機(jī)寫,順序讀寫的性能是非常高效的。kafka的數(shù)據(jù)只會(huì)順序append,數(shù)據(jù)的刪除策略是累積到一定程度或者超過一定時(shí)間再刪除。Kafka另一個(gè)獨(dú)特的地方是將消費(fèi)者信息保存在客戶端而不是MQ服務(wù)器,這樣服務(wù)器就不用記錄消息的投遞過程,每個(gè)客戶端都自己知道自己下一次應(yīng)該從什么地方什么位置讀取消息,消息的投遞過程也是采用客戶端主動(dòng)pull的模型,這樣大大減輕了服務(wù)器的負(fù)擔(dān)。Kafka還強(qiáng)調(diào)減少數(shù)據(jù)的序列化和拷貝開銷,它會(huì)將一些消息組織成Message Set做批量存儲(chǔ)和發(fā)送,并且客戶端在pull數(shù)據(jù)的時(shí)候,盡量以zero-copy的方式傳輸,利用sendfile(對應(yīng)java里的FileChannel.transferTo/transferFrom)這樣的高級(jí)IO函數(shù)來減少拷貝開銷??梢?,kafka是一個(gè)精心設(shè)計(jì),特定于某些應(yīng)用的MQ系統(tǒng),這種偏向特定領(lǐng)域的MQ系統(tǒng)我估計(jì)會(huì)越來越多,垂直化的產(chǎn)品策略值的考慮。
Facebook的Haystack
在Karthic Ranganathan的演講中,F(xiàn)aceBook每月有150億條信息,但不包括短信和電子郵件,大約有14TB的數(shù)據(jù)。此外還有1200億聊天數(shù)據(jù),大約有25TB,每月總計(jì)會(huì)有300TB的數(shù)據(jù)生成。Facebook使用HBase滿足他們的在小消息(small message)、元數(shù)據(jù)、和搜索引擎的需求。
據(jù)了解,F(xiàn)acebook使用HBase是因?yàn)樗母咄掏铝繉懭牒唵尾⒕哂袡M向擴(kuò)展的能力。Facebook使用被稱之為“Haystack”的系統(tǒng)存儲(chǔ)照片、大型郵件和附件,而“Haystack”的配置是16個(gè)內(nèi)核,12個(gè)1TB硬盤和48GB內(nèi)存(HBase占用24GB)。
此外Fackbook正在提高NameNode的高可用性和使用第二個(gè)NameNode,并使用閃存來提高性能。
IBM的Watson
Anant Jhingran是IBM的CTO,他重點(diǎn)介紹了IBM的Watson的分布式計(jì)算原理,實(shí)際上,盡管MapReduce被應(yīng)用到了Watson之中,但I(xiàn)BM并未對此進(jìn)行大規(guī)模的宣傳。(據(jù)現(xiàn)場目擊者描述,IBM只是介紹了Watson到底有多么強(qiáng)大,但到底是如何強(qiáng)大,IBM并未做出太多的描述)據(jù)了解,Watson的知識(shí)是來源于200萬個(gè)網(wǎng)頁數(shù)據(jù),總共2-5TB的數(shù)據(jù)量(即時(shí)性),而這一切,base在使用3000-4000瓦電量的基礎(chǔ)上(節(jié)能性)。他還指出,用戶界面和人工智能對于應(yīng)用程序來說同樣重要。
HCatalog——解決HDFS存儲(chǔ)瓶頸
HCatalog是Apache新的一個(gè)開源項(xiàng)目,由Yahoo剛成立的Hortonworks提交。HCatalog主要用于解決數(shù)據(jù)存儲(chǔ)、元數(shù)據(jù)的問題。(主要解決HDFS的瓶頸),它提供了一個(gè)地方來存儲(chǔ)數(shù)據(jù)的狀態(tài)信息,這使得數(shù)據(jù)清理和歸檔工具可以很容易的進(jìn)行處理。
HCatalog值得期待,因?yàn)橛脩舨辉僭傩枰獡?dān)心文件和目錄的問題。HCatalog還允許數(shù)據(jù)生產(chǎn)者改變寫數(shù)據(jù)操作,同時(shí)還支持舊格式數(shù)據(jù),對開發(fā)人員而言,HCatalog目前提供了一個(gè)API,用于幫助數(shù)據(jù)存儲(chǔ)開發(fā)人員讀取和寫入不同的格式數(shù)據(jù)。
從公布的信息來看,Pig和Hive已經(jīng)開始集成HCatalog,而Hortonworks正打算增加HCatalog對HBase的支持。
Giraph——大規(guī)模圖像處理
大規(guī)模圖形算法——Giraph。大規(guī)模的圖形算法是本次會(huì)議的一個(gè)熱點(diǎn),Avery Ching談到了Giraph——基于Hadoop的大規(guī)模圖像處理。Yahoo過去使用MPI處理圖形,可惜MPI沒有容錯(cuò)功能,而作為一個(gè)迭代的圖形處理庫,Giraph具有容錯(cuò)和動(dòng)態(tài)調(diào)節(jié)的功能。
實(shí)際上,雅虎的Webmap是一個(gè)用來計(jì)算網(wǎng)頁間鏈接關(guān)系,和基于鏈接關(guān)系的feature的算法。最主要的部分是link inversion和類似page rank的迭代算法,Giraph主要是webmap中相關(guān)算法的系統(tǒng)化框架化。
Hadoop in CBSi
令人驚訝的是,作為一個(gè)媒體集團(tuán),CBSi居然也擁有自己的MapReduce技術(shù),并支持Chukwa、Pig、Hive、HBase、Cascading、Sqoop、Oozie等等。CBSi用了100個(gè)節(jié)點(diǎn)、500TB磁盤來處理2.35億個(gè)媒體文件。CBSi的Hadoop平臺(tái)主要功能是數(shù)據(jù)挖掘、實(shí)驗(yàn)和對廣告系統(tǒng)優(yōu)化。而它正希望添加Oozie、Azkaban、HCatalog以及Hama(graph processing)到它的Hadoop平臺(tái)之上。
CSDN 分布式計(jì)算/hadoop討論版塊已經(jīng)開通,有興趣的同學(xué),可以就所關(guān)注的話題繼續(xù)討論。
杭州網(wǎng)站設(shè)計(jì)公司 杭州網(wǎng)站建設(shè)公司 杭州網(wǎng)站制作公司 杭州網(wǎng)站設(shè)計(jì) 杭州網(wǎng)站建設(shè) 杭州網(wǎng)站制作 杭州精品網(wǎng)站制作 杭州精典網(wǎng)站制作
-
杭州網(wǎng)站設(shè)計(jì)公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數(shù):823次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):865次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計(jì)與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):856次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):1022次
-
杭州網(wǎng)站設(shè)計(jì)公司:數(shù)據(jù)庫在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):992次
相關(guān)新聞
整合同類新聞,相關(guān)新聞一手掌握
-
教育培訓(xùn)類APP開發(fā)解決方案
日期:2021-03-12瀏覽次數(shù):1897次
-
教育培訓(xùn)APP開發(fā)時(shí)需要注意的問題
日期:2021-03-11瀏覽次數(shù):1776次
最新新聞
與互聯(lián)網(wǎng)同行,實(shí)時(shí)掌握網(wǎng)建行業(yè)最新動(dòng)態(tài)
-
【杭州網(wǎng)站設(shè)計(jì)】開源云平臺(tái)風(fēng)起云涌 OpenStack未來走向何處?
日期:2011-08-18瀏覽次數(shù):6963次
-
杭州網(wǎng)站建設(shè),聚焦點(diǎn)應(yīng)該是什么?
日期:2020-12-09瀏覽次數(shù):4438次
-
杭州app開發(fā)之題庫app有何優(yōu)勢?
日期:2021-02-20瀏覽次數(shù):4218次
-
數(shù)據(jù)庫對雞西網(wǎng)站建設(shè)的用處
日期:2021-03-09瀏覽次數(shù):1992次
-
選擇杭州app開發(fā),可以給杭州企業(yè)帶來什么好處?
日期:2021-08-24瀏覽次數(shù):3653次
隨機(jī)新聞
新聞新動(dòng)態(tài),您需要的新聞管家
洞悉市場趨勢演變讓傳播回歸社會(huì)
免費(fèi)獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報(bào)價(jià)
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場環(huán)境、衡量與預(yù)測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結(jié)合品牌理念深度挖掘項(xiàng)目優(yōu)勢和產(chǎn)品價(jià)值,提升客戶品牌認(rèn)知、認(rèn)可度。
-
我們的客戶
帷拓科技?xì)v經(jīng)十年沉淀,與國內(nèi)外上千家客戶達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動(dòng)、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學(xué)校、健康中國杭州峰會(huì)、科雷機(jī)電等,帷拓科技始終堅(jiān)持“帷有專業(yè),才能拓展無限”的服務(wù)理念,堅(jiān)持“認(rèn)真堅(jiān)持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實(shí)現(xiàn)共贏。
-
我們的業(yè)務(wù)
帷拓科技主營業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)、商城網(wǎng)站建設(shè)、公眾號(hào)運(yùn)營以及數(shù)字營銷等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個(gè)客戶量身定制項(xiàng)目整體服務(wù)方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實(shí)現(xiàn)從企業(yè)到消費(fèi)者的價(jià)值轉(zhuǎn)換。