【杭州網(wǎng)站設計】直擊HadoopSummit 2011:迎接海量數(shù)據(jù)挑戰(zhàn)
分享 2011.07.01 瀏覽次數(shù):7939次
海量數(shù)據(jù)正在不斷生成,對于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,面對海量數(shù)據(jù),如何分析并有效利用其價值,同時優(yōu)化企業(yè)業(yè)務已成為現(xiàn)代企業(yè)轉(zhuǎn)型過程中不可避免的問題。
作為海量數(shù)據(jù)處理的一個重要工具——Hadoop也開始受到了越來越多人的關(guān)注。第四屆Hadoop大會——Hadoop Summit 2011大會6月29日在Santa Clara舉行了,備受關(guān)注的Yahoo新成立的子公司——Hortonworks在此次大會上亮相,號稱比Hadoop快三倍的MapR也亮相了、同時一些新的項目比如HCatalog等也受到了技術(shù)人員的關(guān)注。我們將此次會議的一些重要信息整理如下,提供給Hadoop的從業(yè)者們參考。
三大Hadoop支持商爭奇斗艷
Hortonworks——小象變成了大象
Eric Baldeschwieler做了主題演講,他也是Hortonworks(Yahoo剝離出的專門運營Hadoop的新公司)未來的CEO。Hortonworks公司將專門負責Hadoop的開發(fā)和運維。他表示新公司的目標是提供商業(yè)上的支持,并為客戶提供完整的Apache Hadoop平臺。他還表示Cloudera是他們的競爭對手,并且表示兩家公司非常相似。(Eric并未提及MapR,也許在他看來,由EMC贊助的MapR至少在開放性上還很難與Hortonworks和cloudera相比較,不過在對Hadoop的支持上,Cloudera、MapR和Hortonworks將是最有力的三個貢獻者,從LOGO即可看出,Hadoop已經(jīng)從小象變成了三只大象)。Cloudera提供他們自己的Hadoop分布式系統(tǒng)基礎架構(gòu),類似于Apache發(fā)布的版本,Hortonworks的目標是提供類似的服務。
此外,Sanjay Radia也談到了Hadoop對企業(yè)的影響,Hortonworks在工作安全性(防止用戶數(shù)據(jù)被別人刪除)、服務水平協(xié)議(SLA)、可預測性和資源共享調(diào)度等方面進行了改善。
MapR——最大處理1010EB數(shù)據(jù)
MapR——MC Srivas介紹了MapR的算法,以及和Apache Hadoop的不同。MapR的Hadoop Distribution對Hadoop的可靠性、性能和易用方面都做了大量的提升。HDFS可以處理10-50PB的數(shù)據(jù),而MapR則可以處理1010EB數(shù)據(jù)!(什么概念??。〩DFS的瓶頸是2000節(jié)點的集群,而MapR的的處理能力則是10000個節(jié)點以上的集群。
在NameNode HA方面,MapR把元數(shù)據(jù)放在了所有的節(jié)點,這樣不僅可以scale還可以實現(xiàn)HA,由于元數(shù)據(jù)很少檢索,因此有更多的內(nèi)存可用于MapReduce處理。另外,MapR與Pig和Oozie兼容,HDFS也完全兼容了NFS協(xié)議,支持隨機讀寫功能。
此外,MapR還配備了快照,并號稱不會出現(xiàn)SPOF單節(jié)點故障,且與現(xiàn)有HDFS的API兼容,因此非常容易替換原有的系統(tǒng)。
目前,MapR M3 Free版本已經(jīng)提供下載。
Cloudera——3.5版本發(fā)布
CLoudera新發(fā)布的Enterprise 3.5是此次大會的亮點之一。產(chǎn)品副總裁Charles Zedlewski表示,“最大的變化在于能夠讓用戶在一兩分鐘內(nèi)就可以安裝和配置Google-like這樣的架構(gòu)”。
據(jù)了解,3.5版本能夠自動配置、重啟服務器、添加刪除硬件。另外還有一個活動監(jiān)視器,整合各組件的用戶行為,并提供實時查看活動、活動歷史以及工作;同時它還提高了資源和授權(quán)的管理,并改善LDAP(Lightweight Directory Access Protocol)系統(tǒng)安全。
Cloudera 3.5提供了10個組件。Charles Zedlewski還表示將進一步增加3到4個CDH的組件,例如壓縮算法,利用Google的Snappy加快數(shù)據(jù)的導入和導出。
免費的Express版已經(jīng)可以下載,這個版本可自動安裝和配置50個節(jié)點。
Kafka、Haystack、HCatalog——海量數(shù)據(jù)處理的未來
Linkedln——只有7000行代碼的Kafka
Linkedln作為最近最熱的社交網(wǎng)站,受到了與會者們的重點關(guān)注。開源的Kafka是Linkedln的開源消息隊列——包括數(shù)據(jù)跟蹤、記錄、指標、消息和隊列。僅僅由7000行Scala編寫,據(jù)了解,Kafka每秒可以生產(chǎn)約25萬消息(50 MB),每秒處理55萬消息(110 MB)。
在kafka的核心思路中,不需要在內(nèi)存里緩存數(shù)據(jù),因為操作系統(tǒng)的文件緩存已經(jīng)足夠完善和強大,只要不做隨機寫,順序讀寫的性能是非常高效的。kafka的數(shù)據(jù)只會順序append,數(shù)據(jù)的刪除策略是累積到一定程度或者超過一定時間再刪除。Kafka另一個獨特的地方是將消費者信息保存在客戶端而不是MQ服務器,這樣服務器就不用記錄消息的投遞過程,每個客戶端都自己知道自己下一次應該從什么地方什么位置讀取消息,消息的投遞過程也是采用客戶端主動pull的模型,這樣大大減輕了服務器的負擔。Kafka還強調(diào)減少數(shù)據(jù)的序列化和拷貝開銷,它會將一些消息組織成Message Set做批量存儲和發(fā)送,并且客戶端在pull數(shù)據(jù)的時候,盡量以zero-copy的方式傳輸,利用sendfile(對應java里的FileChannel.transferTo/transferFrom)這樣的高級IO函數(shù)來減少拷貝開銷。可見,kafka是一個精心設計,特定于某些應用的MQ系統(tǒng),這種偏向特定領(lǐng)域的MQ系統(tǒng)我估計會越來越多,垂直化的產(chǎn)品策略值的考慮。
Facebook的Haystack
在Karthic Ranganathan的演講中,F(xiàn)aceBook每月有150億條信息,但不包括短信和電子郵件,大約有14TB的數(shù)據(jù)。此外還有1200億聊天數(shù)據(jù),大約有25TB,每月總計會有300TB的數(shù)據(jù)生成。Facebook使用HBase滿足他們的在小消息(small message)、元數(shù)據(jù)、和搜索引擎的需求。
據(jù)了解,F(xiàn)acebook使用HBase是因為它的高吞吐量寫入簡單并具有橫向擴展的能力。Facebook使用被稱之為“Haystack”的系統(tǒng)存儲照片、大型郵件和附件,而“Haystack”的配置是16個內(nèi)核,12個1TB硬盤和48GB內(nèi)存(HBase占用24GB)。
此外Fackbook正在提高NameNode的高可用性和使用第二個NameNode,并使用閃存來提高性能。
IBM的Watson
Anant Jhingran是IBM的CTO,他重點介紹了IBM的Watson的分布式計算原理,實際上,盡管MapReduce被應用到了Watson之中,但IBM并未對此進行大規(guī)模的宣傳。(據(jù)現(xiàn)場目擊者描述,IBM只是介紹了Watson到底有多么強大,但到底是如何強大,IBM并未做出太多的描述)據(jù)了解,Watson的知識是來源于200萬個網(wǎng)頁數(shù)據(jù),總共2-5TB的數(shù)據(jù)量(即時性),而這一切,base在使用3000-4000瓦電量的基礎上(節(jié)能性)。他還指出,用戶界面和人工智能對于應用程序來說同樣重要。
HCatalog——解決HDFS存儲瓶頸
HCatalog是Apache新的一個開源項目,由Yahoo剛成立的Hortonworks提交。HCatalog主要用于解決數(shù)據(jù)存儲、元數(shù)據(jù)的問題。(主要解決HDFS的瓶頸),它提供了一個地方來存儲數(shù)據(jù)的狀態(tài)信息,這使得數(shù)據(jù)清理和歸檔工具可以很容易的進行處理。
HCatalog值得期待,因為用戶不再再需要擔心文件和目錄的問題。HCatalog還允許數(shù)據(jù)生產(chǎn)者改變寫數(shù)據(jù)操作,同時還支持舊格式數(shù)據(jù),對開發(fā)人員而言,HCatalog目前提供了一個API,用于幫助數(shù)據(jù)存儲開發(fā)人員讀取和寫入不同的格式數(shù)據(jù)。
從公布的信息來看,Pig和Hive已經(jīng)開始集成HCatalog,而Hortonworks正打算增加HCatalog對HBase的支持。
Giraph——大規(guī)模圖像處理
大規(guī)模圖形算法——Giraph。大規(guī)模的圖形算法是本次會議的一個熱點,Avery Ching談到了Giraph——基于Hadoop的大規(guī)模圖像處理。Yahoo過去使用MPI處理圖形,可惜MPI沒有容錯功能,而作為一個迭代的圖形處理庫,Giraph具有容錯和動態(tài)調(diào)節(jié)的功能。
實際上,雅虎的Webmap是一個用來計算網(wǎng)頁間鏈接關(guān)系,和基于鏈接關(guān)系的feature的算法。最主要的部分是link inversion和類似page rank的迭代算法,Giraph主要是webmap中相關(guān)算法的系統(tǒng)化框架化。
Hadoop in CBSi
令人驚訝的是,作為一個媒體集團,CBSi居然也擁有自己的MapReduce技術(shù),并支持Chukwa、Pig、Hive、HBase、Cascading、Sqoop、Oozie等等。CBSi用了100個節(jié)點、500TB磁盤來處理2.35億個媒體文件。CBSi的Hadoop平臺主要功能是數(shù)據(jù)挖掘、實驗和對廣告系統(tǒng)優(yōu)化。而它正希望添加Oozie、Azkaban、HCatalog以及Hama(graph processing)到它的Hadoop平臺之上。
CSDN 分布式計算/hadoop討論版塊已經(jīng)開通,有興趣的同學,可以就所關(guān)注的話題繼續(xù)討論。
杭州網(wǎng)站設計公司 杭州網(wǎng)站建設公司 杭州網(wǎng)站制作公司 杭州網(wǎng)站設計 杭州網(wǎng)站建設 杭州網(wǎng)站制作 杭州精品網(wǎng)站制作 杭州精典網(wǎng)站制作
-
杭州網(wǎng)站設計公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數(shù):596次
-
杭州網(wǎng)站建設公司:商城網(wǎng)站建設的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):628次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設計與域名備案的復雜性探討
日期:2024-12-18瀏覽次數(shù):623次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):813次
-
杭州網(wǎng)站設計公司:數(shù)據(jù)庫在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):777次
相關(guān)新聞
整合同類新聞,相關(guān)新聞一手掌握
-
杭州網(wǎng)站優(yōu)化公司:企業(yè)IP打造與全網(wǎng)霸屏推廣
日期:2024-12-20瀏覽次數(shù):447次
-
杭州APP定制:選擇合適開發(fā)公司的重要性
日期:2024-12-20瀏覽次數(shù):535次
-
杭州app開發(fā):如何選擇專業(yè)開發(fā)公司?
日期:2024-12-20瀏覽次數(shù):529次
-
杭州定制小程序公司:小程序行業(yè)的未來趨勢
日期:2024-12-20瀏覽次數(shù):539次
-
杭州網(wǎng)站設計公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數(shù):596次
最新新聞
與互聯(lián)網(wǎng)同行,實時掌握網(wǎng)建行業(yè)最新動態(tài)
-
中國版“谷歌地球”上線 資料陳舊功能欠缺
日期:2010-11-03瀏覽次數(shù):7423次
-
《時代》評選2010年代十大科技產(chǎn)品
日期:2020-01-19瀏覽次數(shù):4967次
-
如何穩(wěn)定網(wǎng)站關(guān)鍵詞的首頁排名
日期:2020-01-20瀏覽次數(shù):2113次
-
寵物APP開發(fā)的功能
日期:2021-02-22瀏覽次數(shù):1907次
-
如何簡單設計杭州商務型網(wǎng)站?
日期:2021-09-03瀏覽次數(shù):3610次
隨機新聞
新聞新動態(tài),您需要的新聞管家
洞悉市場趨勢演變讓傳播回歸社會
免費獲取網(wǎng)站建設與網(wǎng)絡推廣方案報價
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡開發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網(wǎng)絡技術(shù)服務供應商,帷拓科技致力于全面分析市場環(huán)境、衡量與預測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結(jié)合品牌理念深度挖掘項目優(yōu)勢和產(chǎn)品價值,提升客戶品牌認知、認可度。
-
我們的客戶
帷拓科技歷經(jīng)十年沉淀,與國內(nèi)外上千家客戶達成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學校、健康中國杭州峰會、科雷機電等,帷拓科技始終堅持“帷有專業(yè),才能拓展無限”的服務理念,堅持“認真堅持細節(jié)”的優(yōu)質(zhì)服務理念,不斷完善自身,成就企業(yè),最終實現(xiàn)共贏。
-
我們的業(yè)務
帷拓科技主營業(yè)務范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設、APP開發(fā)、小程序開發(fā)、商城網(wǎng)站建設、公眾號運營以及數(shù)字營銷等,涵蓋了服務、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個客戶量身定制項目整體服務方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實現(xiàn)從企業(yè)到消費者的價值轉(zhuǎn)換。