【杭州網(wǎng)站建設(shè)】海量數(shù)據(jù)戰(zhàn)爭(zhēng)——誰(shuí)能贏得未來(lái)?
分享 2011.03.29 瀏覽次數(shù):8224次
【杭州網(wǎng)站建設(shè)】海量數(shù)據(jù)戰(zhàn)爭(zhēng)——誰(shuí)能贏得未來(lái)?
時(shí)至今日,海量數(shù)據(jù)時(shí)代的來(lái)臨已經(jīng)毋庸置疑,尤其是在互聯(lián)網(wǎng)、電信、金融等行業(yè),幾乎已經(jīng)到了“數(shù)據(jù)就是業(yè)務(wù)本身”的地步。在這其中,還挾裹著一個(gè)更為重要的趨勢(shì),即數(shù)據(jù)的社會(huì)化,這也是我們通常所說(shuō)的非結(jié)構(gòu)化數(shù)據(jù)。
以往人們認(rèn)為,把企業(yè)自有的運(yùn)營(yíng)數(shù)據(jù)進(jìn)行深度分析后,自然會(huì)有所得。但在今天看來(lái),這種做法的一大缺陷就是,數(shù)據(jù)不夠全面、及時(shí)。從理論上講,誰(shuí)掌握的數(shù)據(jù)越全面,得出的結(jié)論就越趨向于合理。企業(yè)只有構(gòu)建一個(gè)容納了足夠多關(guān)鍵信息的“深水池”,才更有可能做出正確的決策。
這種趨勢(shì)已經(jīng)讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變,隨之而來(lái)的,則是企業(yè)在IT架構(gòu)上的改變,這也意味著,海量數(shù)據(jù)市場(chǎng),正孕育著一個(gè)前景無(wú)法限量的巨大商機(jī)。
海量數(shù)據(jù)市場(chǎng)爭(zhēng)奪——對(duì)IT大佬們而言,這也是一場(chǎng)誰(shuí)也輸不起的“戰(zhàn)爭(zhēng)”。
Hadoop的神話
從Yahoo的 Web搜索研究,到Facebook的數(shù)據(jù)分析,再到百度的搜索日志分析、淘寶的數(shù)據(jù)魔方服務(wù),以及中移動(dòng)推出了 “大云”(BigCloud)系統(tǒng),Hadoop的身影都已經(jīng)到處閃現(xiàn)。簡(jiǎn)單來(lái)講,社會(huì)化數(shù)據(jù)時(shí)代的企業(yè)需要像八爪魚一樣,能夠發(fā)現(xiàn)并拿到他需要的數(shù)據(jù),而Hadoop技術(shù)的好處就是,不但可以方便地嵌入到各種實(shí)際應(yīng)用中以實(shí)現(xiàn)全文搜索/索引,而且可以進(jìn)行數(shù)據(jù)抓取。比如雅虎,通過(guò)應(yīng)用這一技術(shù),幾乎可以實(shí)時(shí)分析每一個(gè)頁(yè)面點(diǎn)擊并優(yōu)化內(nèi)容的排名,每7分鐘就能更新一次結(jié)果。
以Hadoop為代表的海量數(shù)據(jù)處理開源工具無(wú)疑是吸引人的,“開源工具可以查看代碼,這樣開發(fā)者可以找到他們整合時(shí)里面是什么。在幾乎所有的案例中,開源分析都更具性價(jià)比和靈活性。”Revolution Analytics的Minelli表示。
數(shù)據(jù)量在持續(xù)的增長(zhǎng),公司將被迫增加基礎(chǔ)設(shè)施的部署。專利費(fèi)用將一直增加,而開源技術(shù),則省了這筆一直持續(xù)的專利費(fèi)。Twitter選擇Hadoop,其中重要的原因是專有工具的費(fèi)用太高。
Hadoop之所以能夠風(fēng)靡一時(shí),在筆者看來(lái),除了其在海量數(shù)據(jù)處理上的方式,最重要的因素關(guān)鍵在于它是免費(fèi)的。
更長(zhǎng)遠(yuǎn)的來(lái)看,開源工具使企業(yè)創(chuàng)建新的分析技術(shù),更好的處理非結(jié)構(gòu)化的語(yǔ)言,比如圖片等。而不能寄托于傳統(tǒng)廠商發(fā)展新的分析技術(shù)。開源工具給了企業(yè)創(chuàng)新的機(jī)會(huì)。
但是Hadoop也并不能代表一切,Hadoop的MapReduce在性能上的確是有局限性的:比如MapReduce沒有索引,只有靠強(qiáng)大的運(yùn)算能力來(lái)處理;此外,MapReduce本身存在一些lower-level實(shí)現(xiàn)的問(wèn)題, 特別是skew和數(shù)據(jù)交換等等。
Cloudscale創(chuàng)始人和首席執(zhí)行官Bill McColl曾指出,從性能上而言,下一代的架構(gòu)需要在MapReduce/Hadoop的基礎(chǔ)上有10——10000倍的性能提高。正因如此,我們看到,針對(duì)Hadoop遭遇到的性能瓶頸,Yahoo正準(zhǔn)備開始對(duì)Hadoop進(jìn)行重構(gòu)。
與此同時(shí),Hadoop的競(jìng)爭(zhēng)對(duì)手們,比如Cloudera、Mapr們,正緊鑼密鼓地推出更具競(jìng)爭(zhēng)力的產(chǎn)品和技術(shù),而最新的產(chǎn)品無(wú)疑是Mapr,Marp是一個(gè)比現(xiàn)有Hadoop分布式文件系統(tǒng)還要快三倍的產(chǎn)品,并且也是開源的。Mapr配備了快照,并號(hào)稱不會(huì)出現(xiàn)SPOF單節(jié)點(diǎn)故障,且被認(rèn)為是與現(xiàn)有HDFS的API兼容。因此非常容易替換原有的系統(tǒng)。
總之,Hadoop并不一定適合所有的案例。比如海量數(shù)據(jù)的捕捉、存儲(chǔ)、分析,依靠特殊的應(yīng)用的特性,等等,這些都非Hadoop所長(zhǎng)。相比較Hadoop的處理能力,一些SQL架構(gòu)依然呈現(xiàn)數(shù)量級(jí)的優(yōu)勢(shì)。從某種意義上而言,在采用scale-out網(wǎng)絡(luò)連接方式的EMC Isilon或IBM的SONAS,可能對(duì)于使用非結(jié)構(gòu)化的數(shù)據(jù)比如圖片、視頻會(huì)更好。
因此,海量數(shù)據(jù)競(jìng)爭(zhēng)的另外一個(gè)領(lǐng)域就是開源與專有工具的混合使用,這也是傳統(tǒng)的IT大佬們正在努力的方向。
IT大佬們的海量數(shù)據(jù)算盤
如果你認(rèn)為IBM、EMC、Oracle、微軟這些傳統(tǒng)的數(shù)據(jù)技術(shù)大佬們對(duì)海量數(shù)據(jù)這個(gè)市場(chǎng)視而不見,那么你就錯(cuò)了。IBM、EMC、甚至包括微軟,他們與開源項(xiàng)目的合作一直都非常緊密。
IBM
實(shí)際上,IBM早已擁有了Hadoop項(xiàng)目,并推出了在Hadoop架構(gòu)上建立作為群集運(yùn)行DB2或Oracle數(shù)據(jù)庫(kù)的集群系統(tǒng),根據(jù)IBM的測(cè)試數(shù)據(jù)顯示,在IBM一個(gè)擁有40個(gè)節(jié)點(diǎn)的文件系統(tǒng)將有12GB/sec吞吐量,并與400個(gè)節(jié)點(diǎn)的系統(tǒng)可以達(dá)到120GB/sec吞吐量。
如果再深究的話,你可以發(fā)現(xiàn),在海量數(shù)據(jù)上,IBM其實(shí)主打的是小型機(jī)的并行運(yùn)算,這一點(diǎn),從其前不久推出的Watson就能看出,由90臺(tái)Power組成的Watson是一個(gè)非常典型的BI實(shí)例,從數(shù)據(jù)存儲(chǔ)、到數(shù)據(jù)分析與挖掘,Watson體現(xiàn)的是IBM對(duì)于未來(lái)海量數(shù)據(jù)的實(shí)現(xiàn)原理,Watson存儲(chǔ)了海量的百科全書、論文文獻(xiàn)等等以文章方式存儲(chǔ)的資料,它們之中也會(huì)有相關(guān)的信息。但由于這些資料是非結(jié)構(gòu)化的,所以watson必須通過(guò)非常費(fèi)力的文本搜索來(lái)取得信息。而這個(gè)過(guò)程中又會(huì)用到前面用過(guò)的提取專有名詞、詞性、文本結(jié)構(gòu)等方式。
從架構(gòu)上可以看到,Watson所使用的軟件實(shí)質(zhì)是建立在IBM開源的UIMA體系結(jié)構(gòu)之上。UIMA是一個(gè)用于非結(jié)構(gòu)化信息管理應(yīng)用的平臺(tái),提供了一個(gè)可使問(wèn)題處理模塊獨(dú)立工作的框架,能夠?qū)Y(jié)果進(jìn)行篩選得出最佳答案。而Apache項(xiàng)目則開發(fā)了當(dāng)前的UIMA版本以及一些通用模塊,而Watson在電視節(jié)目中使用的模塊只是其中的一部分。
EMC
2010年7月,當(dāng)EMC宣布以現(xiàn)金方式收購(gòu)私有數(shù)據(jù)存儲(chǔ)公司Greenplum后,迅速以Greenplum為基礎(chǔ),在信息基礎(chǔ)架構(gòu)業(yè)務(wù)部門之下組成一個(gè)新的部門——數(shù)據(jù)計(jì)算產(chǎn)品部。而在完成了Isilon的收購(gòu)后,EMC也完全具備了進(jìn)軍海量數(shù)據(jù)市場(chǎng)的一切產(chǎn)品和技術(shù)。
根據(jù)EMC的Isilon橫向擴(kuò)展NAS架構(gòu)(使用其OneFS操作系統(tǒng))可以看到,其可在單一文件系統(tǒng)中擴(kuò)展至10PB以上,并支持每秒50GB的吞吐量。然而,大數(shù)據(jù)應(yīng)用可能會(huì)更注重某方面或其其他相關(guān)數(shù)據(jù)。因此,Isilon中的S產(chǎn)品系列主要針對(duì)于高事務(wù)處理和IOPS密集的應(yīng)用,比如基因組研究;而X系列解決方案主要針對(duì)容量密集型應(yīng)用,諸如醫(yī)療圖像這樣的需要高并發(fā)處理和順序吞吐的應(yīng)用。
而Greenplum則專注于應(yīng)對(duì)大數(shù)據(jù)所帶來(lái)的分析挑戰(zhàn)。其產(chǎn)品套件支持分析密集型的大數(shù)據(jù)集,最終幫助終端用戶大數(shù)據(jù)中挖掘突出價(jià)值。這通常需要復(fù)雜分析,比如特定的互動(dòng)分析,而非簡(jiǎn)單的結(jié)構(gòu)報(bào)告。分析速度尤其重要,特別是在需要頻繁執(zhí)行時(shí)以及數(shù)據(jù)分析結(jié)果有助于決策時(shí)。此外,為滿足更大規(guī)模的數(shù)據(jù)應(yīng)用需求,Greenplum還開發(fā)了大規(guī)模并行處理(MPP)系統(tǒng),其關(guān)鍵要素在于性能和可擴(kuò)展性。
微軟
應(yīng)該說(shuō),在非結(jié)構(gòu)化數(shù)據(jù)市場(chǎng),微軟一直都在對(duì)這個(gè)市場(chǎng)持續(xù)認(rèn)真地投入,并于去年年底發(fā)布了公測(cè)版Dryad平臺(tái),其實(shí),Dryad也并非微軟的新產(chǎn)品,Dryad和DryadLINQ其實(shí)早在微軟收購(gòu)Powerset之前就已經(jīng)存在,目前推出的,只不過(guò)是商業(yè)版。微軟于2007年首度揭曉了關(guān)于技術(shù)的研究成果,并于2009年向?qū)W術(shù)界推出了非商業(yè)版Dryad和DryadLINQ。
值得注意的是,2008年,微軟曾收購(gòu)了Powerset,并將Powerset基于Hadoop的技術(shù)應(yīng)用于其(bing)搜索引擎之上。而微軟當(dāng)時(shí)甚至答應(yīng)Powerset員工繼續(xù)向Hadoop貢獻(xiàn)源代碼,Powerset也由此建立了Hadoop的姊妹項(xiàng)目——HBase,模擬Google的BigTable數(shù)據(jù)庫(kù)。
與MapReduce不同的是,Dryad是針對(duì)運(yùn)行Windows HPC Server的集群計(jì)算設(shè)計(jì)的,而非Linux——這恐怕是Dryad容易被人所詬病的一點(diǎn)。由于Hadoop是基于Java編寫的,因此這些程序恐怕并不太適合跑在微軟的Windows平臺(tái)或者.NET之上;另外,微軟是在2005年進(jìn)入到高性能計(jì)算市場(chǎng)的,目前而言,這個(gè)市場(chǎng)是被Linux所占領(lǐng)的。而目前Apache的Hadoop環(huán)境是只支持Linux的,Windows還在不斷開發(fā)中。
不僅如此,微軟還在近日發(fā)布了其圖數(shù)據(jù)庫(kù)系統(tǒng)Trinity。Trinity是一個(gè)基于內(nèi)存的數(shù)據(jù)存儲(chǔ)與運(yùn)算系統(tǒng),目前在微軟為Probase和AEther這兩個(gè)產(chǎn)品服務(wù)。
專有工具、開源工具你選誰(shuí)?
海量數(shù)據(jù)正在不斷生成,對(duì)于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的融合,成了所有人的心病,憑心而論,在Google公開其Megastore之前,類似象金融、電信這樣的客戶,很少敢于將自己的數(shù)據(jù)系統(tǒng)做全面的遷移,而這對(duì)于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)廠商來(lái)說(shuō),無(wú)疑是給了一個(gè)喘息的機(jī)會(huì)。
短期來(lái)講,開源分析將越來(lái)越廣泛的使用,并且增長(zhǎng)迅速。長(zhǎng)期來(lái)看,混合技術(shù)的應(yīng)用將在高度競(jìng)爭(zhēng)的市場(chǎng)上出現(xiàn),兩者將同樣有巨大的需求。
提供了處理大數(shù)據(jù)分析能力的專有軟件包括AsterData;IBM的專有軟件Netezza、Datameer, 建立在Apache的Hadoop上的專有軟件以及Paraccel。
此外,Oracle 的Exadata以及EMC的Greenplum也是處理大數(shù)據(jù)量的專有工具。EMC引入了Greenplum數(shù)據(jù)庫(kù)的免費(fèi)社區(qū)版本,該社區(qū)版本只是軟件。Greenplum社區(qū)報(bào)表包括3個(gè)協(xié)作模塊Greenplum DB, MADlib, 和Alpine Miner。
處理大數(shù)據(jù)量的開源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。
Jaspersoft提供的BI工具,提供了報(bào)告、分析、ETLETL (解壓、轉(zhuǎn)換、加載) ,針對(duì)大量的并行分析數(shù)據(jù)庫(kù),包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地報(bào)告,通過(guò)Hadoop和各種類型的NoSQL數(shù)據(jù)庫(kù)包括MongoDB, Riak, CouchDB and Infinispan的開源連接。
-
杭州網(wǎng)站設(shè)計(jì)公司:品牌網(wǎng)站開發(fā)助力企業(yè)成長(zhǎng)
日期:2024-12-20瀏覽次數(shù):605次
-
杭州網(wǎng)站建設(shè)公司:商城網(wǎng)站建設(shè)的六大關(guān)鍵步驟
日期:2024-12-18瀏覽次數(shù):636次
-
杭州網(wǎng)站制作:醫(yī)院網(wǎng)站設(shè)計(jì)與域名備案的復(fù)雜性探討
日期:2024-12-18瀏覽次數(shù):637次
-
杭州網(wǎng)站制作公司:打造安全可靠的醫(yī)院網(wǎng)站
日期:2024-12-11瀏覽次數(shù):819次
-
杭州網(wǎng)站設(shè)計(jì)公司:數(shù)據(jù)庫(kù)在高端網(wǎng)站制作中的關(guān)鍵作用
日期:2024-12-11瀏覽次數(shù):778次
相關(guān)新聞
整合同類新聞,相關(guān)新聞一手掌握
-
在荊門做網(wǎng)站,網(wǎng)站頁(yè)面排版布局,必須要知道四大技巧
日期:2023-02-10瀏覽次數(shù):1782次
-
在荊門, 做網(wǎng)站設(shè)計(jì)框架類型有哪些
日期:2023-02-10瀏覽次數(shù):1661次
-
荊門做網(wǎng)站:影響網(wǎng)站設(shè)計(jì)美觀度的兩大要素
日期:2023-02-10瀏覽次數(shù):1703次
-
荊門定制app到底有哪些意義?
日期:2020-11-03瀏覽次數(shù):2174次
-
移動(dòng)醫(yī)療類荊門app開發(fā)該如何做?
日期:2020-11-03瀏覽次數(shù):2131次
最新新聞
與互聯(lián)網(wǎng)同行,實(shí)時(shí)掌握網(wǎng)建行業(yè)最新動(dòng)態(tài)
-
網(wǎng)站應(yīng)用程序開發(fā)的步驟
日期:2016-06-14瀏覽次數(shù):6045次
-
iPhone 7問(wèn)世之后對(duì)于網(wǎng)站建設(shè)改變的影響
日期:2016-12-22瀏覽次數(shù):5263次
-
做營(yíng)銷型網(wǎng)站的優(yōu)化可能有哪些難點(diǎn)?
日期:2020-03-05瀏覽次數(shù):4583次
-
淮安做網(wǎng)站,怎樣讓網(wǎng)站快速被搜索引擎收錄?
日期:2020-10-22瀏覽次數(shù):2068次
-
杭州網(wǎng)站制作,關(guān)鍵在于提高質(zhì)量
日期:2021-04-22瀏覽次數(shù):3904次
隨機(jī)新聞
新聞新動(dòng)態(tài),您需要的新聞管家
洞悉市場(chǎng)趨勢(shì)演變讓傳播回歸社會(huì)
免費(fèi)獲取網(wǎng)站建設(shè)與網(wǎng)絡(luò)推廣方案報(bào)價(jià)
-
關(guān)于我們
杭州帷拓科技有限公司,是一家新型的全案網(wǎng)絡(luò)開發(fā)公司,作為以互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網(wǎng)絡(luò)技術(shù)服務(wù)供應(yīng)商,帷拓科技致力于全面分析市場(chǎng)環(huán)境、衡量與預(yù)測(cè)市場(chǎng)需求、整合區(qū)別于行業(yè)競(jìng)爭(zhēng)對(duì)手的絕對(duì)優(yōu)勢(shì),結(jié)合品牌理念深度挖掘項(xiàng)目?jī)?yōu)勢(shì)和產(chǎn)品價(jià)值,提升客戶品牌認(rèn)知、認(rèn)可度。
-
我們的客戶
帷拓科技?xì)v經(jīng)十年沉淀,與國(guó)內(nèi)外上千家客戶達(dá)成合作關(guān)系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動(dòng)、浙江5G產(chǎn)業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語(yǔ)學(xué)校、健康中國(guó)杭州峰會(huì)、科雷機(jī)電等,帷拓科技始終堅(jiān)持“帷有專業(yè),才能拓展無(wú)限”的服務(wù)理念,堅(jiān)持“認(rèn)真堅(jiān)持細(xì)節(jié)”的優(yōu)質(zhì)服務(wù)理念,不斷完善自身,成就企業(yè),最終實(shí)現(xiàn)共贏。
-
我們的業(yè)務(wù)
帷拓科技主營(yíng)業(yè)務(wù)范圍包含互聯(lián)網(wǎng)高端網(wǎng)站建設(shè)、APP開發(fā)、小程序開發(fā)、商城網(wǎng)站建設(shè)、公眾號(hào)運(yùn)營(yíng)以及數(shù)字營(yíng)銷等,涵蓋了服務(wù)、房產(chǎn)、數(shù)碼、服裝、物流貿(mào)易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個(gè)客戶量身定制項(xiàng)目整體服務(wù)方案,以敏銳的市場(chǎng)洞察力、創(chuàng)新的市場(chǎng)策劃能力,全面把握市場(chǎng)變化,為客戶實(shí)現(xiàn)從企業(yè)到消費(fèi)者的價(jià)值轉(zhuǎn)換。