【杭州網站建設】海量數(shù)據(jù)戰(zhàn)爭——誰能贏得未來?
分享 2011.03.29 瀏覽次數(shù):8263次
【杭州網站建設】海量數(shù)據(jù)戰(zhàn)爭——誰能贏得未來?
時至今日,海量數(shù)據(jù)時代的來臨已經毋庸置疑,尤其是在互聯(lián)網、電信、金融等行業(yè),幾乎已經到了“數(shù)據(jù)就是業(yè)務本身”的地步。在這其中,還挾裹著一個更為重要的趨勢,即數(shù)據(jù)的社會化,這也是我們通常所說的非結構化數(shù)據(jù)。
以往人們認為,把企業(yè)自有的運營數(shù)據(jù)進行深度分析后,自然會有所得。但在今天看來,這種做法的一大缺陷就是,數(shù)據(jù)不夠全面、及時。從理論上講,誰掌握的數(shù)據(jù)越全面,得出的結論就越趨向于合理。企業(yè)只有構建一個容納了足夠多關鍵信息的“深水池”,才更有可能做出正確的決策。
這種趨勢已經讓很多相信數(shù)據(jù)之力量的企業(yè)做出改變,隨之而來的,則是企業(yè)在IT架構上的改變,這也意味著,海量數(shù)據(jù)市場,正孕育著一個前景無法限量的巨大商機。
海量數(shù)據(jù)市場爭奪——對IT大佬們而言,這也是一場誰也輸不起的“戰(zhàn)爭”。
Hadoop的神話
從Yahoo的 Web搜索研究,到Facebook的數(shù)據(jù)分析,再到百度的搜索日志分析、淘寶的數(shù)據(jù)魔方服務,以及中移動推出了 “大云”(BigCloud)系統(tǒng),Hadoop的身影都已經到處閃現(xiàn)。簡單來講,社會化數(shù)據(jù)時代的企業(yè)需要像八爪魚一樣,能夠發(fā)現(xiàn)并拿到他需要的數(shù)據(jù),而Hadoop技術的好處就是,不但可以方便地嵌入到各種實際應用中以實現(xiàn)全文搜索/索引,而且可以進行數(shù)據(jù)抓取。比如雅虎,通過應用這一技術,幾乎可以實時分析每一個頁面點擊并優(yōu)化內容的排名,每7分鐘就能更新一次結果。
以Hadoop為代表的海量數(shù)據(jù)處理開源工具無疑是吸引人的,“開源工具可以查看代碼,這樣開發(fā)者可以找到他們整合時里面是什么。在幾乎所有的案例中,開源分析都更具性價比和靈活性。”Revolution Analytics的Minelli表示。
數(shù)據(jù)量在持續(xù)的增長,公司將被迫增加基礎設施的部署。專利費用將一直增加,而開源技術,則省了這筆一直持續(xù)的專利費。Twitter選擇Hadoop,其中重要的原因是專有工具的費用太高。
Hadoop之所以能夠風靡一時,在筆者看來,除了其在海量數(shù)據(jù)處理上的方式,最重要的因素關鍵在于它是免費的。
更長遠的來看,開源工具使企業(yè)創(chuàng)建新的分析技術,更好的處理非結構化的語言,比如圖片等。而不能寄托于傳統(tǒng)廠商發(fā)展新的分析技術。開源工具給了企業(yè)創(chuàng)新的機會。
但是Hadoop也并不能代表一切,Hadoop的MapReduce在性能上的確是有局限性的:比如MapReduce沒有索引,只有靠強大的運算能力來處理;此外,MapReduce本身存在一些lower-level實現(xiàn)的問題, 特別是skew和數(shù)據(jù)交換等等。
Cloudscale創(chuàng)始人和首席執(zhí)行官Bill McColl曾指出,從性能上而言,下一代的架構需要在MapReduce/Hadoop的基礎上有10——10000倍的性能提高。正因如此,我們看到,針對Hadoop遭遇到的性能瓶頸,Yahoo正準備開始對Hadoop進行重構。
與此同時,Hadoop的競爭對手們,比如Cloudera、Mapr們,正緊鑼密鼓地推出更具競爭力的產品和技術,而最新的產品無疑是Mapr,Marp是一個比現(xiàn)有Hadoop分布式文件系統(tǒng)還要快三倍的產品,并且也是開源的。Mapr配備了快照,并號稱不會出現(xiàn)SPOF單節(jié)點故障,且被認為是與現(xiàn)有HDFS的API兼容。因此非常容易替換原有的系統(tǒng)。
總之,Hadoop并不一定適合所有的案例。比如海量數(shù)據(jù)的捕捉、存儲、分析,依靠特殊的應用的特性,等等,這些都非Hadoop所長。相比較Hadoop的處理能力,一些SQL架構依然呈現(xiàn)數(shù)量級的優(yōu)勢。從某種意義上而言,在采用scale-out網絡連接方式的EMC Isilon或IBM的SONAS,可能對于使用非結構化的數(shù)據(jù)比如圖片、視頻會更好。
因此,海量數(shù)據(jù)競爭的另外一個領域就是開源與專有工具的混合使用,這也是傳統(tǒng)的IT大佬們正在努力的方向。
IT大佬們的海量數(shù)據(jù)算盤
如果你認為IBM、EMC、Oracle、微軟這些傳統(tǒng)的數(shù)據(jù)技術大佬們對海量數(shù)據(jù)這個市場視而不見,那么你就錯了。IBM、EMC、甚至包括微軟,他們與開源項目的合作一直都非常緊密。
IBM
實際上,IBM早已擁有了Hadoop項目,并推出了在Hadoop架構上建立作為群集運行DB2或Oracle數(shù)據(jù)庫的集群系統(tǒng),根據(jù)IBM的測試數(shù)據(jù)顯示,在IBM一個擁有40個節(jié)點的文件系統(tǒng)將有12GB/sec吞吐量,并與400個節(jié)點的系統(tǒng)可以達到120GB/sec吞吐量。
如果再深究的話,你可以發(fā)現(xiàn),在海量數(shù)據(jù)上,IBM其實主打的是小型機的并行運算,這一點,從其前不久推出的Watson就能看出,由90臺Power組成的Watson是一個非常典型的BI實例,從數(shù)據(jù)存儲、到數(shù)據(jù)分析與挖掘,Watson體現(xiàn)的是IBM對于未來海量數(shù)據(jù)的實現(xiàn)原理,Watson存儲了海量的百科全書、論文文獻等等以文章方式存儲的資料,它們之中也會有相關的信息。但由于這些資料是非結構化的,所以watson必須通過非常費力的文本搜索來取得信息。而這個過程中又會用到前面用過的提取專有名詞、詞性、文本結構等方式。
從架構上可以看到,Watson所使用的軟件實質是建立在IBM開源的UIMA體系結構之上。UIMA是一個用于非結構化信息管理應用的平臺,提供了一個可使問題處理模塊獨立工作的框架,能夠對結果進行篩選得出最佳答案。而Apache項目則開發(fā)了當前的UIMA版本以及一些通用模塊,而Watson在電視節(jié)目中使用的模塊只是其中的一部分。
EMC
2010年7月,當EMC宣布以現(xiàn)金方式收購私有數(shù)據(jù)存儲公司Greenplum后,迅速以Greenplum為基礎,在信息基礎架構業(yè)務部門之下組成一個新的部門——數(shù)據(jù)計算產品部。而在完成了Isilon的收購后,EMC也完全具備了進軍海量數(shù)據(jù)市場的一切產品和技術。
根據(jù)EMC的Isilon橫向擴展NAS架構(使用其OneFS操作系統(tǒng))可以看到,其可在單一文件系統(tǒng)中擴展至10PB以上,并支持每秒50GB的吞吐量。然而,大數(shù)據(jù)應用可能會更注重某方面或其其他相關數(shù)據(jù)。因此,Isilon中的S產品系列主要針對于高事務處理和IOPS密集的應用,比如基因組研究;而X系列解決方案主要針對容量密集型應用,諸如醫(yī)療圖像這樣的需要高并發(fā)處理和順序吞吐的應用。
而Greenplum則專注于應對大數(shù)據(jù)所帶來的分析挑戰(zhàn)。其產品套件支持分析密集型的大數(shù)據(jù)集,最終幫助終端用戶大數(shù)據(jù)中挖掘突出價值。這通常需要復雜分析,比如特定的互動分析,而非簡單的結構報告。分析速度尤其重要,特別是在需要頻繁執(zhí)行時以及數(shù)據(jù)分析結果有助于決策時。此外,為滿足更大規(guī)模的數(shù)據(jù)應用需求,Greenplum還開發(fā)了大規(guī)模并行處理(MPP)系統(tǒng),其關鍵要素在于性能和可擴展性。
微軟
應該說,在非結構化數(shù)據(jù)市場,微軟一直都在對這個市場持續(xù)認真地投入,并于去年年底發(fā)布了公測版Dryad平臺,其實,Dryad也并非微軟的新產品,Dryad和DryadLINQ其實早在微軟收購Powerset之前就已經存在,目前推出的,只不過是商業(yè)版。微軟于2007年首度揭曉了關于技術的研究成果,并于2009年向學術界推出了非商業(yè)版Dryad和DryadLINQ。
值得注意的是,2008年,微軟曾收購了Powerset,并將Powerset基于Hadoop的技術應用于其(bing)搜索引擎之上。而微軟當時甚至答應Powerset員工繼續(xù)向Hadoop貢獻源代碼,Powerset也由此建立了Hadoop的姊妹項目——HBase,模擬Google的BigTable數(shù)據(jù)庫。
與MapReduce不同的是,Dryad是針對運行Windows HPC Server的集群計算設計的,而非Linux——這恐怕是Dryad容易被人所詬病的一點。由于Hadoop是基于Java編寫的,因此這些程序恐怕并不太適合跑在微軟的Windows平臺或者.NET之上;另外,微軟是在2005年進入到高性能計算市場的,目前而言,這個市場是被Linux所占領的。而目前Apache的Hadoop環(huán)境是只支持Linux的,Windows還在不斷開發(fā)中。
不僅如此,微軟還在近日發(fā)布了其圖數(shù)據(jù)庫系統(tǒng)Trinity。Trinity是一個基于內存的數(shù)據(jù)存儲與運算系統(tǒng),目前在微軟為Probase和AEther這兩個產品服務。
專有工具、開源工具你選誰?
海量數(shù)據(jù)正在不斷生成,對于急需改變自己傳統(tǒng)IT架構的企業(yè)而言,傳統(tǒng)的結構化數(shù)據(jù)與非結構化數(shù)據(jù)的融合,成了所有人的心病,憑心而論,在Google公開其Megastore之前,類似象金融、電信這樣的客戶,很少敢于將自己的數(shù)據(jù)系統(tǒng)做全面的遷移,而這對于傳統(tǒng)的結構化數(shù)據(jù)廠商來說,無疑是給了一個喘息的機會。
短期來講,開源分析將越來越廣泛的使用,并且增長迅速。長期來看,混合技術的應用將在高度競爭的市場上出現(xiàn),兩者將同樣有巨大的需求。
提供了處理大數(shù)據(jù)分析能力的專有軟件包括AsterData;IBM的專有軟件Netezza、Datameer, 建立在Apache的Hadoop上的專有軟件以及Paraccel。
此外,Oracle 的Exadata以及EMC的Greenplum也是處理大數(shù)據(jù)量的專有工具。EMC引入了Greenplum數(shù)據(jù)庫的免費社區(qū)版本,該社區(qū)版本只是軟件。Greenplum社區(qū)報表包括3個協(xié)作模塊Greenplum DB, MADlib, 和Alpine Miner。
處理大數(shù)據(jù)量的開源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。
Jaspersoft提供的BI工具,提供了報告、分析、ETLETL (解壓、轉換、加載) ,針對大量的并行分析數(shù)據(jù)庫,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地報告,通過Hadoop和各種類型的NoSQL數(shù)據(jù)庫包括MongoDB, Riak, CouchDB and Infinispan的開源連接。
-
杭州網站設計公司:品牌網站開發(fā)助力企業(yè)成長
日期:2024-12-20瀏覽次數(shù):823次
-
杭州網站建設公司:商城網站建設的六大關鍵步驟
日期:2024-12-18瀏覽次數(shù):865次
-
杭州網站制作:醫(yī)院網站設計與域名備案的復雜性探討
日期:2024-12-18瀏覽次數(shù):856次
-
杭州網站制作公司:打造安全可靠的醫(yī)院網站
日期:2024-12-11瀏覽次數(shù):1022次
-
杭州網站設計公司:數(shù)據(jù)庫在高端網站制作中的關鍵作用
日期:2024-12-11瀏覽次數(shù):992次
相關新聞
整合同類新聞,相關新聞一手掌握
-
南京定制app:集團app是否更有益處?
日期:2020-11-03瀏覽次數(shù):2078次
-
南京app開發(fā)周期的決定因素
日期:2020-11-03瀏覽次數(shù):2029次
-
南京網站優(yōu)化的KPI指標問題
日期:2020-09-21瀏覽次數(shù):2225次
-
南京網頁設計,提升企業(yè)品牌形象
日期:2020-09-21瀏覽次數(shù):2038次
最新新聞
與互聯(lián)網同行,實時掌握網建行業(yè)最新動態(tài)
-
杭州網站制作的安全性有多重要?
日期:2020-04-13瀏覽次數(shù):4731次
-
杭州網站建設,我們應該如何選擇服務器?
日期:2021-07-02瀏覽次數(shù):3809次
-
對杭州企業(yè)而言,杭州小程序定制能帶來哪些市場?
日期:2021-08-24瀏覽次數(shù):4015次
-
杭州小程序開發(fā)目前的困境
日期:2021-09-17瀏覽次數(shù):3840次
-
專業(yè)的杭州app開發(fā)公司市場前景如何?
日期:2022-11-18瀏覽次數(shù):2722次
隨機新聞
新聞新動態(tài),您需要的新聞管家
洞悉市場趨勢演變讓傳播回歸社會
免費獲取網站建設與網絡推廣方案報價
-
關于我們
杭州帷拓科技有限公司,是一家新型的全案網絡開發(fā)公司,作為以互聯(lián)網高端網站建設、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網絡技術服務供應商,帷拓科技致力于全面分析市場環(huán)境、衡量與預測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結合品牌理念深度挖掘項目優(yōu)勢和產品價值,提升客戶品牌認知、認可度。
-
我們的客戶
帷拓科技歷經十年沉淀,與國內外上千家客戶達成合作關系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動、浙江5G產業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學校、健康中國杭州峰會、科雷機電等,帷拓科技始終堅持“帷有專業(yè),才能拓展無限”的服務理念,堅持“認真堅持細節(jié)”的優(yōu)質服務理念,不斷完善自身,成就企業(yè),最終實現(xiàn)共贏。
-
我們的業(yè)務
帷拓科技主營業(yè)務范圍包含互聯(lián)網高端網站建設、APP開發(fā)、小程序開發(fā)、商城網站建設、公眾號運營以及數(shù)字營銷等,涵蓋了服務、房產、數(shù)碼、服裝、物流貿易等行業(yè),根據(jù)品牌現(xiàn)狀,為每個客戶量身定制項目整體服務方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實現(xiàn)從企業(yè)到消費者的價值轉換。