无码乱肉视频免费大全合集,亚洲第一A在线观看网站,黄网站色视频免费无风险,免费国产黄网在线观看

24小時咨詢電話:0571-88023217伊春網站建設公司 10年專業(yè)網絡服務供應商

資訊中心

- 直擊網站建設第一現(xiàn)場,掌握全球化的消息 -

當前位置 : 首頁 > 資訊中心 > 【杭州網站建設】圓桌論壇:如何應對海量數(shù)據的挑戰(zhàn)

【杭州網站建設】圓桌論壇:如何應對海量數(shù)據的挑戰(zhàn)

分享 2011.08.11 瀏覽次數(shù):7599次

海量數(shù)據的浪潮有多迅猛?IDC在2006年估計全世界產生的數(shù)據量是0.18ZB(1ZB=100萬PB),而今年這個數(shù)字已經提升了一個數(shù)量級,達到1.8ZB,差不多對應全世界每個人一塊100多GB的硬盤。這種增長還在加速,預計2015年將達到近8ZB。目前IT系統(tǒng)的存儲能力遠遠不足,就更不用說深入地挖掘和分析了。

在本文中,百度首席科學家威廉·張、Teradata首席客戶官周俊凌、Yahoo!北京全球軟件研發(fā)中心架構師韓軼平、SAP中國區(qū)企業(yè)信息管理咨詢資深顧問杜韜等四位業(yè)內專家,將分享他們在應對海量數(shù)據挑戰(zhàn)方面的見解和經驗。

您所在企業(yè)的數(shù)據量現(xiàn)在達到了什么規(guī)模?

威廉·張:這個問題比較容易回答。百度不是一個產品,不僅有搜索引擎,還包括很多社區(qū)產品和媒體產品,所以這個數(shù)字大概是數(shù)百個PB,每天處理的數(shù)據大約有幾十個PB。我是差不多四年半前加入百度的,所以我比較清楚地記得那時候的規(guī)模。與那時相比,現(xiàn)在的數(shù)據規(guī)模成長比較驚人,大概是那時的500~1000倍。

 

威廉·張:數(shù)據量大并不可怕,問題是要實時處理數(shù)據

威廉·張:數(shù)據量大并不可怕,問題是要實時處理數(shù)據

 

數(shù)據量大并不可怕,問題是要實時處理數(shù)據,因為任何的時延都會使服務失去一些優(yōu)勢,從而導致商業(yè)經濟的下降。我們所做的策略都是針對實時性的,而且今天互聯(lián)網用戶的需求更加實時化,比如說微博、團購、秒殺。

周俊凌:從IDC的數(shù)據統(tǒng)計報告來看,數(shù)據增長是非常快的。相對于具體的數(shù)據量,Teradata更關注數(shù)據發(fā)展的趨勢,并大量投入研究這種發(fā)展趨勢,包括BI方面的變化和增長模式,這個模式對于我們非常有價值,通過研究這種模式,包括每分鐘、每秒鐘交易量有多大等這些數(shù)據的發(fā)掘和建模,數(shù)據科學家進行研究和探討,把這些技術應用到生產系統(tǒng)里面,對企業(yè)發(fā)揮作用。

韓軼平:Yahoo!的主要云計算平臺Hadoop現(xiàn)在有34個集群,總數(shù)超過3萬臺機器,最大的集群是4000臺左右,總存儲容量超過100PB。這個數(shù)量級可以說并不大,主要原因在于我們最近將很多精力放在處理用戶隱私性和數(shù)據安全性上,因為按照歐盟的規(guī)定,Yahoo!不能存儲超過一年的數(shù)據,所以我們的應對措施就是:不保存原始數(shù)據,但做很深入的數(shù)據挖掘,挖掘出真正蘊含的有價值的信息,把這些信息保存下來。

杜韜:SAP作為企業(yè)級應用提供商,更關注客戶的數(shù)據量,而我們的客戶有許多數(shù)據密集型企業(yè),比如電信、金融、政府、零售等,數(shù)據量級從幾個TB到數(shù)百TB。SAP在德國總部的數(shù)據中心有3萬臺服務器,數(shù)據量大概是15PB,主要為客戶提供服務。我們正在幫助客戶將內部應用遷移到我們的數(shù)據中心服務平臺,這也意味著越來越多的客戶數(shù)據會存在我們這兒。

面對如此海量的數(shù)據,您所在公司是怎樣進行存儲、處理、分析的?

杜韜:一方面在數(shù)據中心,我們使用了標準的虛擬化以及分布式存儲;另一方面,我們推出了內存計算技術,用以應對數(shù)據應用和分析的挑戰(zhàn)。傳統(tǒng)的架構存在很大的瓶頸,磁盤讀取是以毫秒,而內存讀取則是納秒。因此,我們將以前需要在應用層做的計算分析,比如預測分析或者大量運算,都放到內存里操作,從而實現(xiàn)性能提升,幫助用戶充分利用數(shù)據。

 

周俊凌:通過數(shù)據訪問頻率高低確認數(shù)據溫度,進行數(shù)據壓縮

周俊凌:通過數(shù)據訪問頻率高低確認數(shù)據溫度,進行數(shù)據壓縮

韓軼平:對Yahoo!的情況,我想分三個部分來說明:數(shù)據采集、數(shù)據存儲和數(shù)據處理。
在數(shù)據采集方面,我們建立了一個遍布Yahoo!幾個數(shù)據中心、幾十萬臺機器的實時搜集數(shù)據系統(tǒng),該系統(tǒng)特點是一個主干道負責把數(shù)據經過過濾、清理以后,進行整合,并且在高可靠性的情況下,把它放到Hadoop平臺。雖然相對來說精度很高、效果很好,但速度會慢一些。為了滿足威廉·張所說實時性的需求,還有一個旁路系統(tǒng),旁路系統(tǒng)在秒級能夠把數(shù)據匯到主干道上,這是數(shù)據采集的部分。

在數(shù)據存儲方面,基本上以HDFS為核心。在數(shù)據處理方面,主要技術是Hadoop、MapReduce以及我們自己開發(fā)的Pig。目前,我們有超過一半數(shù)據處理引擎是用Pig完成的。

周俊凌:Teradata一直在持續(xù)創(chuàng)新傳統(tǒng)的企業(yè)級數(shù)據倉庫產品線,在對接大數(shù)據時代的同時,繼續(xù)傳統(tǒng)的BI領域,包括提高數(shù)據處理的能力,從而更容易適應大數(shù)據管理。例如,通過數(shù)據訪問頻率高低確認數(shù)據溫度,進行數(shù)據壓縮,適應大數(shù)據的分析要求,使數(shù)據管理更容易。

我們有適應超高規(guī)模數(shù)據容量要求的硬件平臺產品Teradata 1000,可以壓縮35PB的數(shù)據。特別適用一些結構性數(shù)據和非結構性數(shù)據的分析,同時開發(fā)了很多能夠進行數(shù)據統(tǒng)計和分析的軟件包,包括將Hadoop等架構整合到Teradata數(shù)據倉庫之中,可以基于目前的Teradata企業(yè)級數(shù)據倉庫接口使用。

我們提供基于云的架構,能夠使用Amazon EC2,為客戶提供安全的存儲產品,用來存儲公司防火墻以外的、存儲在云端的數(shù)據。我們剛剛收購了Aster Data公司,它有一些非常好的工具,適用于Hadoop、MapReduce的一些應用。

威廉·張:各互聯(lián)網企業(yè)在云計算技術方面的應用都差不多,比如說百度也用了Hadoop,我提幾個比較有特點的地方。
第一個是大搜索,即不僅是把網頁抓過來,建立極其龐大的索引,而且為了使數(shù)據做到準實時或者更快速的更新,進行一些優(yōu)化,比如根據地域分布和重要性分布,放在南方或者北方的機房里,主要還是根據數(shù)據應用制訂的策略。另外就是采用數(shù)據流技術。

第二個是機器學習算法。在科技領域里,機器學習以前更多的是對一臺服務器內存里的數(shù)據進行高復雜的計算,可能要跑很長時間。而在百度,機器學習應用于所有地方,比如判斷用戶需求,從用戶行為反饋中得到我們應該推薦什么樣的內容、匹配什么樣的廣告等,時效性非常高??梢苑Q得上是增量型、大規(guī)模的機器學習方法。

此外,互聯(lián)網應用要繼續(xù)發(fā)展,最關鍵還是找到更有價值的數(shù)據,即不管數(shù)據來自何方,都要按照價值來決定如何處理它。

您怎樣看待層出不窮的NoSQL技術?

杜韜:我一直認為,存在的就是合理的,NoSQL的產生和演進也是因為我們現(xiàn)有的應用需求所導致。當前在大并發(fā)量、海量數(shù)據的高效讀寫等方面,對關系型數(shù)據庫提出了更高的要求,而NoSQL在這方面有獨特的價值和優(yōu)勢。

周俊凌:通過數(shù)據訪問頻率高低確認數(shù)據溫度,進行數(shù)據壓縮

韓軼平:Yahoo!不保存原始數(shù)據,但做很深入的數(shù)據挖掘

 

當然,這并不是說NoSQL的出現(xiàn)就代表著關系型數(shù)據庫的世界末日,因為對于一些應用,特別是企業(yè)級應用,對于事務的一致性以及讀寫的實時性等各方面有很高的要求,而關系型數(shù)據庫在這些年的發(fā)展中積累了自己的優(yōu)勢。

因此,我很認同NoSQL是“Not Only SQL”的說法,相信在未來關系型數(shù)據庫和NoSQL會并存甚至是相互融合。

韓軼平:NoSQL是一個很寬泛的概念。在Yahoo!,雖然NoSQL說得不多,但用的NoSQL工具非常多,我們的Key-Value數(shù)據庫等各種各樣的系統(tǒng),都屬于NoSQL框架。至于說NoSQL和SQL之間的關系,因為很多場合需要ACID,也就需要NoSQL的東西,而NoSQL之所以會出現(xiàn),就像我經常說的“上帝是公平的”,當有一個需求出現(xiàn)時必須放棄另一個東西。我們的很多需求,比如大數(shù)據量、高分布性,當有了這些需求以后另一個需求可能成為新的瓶頸。事實上,對我們來說,互聯(lián)網行業(yè)在很多應用中并不需要一致性。當把需求放寬時,自然能夠滿足另一些需求。

 

怎樣挖掘數(shù)據中的價值?

威廉·張:我舉一個直觀的匹配廣告的例子,它包括兩類數(shù)據:一類是廣告庫,即廣告內容信息和廣告客戶信息,這類信息很適合于傳統(tǒng)數(shù)據庫;另一類信息是用戶看到廣告之后的一切行為,經歷了日積月累,可能會有幾百萬億的用戶行為。這兩種數(shù)據可以相結合,經過機器學習算法就能產生價值。顯然,第二種信息更重要,因為它能給用戶提供想要的信息,比如搜索一個詞,可以利用所有用戶在他之前、在他之后的群體智能、群體行為,判定哪一類的信息最重要、最優(yōu)質,哪一類信息可能是作弊信息,然后經過反饋機制,把最好的內容提供給用戶,甚至推薦相關的一些搜索、查詢信息??偠灾?,對任何企業(yè)來說,數(shù)據是命根子;對云計算來說,數(shù)據處理就是云數(shù)據中心或者云計算存在的理由。

韓軼平:我們工作之余經常開玩笑說:從數(shù)據中能挖出的東西,不一定是錢,更重要的是用戶體驗,對互聯(lián)網公司來說,數(shù)據就是一切。Yahoo!不僅僅是搜索引擎,也有很多在美國各領域中排名第一的網站。我們做的很多工作,比如新聞網站信息,都是根據新聞的相關性和大家的興趣推薦的,我們希望根據每一個用戶自己的興趣,甚至每一個用戶此時此刻的興趣,進行推薦。Yahoo!新聞的推薦系統(tǒng),是把Yahoo!所有的數(shù)據搜集起來,用戶在Yahoo!搜索上的所有行為都搜集到一起,做深度挖掘和個性化,對每一個用戶都進行分析和推薦,沒有這些數(shù)據我們不可能為客戶提供體驗,數(shù)據對我們來說就是一切。
杜韜:既然各位是從互聯(lián)網的角度來看數(shù)據的價值,那么我就從企業(yè)的角度來分享一下。

周俊凌:通過數(shù)據訪問頻率高低確認數(shù)據溫度,進行數(shù)據壓縮

周俊凌:通過數(shù)據訪問頻率高低確認數(shù)據溫度,進行數(shù)據壓縮

 

智能電網現(xiàn)在歐洲已經做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當你的太陽能有多余電的時候還可以買回來。通過電網收集每隔五分鐘或十分鐘收集一次數(shù)據,收集來的這些數(shù)據可以用來預測客戶的用電習慣等,從而推斷出在未來2~3個月時間里,整個電網大概需要多少電。有了這個預測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因為電有點像期貨一樣,如果提前買就會比較便宜,買現(xiàn)貨就比較貴。通過這個預測后,可以降低采購成本。

另一個例子更偏我個人的興趣。丹·布朗的《失落的秘符》一書講到,如果把很多人的精神集中在一個點,能夠移動物體。當然這個我們無從考證,但我們在網上搜索關鍵詞、敏感詞時,就可以判斷出某件事情的公眾態(tài)度。有一些新的業(yè)務模式,比如做一個網絡廣告投放評估公司,利用這樣的技術評估網絡廣告的效果,我覺得也許是未來的業(yè)務價值產生點。

海量數(shù)據時代對企業(yè)和技術人員帶來了哪些挑戰(zhàn)?怎樣看待海量數(shù)據的未來?

韓軼平:以前我們都說自己是軟件工程師,我們這個行業(yè)也經常被叫做軟件行業(yè),但我認為我們是真正的Information Technology行業(yè)。對大多數(shù)人來說,現(xiàn)在最重要的一點是轉變觀念,從Code/Program觀念轉變成Data觀念,在做任何設計和開發(fā)時,要把Data放在第一位。

杜韜:海量數(shù)據一直在增長,但是我們應該想辦法控制下來,未來的趨勢應該放在怎樣縮小海量數(shù)據上,而不是任憑它擴張。此外,海量數(shù)據時代對中國來說是一次引領世界IT業(yè)的機會。

周俊凌:在云計算時代,業(yè)務數(shù)據與云緊密結合在一起,提供業(yè)務開發(fā)的能力,我們從中學到了很多新的東西,有一些東西不再是自己去存儲和開發(fā),而是都放在云里面存儲。技術產品推向市場的方式與以往相比,發(fā)生了很大變化。云的這樣一種環(huán)境也給數(shù)據庫提供商帶來很多技術上的挑戰(zhàn),例如如何保證存儲的安全性,包括身份識別的健全。這關系到數(shù)據的存儲地方,例如現(xiàn)在發(fā)貨的數(shù)據都是放在全球任何一個地方,不是放在某一個國家里面,這就帶來關于數(shù)據主權的問題,可能有一些國家和政府不允許把數(shù)據放在國家某些地方,這都是一些挑戰(zhàn),需要從技術上解決安全等問題。

 

威廉·張:這里我淺談一下兩點感受。

首先,數(shù)據管理是DBA的一項重要本領,而高校的計算機專業(yè)教育里沒有特別重視數(shù)據程序員,并沒有數(shù)據管理員;其次,MapReduce并不是一個新概念,早在30~40年前當計算機能力還超小的時候,函數(shù)式編程語言就出現(xiàn)了,但至今大學里還沒有開設MapReduce或者類似數(shù)據處理的課程,也基本上沒有人聽過這些東西。

未來將所有人的生活經驗數(shù)據放在云里,這個大概可以實現(xiàn),但如果解決不好數(shù)據安全性問題的話,那么距離最終的實現(xiàn)就會很遠。

我期待云計算變成云知識、云智能,而不僅僅是計算的工具。建立數(shù)據整合分享是云計算成功的必要和充分條件。

標簽:

杭州網站建設 ‍杭州網站制作 ‍杭州網站設計 杭州網站建設公司 杭州網站制作公司杭州網站設計公司 杭州精品網站建設 杭州精品網站設計 杭州精品網站設計公司 杭州精典網站設計 杭州精典網站建設 杭州精典網站設計公司 杭州精典網站制作 杭州精品網站制作

最新網站案例

洞悉市場趨勢演變讓傳播回歸社會

    免費獲取網站建設與網絡推廣方案報價

    • 關于我們

      杭州帷拓科技有限公司,是一家新型的全案網絡開發(fā)公司,作為以互聯(lián)網高端網站建設、APP開發(fā)、小程序開發(fā)為核心的專業(yè)網絡技術服務供應商,帷拓科技致力于全面分析市場環(huán)境、衡量與預測市場需求、整合區(qū)別于行業(yè)競爭對手的絕對優(yōu)勢,結合品牌理念深度挖掘項目優(yōu)勢和產品價值,提升客戶品牌認知、認可度。

    • 我們的客戶

      帷拓科技歷經十年沉淀,與國內外上千家客戶達成合作關系,其中穩(wěn)定合作的公司有:浙江華為、浙江移動、浙江5G產業(yè)聯(lián)盟、浙江省社科院、綠城足球俱樂部、娃哈哈雙語學校、健康中國杭州峰會、科雷機電等,帷拓科技始終堅持“帷有專業(yè),才能拓展無限”的服務理念,堅持“認真堅持細節(jié)”的優(yōu)質服務理念,不斷完善自身,成就企業(yè),最終實現(xiàn)共贏。

    • 我們的業(yè)務

      帷拓科技主營業(yè)務范圍包含互聯(lián)網高端網站建設、APP開發(fā)、小程序開發(fā)、商城網站建設、公眾號運營以及數(shù)字營銷等,涵蓋了服務、房產、數(shù)碼、服裝、物流貿易等行業(yè),根據品牌現(xiàn)狀,為每個客戶量身定制項目整體服務方案,以敏銳的市場洞察力、創(chuàng)新的市場策劃能力,全面把握市場變化,為客戶實現(xiàn)從企業(yè)到消費者的價值轉換。

    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur
    Designerpart Designagentur