1 歷史
“大數據”作為時下最火熱的IT行業的詞匯,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。
對于“大數據”(Big
data)研究機構Gartner給出了這樣的定義。“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
“大數據”這個術語最早期的引用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨著谷歌MapReduce和Google
File System (GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“163大數據”才成為互聯網信息技術行業的流行詞匯。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。 工具專業網入口
2 原理
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,
大數據與云計算的關系
大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘(SaaS),但它必須依托云計算的分布式處理、分布式數據庫(PaaS)和云存儲、虛擬化技術(IaaS)。隨著云時代的來臨,大數據(Big
data)也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據(Big
data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。
最小的基本單位是Byte,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,
它們按照進率1024(2的十次方)來計算:
1Byte = 8 bit
1 KB = 1,024 Bytes
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB |
3 解構
大數據就是互聯網發展到現今階段的一種表象或特征而已,沒有必要神話它或對它保持敬畏之心,在以云計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
其次,想要系統的認知大數據,必須要全面而細致的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。我將分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。我將分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。 工具專業網入口
4 特點
大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點。《計算機學報》刊登的“架構大數據:挑戰、現狀與展望”一文列舉了大數據分析平臺需要具備的幾個重要特性,對當前的主流實現平臺——并行數據庫、MapReduce及基于兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望。
大數據的4個“V”,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日志、視頻、圖片、地理位置信息等等。第三,數據的來源,直接導致分析結果的準確性和真實性。若數據來源是完整的并且真實,最終的分析結果以及決定將更加準確。第四,處理速度快,1秒定律。最后這一點也是和傳統的數據挖掘技術有著本質的不同。業界將其歸納為4個“V”——Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實性)
從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
5 用途
大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關系。
物聯網、云計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。
有些例子包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務。 工具專業網入口
6 應用
洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。
google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。
統計學家內特.西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。
麻省理工學院利用手機定位數據和交通數據建立城市規劃。
梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價。
Tipp24 AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,然后通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。”Laney分析到。
沃爾瑪的搜索。這家零售業寡頭為其網站自行設計了最新的搜索引擎Polaris,利用語義數據進行文本分析、機器學習和同義詞挖掘等。根據沃爾瑪的說法,語義搜索技術的運用使得在線購物的完成率提升了10%到15%。“對沃爾瑪來說,這就意味著數十億美元的金額。”Laney說。快餐業的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。
Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位于芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他將在一天工作之后抵達該處)時,Morton就開始了自己的社交秀。首先,分析推特數據,發現該顧客是本店的常客,也是推特的常用者。根據客戶以往的訂單,推測出其所乘的航班,然后派出一位身著燕尾服的侍者為客戶提供晚餐。也許,這聽起來過于離奇,但是你必須審視自己:“我是否有能力做到這個程度?”Laney說。
PredPol Inc.。PredPol公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的范圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。
Tesco
PLC(特易購)和運營效率。這家超市連鎖在其數據倉庫中收集了700萬部冰箱的數據。通過對這些數據的分析,進行更全面的監控并進行主動的維修以降低整體能耗。
American
Express(美國運通,AmEx)和商業智能。以往,AmEx只能實現事后諸葛式的報告和滯后的預測。“傳統的BI已經無法滿足業務發展的需要。”Laney認為。于是,AmEx開始構建真正能夠預測忠誠度的模型,基于歷史交易數據,用115個變量來進行分析預測。該公司表示,對于澳大利亞將于之后四個月中流失的客戶,已經能夠識別出其中的24%。
Express Scripts Holding
Co.的產品制造。該公司發現那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發了一個新產品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。
Infinity Property & Casualty Corp.的黑暗數據(dark data)。Laney對于黑暗數據的定義是,那些針對單一目標而收集的數據,通常用過之后就被歸檔閑置,其真正價值未能被充分挖掘。在特定情況下,這些數據可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。 工具專業網入口
IBM戰略
IBM的大數據戰略以其在2012年5月發布智慧分析洞察“3A5步”動態路線圖作為基礎。所謂“3A5步”,指的是在“掌握信息”(Align)的基礎上“獲取洞察”(Anticipate),進而采取行動(Act),優化決策策劃能夠救業務績效。除此之外,還需要不斷地“學習”(Learn)從每一次業務結果中獲得反饋,改善基于信息的決策流程,從而實現“轉型”(Transform)。
基于“3A5步”動態路線圖,IBM提出了“大數據平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data
Warehouse)和信息整合與治理(Information Integration and Governance)。
在大數據處理領域,IBM于2012年10月推出了IBMPureSystems專家集成系統的新成員——IBM PureData系統。這是IBM在數據處理領域發布的首個集成系統產品系列。PureData系統具體包含三款產品,分別為PureDataSystem
for Transactions、PureData System forAnalytics和PureData System for
Operational Analytics,可分別應用于OLTP(聯機事務處理)、OLAP(聯機分析處理)和大數據分析操作。與此前發布的IBMPureSystems系列產品一樣,IBM
PureData系統提供內置的專業知識、源于設計的集成,以及在其整個生命周期中的簡化體驗。
斯隆數字巡天收集在其最初的幾個星期,就比在天文學的歷史上值錢的2000年的收集了更多的數據。自那時以來,它已經積累了140兆兆字節的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將于2016年在網上將獲得數據公布,沃爾瑪每隔一小時處理超過100萬客戶的交易,錄入量數據庫估計超過2.5
PB相當于美國國會圖書館的書籍的167倍
。FACEBOOK從它的用戶群獲得并處理400億張照片。解碼最原始的人類基因組花費10年時間處理,如今可以在一個星期內實現。
“大數據”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數據管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業務的快速。
大數據已經出現,因為我們生活在一個有更多信息的社會中。有46億全球移動電話用戶有20億人訪問互聯網。基本上,人們比以往任何時候都與數據或信息交互。
1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人收益的這筆錢將反過來導致更多的信息增長。思科公司預計,到2013年,在互聯網上流動的交通量將達到每年667艾字節。
大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,三分技術,七分數據,得數據者得天下。
7 數據價值
眾所周知,企業數據本身就蘊藏著價值,但是將有用的數據與沒有價值的數據進行區分看起來可能是一個棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對于企業的運轉至關重要,但是其他數據也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視頻、人們在購買您的服務前后的所作所為、如何通過社交網絡聯系您的客戶、是什么吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的棱鏡觀察,將其與其他數據集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。 工具專業網入口
但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當作為滿足公司治理規則而必須要保存的信息加以處理,而不是將它們作為戰略轉變的工具。
畢竟,數據和人員是業務部門僅有的兩筆無法被競爭對手復制的財富。在善用的人手中,好的數據是所有管理決策的基礎,帶來的是對客戶的深入了解和競爭優勢。數據是業務部門的生命線,必須讓數據在決策和行動時無縫且安全地流到人們手中。
所以,數據應該隨時為決策提供依據。看看在政府公開道路和公共交通的使用信息這樣看起來甚至有點晦澀的數據時會發生什么:這些數據來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些數據,創造滿足潛在需求的新產品和服務。
企業需要向創造和取得數據方面的投入索取回報。有效管理來自新舊來源的數據以及獲取能夠破解龐大數據集含義的工具只是等式的一部分,但是這種挑戰不容低估。產生的數據在數量上持續膨脹;音頻、視頻和圖像等富媒體需要新的方法來發現;電子郵件、IM、tweet和社交網絡等合作和交流系統以非結構化文本的形式保存數據,必須用一種智能的方式來解讀。
但是,應該將這種復雜性看成是一種機會而不是問題。處理方法正確時,產生的數據越多,結果就會越成熟可靠。傳感器、GPS系統和社交數據的新世界將帶來轉變運營的驚人新視角和機會。請不要錯過。
有些人會說,數據中蘊含的價值只能由專業人員來解讀。但是澤字節經濟并不只是數據科學家和高級開發員的天下。
數據的價值在于將正確的信息在正確的時間交付到正確的人手中。未來將屬于那些能夠駕馭所擁有數據的公司,這些數據與公司自身的業務和客戶相關,通過對數據的利用,發現新的洞見,幫助他們找出競爭優勢。
8 數據機遇
自從有了IT部門,董事會就一直在要求信息管理專家提供洞察力。實際上,早在1951年,對預測小吃店蛋糕需求的訴求就催生了計算機的首次商業應用。自那以后,我們利用技術來識別趨勢和制定戰略戰術的能力不斷呈指數級日臻完善。
今天,商業智能 (使用數據模式看清曲線周圍的一切) 穩居 CXO 們的重中之重。在理想的世界中,IT
是巨大的杠桿,改變了公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群并創造市場。
大數據分析是商業智能的演進。當今,傳感器、GPS 系統、QR
碼、社交網絡等正在創建新的數據流。所有這些都可以得到發掘,正是這種真正廣度和深度的信息在創造不勝枚舉的機會。要使大數據言之有物,以便讓大中小企業都能通過更加貼近客戶的方式取得競爭優勢,數據集成和數據管理是核心所在。
面臨從全球化到衰退威脅的風暴, IT 部門領導需要在掘金大數據中打頭陣,新經濟環境中的贏家將會是最好地理解哪些指標影響其大步前進的人。
當然,企業仍將需要聰明的人員做出睿智的決策,了解他們面臨著什么,在充分利用的情況下,大數據可以賦予人們近乎超感官知覺的能力。Charles
Duigg是《習慣的力量》一書的作者,他找出的一個黃金案例分析的例子是美國零售商
Target,其發現婦女在懷孕的中間三個月會經常購買沒有氣味的護膚液和某些維生素。通過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優惠券。實際上,Target
知道一位婦女懷孕時,那位婦女甚至還沒有告訴最親近的親朋好友 -- 更不要說商店自己了。
很明顯,在可以預見的將來,隱私將仍是重要的考量,但是歸根結底,用于了解行為的技術會為方方面面帶來雙贏,讓賣家了解買家,讓買家喜歡買到的東西。
再看一下作家兼科學家 Stephen Wolfram的例子,他收集有關自身習慣的數據,以分析他的個人行為,預測事件在未來的可能性。
大數據將會放大我們的能力,了解看起來難以理解和隨機的事物。對其前途的了解提供了獲取嶄新知識和能力的機會,將改變您的企業運作的方式。
9 數據回報
簡而言之,企業可以通過思考數據戰略的總體回報,來應對大數據的挑戰,抓住大數據的機會。Informatica所指的‘數據回報率’,是為幫助高級IT和業務部門領導者進行大數據基本的戰術和戰略含義的討論而設計的一個簡單概念。等式非常簡單:如果您提高數據對于業務部門的價值,同時降低管理數據的成本,從數據得到的回報就會增加
-- 無論是用金錢衡量,還是更好的決策
數據回報率=數據價值/數據成本
在技術層面,數據回報率為數據集成、數據管理、商業智能和分析方面的投入提供了業務背景和案例。它還與解決業務的基礎有關:掙錢、省錢、創造機會和管理風險。它涉及對效率的考慮,同時推動了改變游戲規則的洞察力。
10 實現回報
Informatica深知,對于很多企業來說,向數據回報模型的轉變不會一蹴而就。管理數據并將其成本降低的短期要求將會是首要焦點,同樣還需要打破障礙以了解數據。企業只有這時才可以開始從傳統和新興數據集獲得更多價值。Informatica可提供數據集成平臺和領導力,為企業提供全程幫助。
在大數據的世界中,最靈活和成功的企業將會是那些善用大機遇的公司。
11 處理工具
當前用于分析大數據的工具主要有開源與商用兩個生態圈。
開源大數據生態圈:
1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在于Hadoop生態圈之外,但也曾經有一些用戶。
3、NoSQL,membase、MongoDb
商用大數據生態圈:
1、一體機數據庫/數據倉庫:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、數據倉庫:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、數據集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
12 操作方法
SOA模型
我們需要的是以數據為中心的SOA還是以SOA為中心的數據?
SOA編程模型
答案取決于如何處理的SOA-數據關系的三個不同模型來管理大數據、云數據和數據層次結構。在越來越多的虛擬資源中,將這些模型之間所有類型的數據進行最優擬合是SOA所面臨的巨大挑戰之一。本文詳細介紹了每個SOA模型管理數據的優點、選擇和選項。
SOA的三個數據中心模型分別是數據即服務(DaaS)模型、物理層次結構模型和架構組件模型。DaaS數據存取的模型描述了數據是如何提供給SOA組件的。物理模型描述了數據是如何存儲的以及存儲的層次圖是如何傳送到SOA數據存儲器上的。最后,架構模型描述了數據、數據管理服務和SOA組件之間的關系。
SOA和數據企業的例子
也許以極限情況為開始是理解SOA數據問題的最好方式:一個企業的數據需求完全可以由關系數據庫管理系統(RDBMS)中的條款來表示。這樣一個企業可能會直接采用數據庫設備或者將專用的數據庫服務器和現有的查詢服務連接到SOA組件(查詢即服務,或QaaS)上。這種設計理念之前已經被人們所接受。該設計之所以成功是因為它平衡了上述三個模型之間的關系。QaaS服務模型不是機械地連接到存儲器上;而是通過一個單一的架構——
RDBMS(關系型數據庫管理系統)。數據去重和完整性便于管理單一的架構。
通過大數據的例子可以更好地理解為什么這個簡單的方法卻不能在更大的范圍內處理數據。多數的大數據是非關系型的、非交易型的、非結構化的甚至是未更新的數據。由于缺乏數據結構因此將其抽象成一個查詢服務并非易事,由于數據有多個來源和形式因此很少按序存儲,并且定義基礎數據的完整性和去重過程是有一些規則的。當作為大數據引入到SOA的應用程序中時,關鍵是要定義三種模型中的最后一種模型,SOA數據關系中的架構模型。有兩種選擇:水平方向和垂直方向。
SOA和各類數據模型
在水平集成數據模型中,數據收集隱蔽于一套抽象的數據服務器,該服務器有一個或多個接口連接到應用程序上,也提供所有的完整性和數據管理功能。組件雖不能直接訪問數據,但作為一種即服務形式,就像他們在簡單情況下的企業,其數據的要求是純粹的RDBMS模型。應用程序組件基本上脫離了RDBMS與大數據之間數據管理的差異。盡管由于上述原因這種方法不能創建簡單的RDBMS查詢模型,但是它至少復制了我們上面提到的簡單的RDBMS模型。
垂直集成的數據模型以更多應用程序特定的方式連接到數據服務上,該方式使得客戶關系管理、企業資源規劃或動態數據認證的應用程序數據很大程度在服務水平上相互分離,這種分離直接涉及到數據基礎設施。在某些情況下,這些應用程序或許有可以直接訪問存儲/數據服務的SOA組件。為了提供更多統一的數據完整性和管理,管理服務器可以作為SOA組件來操作各種數據庫系統,以數據庫特定的方式執行常見的任務,如去重和完整性檢查。這種方法更容易適應于遺留應用和數據結構,
但它在問數據何訪方式上會破壞SOA即服務原則,也可能產生數據管理的一致性問題。 工具專業網入口
SOA和水平數據模型
毫無疑問水平模型更符合SOA原則,因為它更徹底地從SOA組件中抽象出了數據服務。不過,為了使其有效,有必要對非關系型數據庫進行抽象定義和處理低效率與抽象有關的流程——SOA架構師知道除非小心的避免此類事情否則這將會成為不可逾越的障礙。
水平的SOA數據策略已經開始應用于適用大數據的抽象數據。解決這個問題最常見的方法是MapReduce,可以應用于Hadoop形式的云構架。Hadoop以及類似的方法可以分發、管理和訪問數據,然后集中查詢這一分布式信息的相關結果。實際上,SOA組件應將MapReduce和類似數據分析功能作為一種查詢功能應用。
效率問題
效率問題較為復雜。因為水平數據庫模型可能是通過類似大多數SOA流程的信息服務總線來完成的,一個重要的步驟是要確保與該編排相關的開銷額度保持在最低程度。這可以幫助減少與SOA相關的數據訪問開銷,但它不能克服存儲系統本身的問題。因為這些存儲系統已經通過水平模型脫離了SOA組件,很容易被忽略與延遲和數據傳輸量相關的問題,特別地,如果數據庫是云分布的,那么使用他們就會產生可變的網絡延遲。
上述問題的一個解決方案是現代分層存儲模式。數據庫不是磁盤,而是一組相互連接的高速緩存點,其存儲于本地內存中,也可能轉向固態硬盤,然后到本地磁盤,最后到云存儲。緩存算法處理這些緩存點之間的活動,從而來平衡存儲成本(同時也是平衡同步地更新成本)和性能。
對于大數據,它也是經常可以創建適用于大多數分析的匯總數據。例如一個計算不同地點車輛數量的交通遙測應用。這種方法可以產生大量的數據,但是如果匯總數據最后一分鐘還存儲在內存中,最后一小時存儲在閃存中,最后一天存在磁盤上,那么控制應用程序所需的實際時間可以通過快速訪問資源得到滿足,然而假設分析時我們可以使用一些更便宜、更慢的應用程序是會怎樣。
SOA都是抽象的,但當抽象隱藏了底層影響性能和響應時間的復雜性時,這種抽象的危險程度會提高。數據訪問也是這樣的,因此,SOA架構師需要認真地考慮抽象與性能之間的平衡關系,并為其特定的業務需求優化它。
Hadoop
Hadoop旨在通過一個高度可擴展的分布式批量處理系統,對大型數據集進行掃描,以產生其結果。Hadoop項目包括三部分,分別是Hadoop
Distributed File System(HDFS)、HadoopMapReduce編程模型,以及Hadoop Common。
Hadoop平臺對于操作非常大型的數據集而言可以說是一個強大的工具。為了抽象Hadoop編程模型的一些復雜性,已經出現了多個在Hadoop之上運行的應用開發語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函數,并使用稱為Hadoop
Streaming(簡寫為Streaming)的API調用它們。與流數據分析
流定義
從技術角度而言,流是通過邊緣連接的節點圖。圖中的每個節點都是“運算符”或“適配器”,均能夠在某種程度上處理流內的數據。節點可以不包含輸入和輸出,也可以包含多個輸入和輸出。一個節點的輸出與另外一個或多個節點的輸入相互連接。圖形的邊緣將這些節點緊密聯系在一起,表示在運算符之間移動的數據流。
利用Apache Hadoop等開源項目,通過傳感器、RFID、社交媒體、呼叫中心記錄和其他來源提供的新型數據創造價值。
Streams
即,IBM InfoSphere Streams。在IBMInfoSphere
Streams(簡稱Streams)中,數據將會流過有能力操控數據流(每秒鐘可能包含數百萬個事件)的運算符,然后對這些數據執行動態分析。這項分析可觸發大量事件,使企業利用即時的智能實時采取行動,最終改善業務成果。
當數據流過這些分析組件后,Streams將提供運算符將數據存儲至各個位置,或者如果經過動態分析某些數據被視為毫無價值,則會丟棄這些數據。你可能會認為Streams與復雜事件處理(CEP)
系統非相似,不過Streams的設計可擴展性更高,并且支持的數據流量也比其他系統多得多。此外,Streams還具備更高的企業級特性,包括高可用性、豐富的應用程序開發工具包和高級調度。
出于這樣的目的,許多組織開始啟動自己的大數據治理計劃。所謂大數據治理,指的是制定策略來協調多個職能部門的目標,從而優化、保護和利用大數據,將其作為一項企業資產。
13 治理計劃
大數據治理計劃也需要關注與其他信息治理計劃類似的問題。這些計劃必須解決以下問題:
■元數據。大數據治理需要創建可靠的元數據,避免出現窘境,例如,一家企業重復購買了相同的數據集兩次,而原因僅僅是該數據集在兩個不同的存儲庫內使用了不同的名稱。
■隱私。企業需要嚴格關注遵守隱私方面的問題,例如利用社交媒體進行數據分析。
■數據質量。考慮到大數據的龐大數量和超快速度,組織需要確定哪種級別的數據質量屬于“足夠好”的質量。
■信息生命周期管理。大數據治理計劃需要制定存檔策略,確保存儲成本不會超出控制。除此之外,組織需要設定保留計劃,以便按照法規要求合理處置數據。
■管理人員。最終,企業需要招募大數據管理員。例如,石油與天然氣公司內的勘探開采部門的管理員負責管理地震數據,包括相關元數據在內。這些管理員需要避免組織因不一致的命名規范而付款購買已經擁有的外部數據。除此之外,社交媒體管理員需要與法律顧問和高級管理人員配合工作,制定有關可接受的信息使用方法的策略。
14 相關問題
對于大數據的存儲問題,以下問題不可忽視:
容量問題
這里所說的“大容量”通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro™智能化閃存解決方案,采用Nytro產品,客戶可以將數據庫事務處理性能提高30倍,并且超過每秒4.0GB1的持續吞吐能力,非常適用于大數據分析。
延遲問題
“大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。有很多“大數據”應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態介質可擴展存儲系統通過高性能閃存存儲,自動、智能地對熱點數據進行讀/寫高速緩存的LSI
Nytro系列產品等等都在蓬勃發展。
安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去并不會有這種數據混合訪問的情況,大數據應用催生出一些新的、需要考慮的安全性問題,這就充分體現出利用基于DuraClass™
技術的LSI SandForce®閃存處理器的優勢了,實現了企業級閃存性能和可靠性,實現簡單、透明的應用加速,既安全又方便。
成本問題
對于那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現更高的“效率”,同時還要減少那些昂貴的部件。重復數據刪除等技術已經進入到主存儲市場,而且還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro™
MX-B機架服務器啟動盤設備都能夠獲得明顯的投資回報,當今,數據中心使用的傳統引導驅動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數據中心的獨立服務器引導驅動器,則能將可靠性提升多達100倍。并且對主機系統是透明的,能為每一個附加服務器提供唯一的引導鏡像,可簡化系統管理,提升可靠性,并且節電率高達60%,真正做到了節省成本的問題。
數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基于時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發出了一些針對應用的定制的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用服務器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。
針對小用戶
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的“大數據”存儲系統,主要吸引那些對成本比較敏感的用戶。
15 發展前景
大數據的意義是由人類日益普及的網絡行為所伴生的,受到相關部門、企業采集的,蘊含數據生產者真實意圖、喜好的,非傳統結構和意義的數據 。
2013年5月10日,阿里巴巴集團董事局主席馬云在淘寶十周年晚會上,將卸任阿里集團CEO的職位,并在晚會上做卸任前的演講,馬云說,大家還沒搞清PC時代的時候,移動互聯網來了,還沒搞清移動互聯網的時候,大數據時代來了
借著大數據時代的熱潮,微軟公司生產了一款數據驅動的軟件,主要是為工程建設節約資源提高效率。在這個過程里可以為世界節約40%的能源。拋開這個軟件的前景不看,從微軟團隊致力于研究開始,可以看他們的目標不僅是為了節約了能源,更加關注智能化運營。通過跟蹤取暖器、空調、風扇以及燈光等積累下來的超大量數據,捕捉如何杜絕能源浪費。“給我提供一些數據,我就能做一些改變。如果給我提供所有數據,我就能拯救世界。”微軟史密斯這樣說。而智能建筑正是他的團隊專注的事情。
從海量數據中“提純”出有用的信息,這對網絡架構和數據處理能力而言也是巨大的挑戰。在經歷了幾年的批判、質疑、討論、炒作之后,大數據終于迎來了屬于它的時代。2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數據相關產業發展,將“大數據戰略”上升為國家戰略。奧巴馬政府甚至將大數據定義為“未來的新石油”。
相關個股:
第一類是與海量數據的存儲和處理相關的公司,包括天澤信息、拓爾思、美亞柏科、恒泰艾普、潛能恒信。
第二類是與數據中心建設與運營維護相關的公司,包括榮之聯、天璣科技、銀信科技。
第三類是與視頻化應用相關的公司,包括視頻監控業務為主的海康威視、大華股份、威創股份、華平股份。
第四類是與智能化和人機交互概念相關的公司,關注科大訊飛、用友軟件、東方國信等。
價值
大數據
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優化,這就是大數據的價值。大數據也日益顯現出對各個行業的推進力。
大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(互聯網術語,全稱為User Generated
Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現了。另外,物聯網的數據量更大,加上移動互聯網能更準確、更快地收集用戶信息,比如位置、生活信息等數據。從數據量來說,已進入大數據時代,但硬件明顯已跟不上數據發展的腳步。
以往大數據通常用來形容一個公司創造的大量非結構化和半結構化數據,而提及“大數據”,通常是指解決問題的一種方法,并對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業模式。
雖然大數據在國內還處于初級階段,但是商業價值已經顯現出來。首先,手中握有數據的公司站在金礦上,基于數據交易即可產生很好的效益;其次,基于數據挖掘會有很多商業模式誕生,定位角度不同,或側重數據分析。比如幫企業做內部數據挖掘,或側重優化,幫企業更精準找到用戶,降低營銷成本,提高企業銷售率,增加利潤。
未來,數據可能成為最大的交易商品。但數據量大并不能算是大數據,大數據的特征是數據量大、數據種類多、非標準化數據的價值最大化。因此,大數據的價值是通過數據共享、交叉復用后獲取最大的數據價值。在他看來,未來大數據將會如基礎設施一樣,有數據提供方、管理者、監管者,數據的交叉復用將大數據變成一大產業。據統計,大數據所形成的市場規模在51億美元左右,而到2017年,此數據預計會上漲到530億美元。
存儲
“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。”———哈佛大學社會學教授加里·金.
隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬件的發展最終還是由軟件需求推動的,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基于塊和文件的存儲系統的架構設計以適應這些新的要求。
針對大數據的世界領先品牌存儲企業有:IBM、EMC、LSISandForce 、
云創存儲、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等
16 商業模式
國內網絡廣告投放正從傳統的面向群體的營銷轉向個性化營銷,從流量購買轉向人群購買。雖然市場大環境不好,但是具備數據挖掘能力的公司卻倍受資本青睞。
163大數據是一個很好的視角和工具。從資本角度來看,什么樣的公司有價值,什么樣的公司沒有價值,從其擁有的數據規模、數據的活性和這家公司能運用、解釋數據的能力,就可以看出這家公司的核心競爭力。而這幾個能力正是資本關注的點。
移動互聯網與社交網絡興起將大數據帶入新的征程,互聯網營銷將在行為分析的基礎上向個性化時代過渡。創業公司應用“大數據”告訴廣告商什么是正確的時間,誰是正確的用戶,什么是應該發表的正確內容等,這正好切中了廣告商的需求。
社交網絡產生了海量用戶以及實時和完整的數據,同時社交網絡也記錄了用戶群體的情緒,通過深入挖掘這些數據來了解用戶,然后將這些分析后的數據信息推給需要的品牌商家或是微博營銷公司。
實際上,將用戶群精準細分,直接找到要找的用戶正是社交內容背后數據挖掘所帶來的結果。而通過各種算法實現的數據信息交易,正是張文浩為自己的社交數據挖掘公司設計的盈利模式。這家僅僅五六個人的小公司拿到了天使投資。未來的市場將更多地以人為中心,主動迎合用戶需求,前提就是要找到這部分人群。
在移動互聯網領域,公司從開發者角度找到數據挖掘的方向,通過提供免費的技術服務,幫助開發者了解應用狀況。
17 企業應對
國內的企業跟美國比較,有一個很重要的特性就是人口基數的區別,中國消費群體所產生的這種數據量,與國外相比不可同日而語。
伴隨著各種隨身設備、物聯網和云計算云存儲等技術的發展,人和物的所有軌跡都可以被記錄。在移動互聯網的核心網絡節點是人,不再是網頁。數據大爆炸下,怎樣挖掘這些數據,也面臨著技術與商業的雙重挑戰。
首先,如何將數據信息與產品和人相結合,達到產品或服務優化是大數據商業模式延展上的挑戰之一。
其次,巧婦難為無米之炊,大數據的關鍵還是在于誰先擁有數據。
從市場角度來看,大數據還面臨其他因素的挑戰。
產業界對于大數據的熱情持續升溫的同時,資本也敏銳地發現了這一趨勢,并開始關注數據挖掘和服務類公司。基于此,《中國經營報》記者專訪了對這個領域深有研究的資深人士。
《中國經營報》:大數據越來越多被提及,你覺得數據挖掘在商業模式上有什么新的趨勢?
答:大數據就是實時數據的處理和實時結果的導向,越來越多的數據挖掘前端化,或者說直接為消費者感知和直接提供消費者所需要的服務,通常形式是誕生了各種各樣的個性化推薦的服務。
《中國經營報》:在大數據背景下,對于各種從事數據挖掘的公司有什么新的機會?
答:大數據的前提是數據總量的迅速增加以及數據的流動性增加,前者是由于用戶的行為在手機和電腦上越來越多,門檻越來越低;另外一個因素是因為各種平臺的開放導致流動性增加,以上兩個因素的誕生才能催生更多的直接為消費者服務的大數據公司。以北京百分點信息科技有限公司(以下簡稱“百分點”)為例,這家公司的方向、應用和誕生時間,恰好符合了這樣的趨勢。
《中國經營報》:從投資角度,你怎么看數據挖掘類公司的投資價值和公司前景?
答:我看好以大數據為出發點的商業模式和電商的后續服務產品。它們的前景大方向是符合趨勢的,但是具體產品和數據處理能力,可能是最終成敗的因素。
《中國經營報》:從行業角度看做大數據的門檻在哪里?做數據挖掘需要具備哪些重要的因素?
答:門檻主要是如何獲得大量數據,數據的質量、相關性以及是否有好的處理能力和技術,最終應用的方向是商業化的關鍵。
《中國經營報》:在你看來,IDG投資百分點主要看中哪幾個關鍵點?你認為百分點所處的競爭環境如何?
答:百分點具有良好的團隊、技術能力、行業能力以及研究能力,在它們的創始人之間既有互補又有突出。另外,它們的誕生和發展符合了大的趨勢,而且相對又有一點領先。競爭環境主要取決于國內互聯網公司,尤其是大公司對于開放數據的態度和速度,同時也包括它們的技術能力和產品是否能夠不斷地超越用戶的需求。
最早提出“大數據”時代已經到來的機構是全球知名咨詢公司麥肯錫。麥肯錫在研究報告中指出,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對于海量數據的運用將預示著新一波生產率增長和消費者盈余浪潮的到來。
“麥肯錫的報告發布后,大數據迅速成為了計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。”隨著互聯網技術的不斷發展,數據本身是資產,這一點在業界已經形成共識。“如果說云計算為數據資產提供了保管、訪問的場所和渠道,那么如何盤活數據資產,使其為國家治理、企業決策乃至個人生活服務,則是大數據的核心議題,也是云計算內在的靈魂和必然的升級方向。”
事實上,全球互聯網巨頭都已意識到了“大數據”時代,數據的重要意義。包括EMC、惠普(微博)、IBM、微軟(微博)在內的全球IT
巨頭紛紛通過收購“大數據”相關廠商來實現技術整合,亦可見其對“大數據”的重視。 工具專業網入口
“大數據”作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支持。不過,在2011年12月8日工信部發布的物聯網“十二五”規劃上,把信息處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數據”密切相關。
18 投資熱點
大數據是繼云計算、物聯網之后IT產業又一次顛覆性的技術變革。云計算主要為數據資產提供了保管、訪問的場所和渠道,而數據才是真正有價值的資產。企業內部的經營交易信息、物聯網世界中的商品物流信息,互聯網世界中的人與人交互信息、位置信息等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何盤活這些數據資產,使其為國家治理、企業決策乃至個人生活服務,是大數據的核心議題,也是云計算內在的靈魂和必然的升級方向。
大數據時代網民和消費者的界限正在消弭,企業的疆界變得模糊,數據成為核心的資產,并將深刻影響企業的業務模式,甚至重構其文化和組織。因此,大數據對國家治理模式、對企業的決策、組織和業務流程、對個人生活方式都將產生巨大的影響。如果不能利用大數據更加貼近消費者、深刻理解需求、高效分析信息并作出預判,所有傳統的產品公司都只能淪為新型用戶平臺級公司的附庸,其衰落不是管理能扭轉的。
因此,大數據時代將引發新一輪信息化投資和建設熱潮。據IDC預測,到2020年全球將總共擁有35ZB的數據量,而麥肯錫則預測未來大數據產品在三大行業的應用就將產生7千億美元的潛在市場,未來中國大數據產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。
當前我們還處在大數據時代的前夜,預計今明兩年將是大數據市場的培育期,2014年以后大數據產品將會形成業績。 |