一、行業發展概況
1、相關定義
對于大數據的概念,目前尚無業界所廣泛接受的明確定義。各權威機構及普遍理解大致如下:
麥肯錫在研究報告《大數據的下一個前言:創新、競爭和生產力》中認為:大數據是指其大小超出了典型數據庫軟件的采集、儲存、管理和分析等能力的數據集;美國國家標準技術研究所(National Institute of Standards and Technology,NIST)的大數據工作組在《大數據:定義和分類》中認為:大數據是指那些傳統數據架構無法有效地處理的新數據集。維基百科列示的定義是:大數據,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。Gartner 列示的定義是:大數據是體量大、快速和多樣化的信息資產,需用高效率和創新型的信息技術加以處理,以提高發現洞察、作出決策和優化流程的能力。國內普遍的理解是:大數據是具有數據量巨大、來源多樣、生成極快、且多變等特征并且難以用傳統數據體系結構有效處理的包含大數據集的數據。
2、大數據的特征
傳統的數據處理只有兩個環節:從“數據源”到“應用”,數據源需要經過處理存到一個結構化數據庫進行管理,然后再使用諸如數理統計、結果可視化等技術完成對數據的應用。
與傳統的數據處理周期不同,大數據處理需要在傳統的 “數據源”到“應用”這一流程上增加“數據管理”這一步驟,以應對海量大數據帶來的新挑戰。
對于大數據的數據特征,業界通常引用國際數據公司定義的 4V 進行描述:
(1)數據量大(Volume):雖然對大數據量的統計和預測結果并不完全相同,但是一致認為數據量將急劇增長。
(2)類型繁多(Variety):除了結構化數據外,大數據還包括各類非結構化數據,例如文本、音頻、視頻、點擊流量、文件記錄等,以及半結構化數據,例如電子郵件、辦公處理文檔等。
(3)數據價值(Value):從海量價值密度低的數據中挖掘出具有高價值的數據。這一特性突出表現了大數據的本質是獲取數據價值,關鍵在于商業價值,即如何有效利用好這些數據。
(4)處理速度快(Velocity):通常具有時效性,企業只有把握好對數據流的掌握應用,才能最大化地挖掘利用大數據所潛藏的商業價值。
3、我國大數據產業發展歷程
我國的大數據產業目前已經歷了三個時期:
(1)探索期:大約從 2004 年前后,隨著數據庫等技術的進步,數據挖掘概念 開始普及,越來越多的企業將信息管理作為單獨的業務部門。但由于當時企業數 據采集能力的限制,以及企業信息化時間較短,本身管理軟件中積累的歷史數據 有限,一些廠商推出的領先數據管理方案并不容易獲得企業認可,業務尚不足以推動技術的快速進步。
(2)市場啟動期:2008 年金融危機后,國內企業為了盡快從業務低迷的狀態中恢復,獲得市場競爭優勢,對商業智能(BI)以及商業分析(BA)的需求出現快速提升,主要應用在決策支持、業務優化、銷售機會挖掘預測等領域。但在隨后的 2010-2011 年,領先企業擁有優勢后并不甘愿放棄,而落后企業更急于尋求方案快速趕上,使得共同作用下,企業級市場對商業智能及商業分析的需求并未減退,反而成為一種常態。
(3)高速發展期:到了 2012 年以后,由于企業信息化及互聯網應用的日益完善,對消費者及企業內外部所積累的數據日益豐富,大數據的概念迅速為各類人 群所接受。而在企業領域,包括營銷、風險管控、預測、客戶挖掘、海量數據實 時處理、可視化展現、數據倉庫建設等方面的多樣化需求迅速擴張,業務推動技 術進入高速創新期。而進入 2015 年后,企業深度利用數據價值的意識迅速提高, 數據資產管理成為熱門概念,企業開始愿意通過數據交易進行變現,各種與大數據有關的政策及法律法規不斷完善。
預計,中國大數據市場將在 2020 年前后進入成熟期。一方面業務需求的變化將推動細分領域出現豐富的商業模式,并使得新產品和服務具有穩定的剛性需求;另一方面隨著產業鏈的完善,專注于細分行業及細分應用領域廠商競爭逐漸穩固,而不善于充分利用數據的企業將被快速淘汰出局。
二、行業發展情況分析
1、市場規模
目前,我國大數據產業發展在經歷初期探索、市場啟動等階段后,大數據的技術、應用以及社會公眾的接受度等方面逐步趨于成熟,整個產業開始步入快速發展階段,行業規模增長迅速。根據中國電子信息產業發展研究院發布的數據顯示,2018 年中國大數據產業的市場規模約為 4,384.5 億元人民幣,同比增長23.50%。隨著國家政策激勵以及大數據應用模式的逐步成熟,未來幾年中國大數據市場仍將保持快速增長,預計到 2021 年中國大數據市場規模將達到 8,070.60 億元。
當前,國內大數據正在被越來越廣泛地應用到政府公共管理、金融、交通、零售、醫療、工業制造等領域,隨著大數據應用范圍的不斷擴大,大數據所形成的市場價值將不斷提升。
2、區域結構
當前,由于各地區發展基礎和起步時間不同,全國各省市大數據發展水平存在明顯的差異性。從區域角度來看,華北、華東、中南是大數據企業主要集中區域,這些區域集中了中國主要的互聯網企業和金融、消費品、制造等行業用戶。其中,2018 年華北地區份額最高,占 27.60%。
3、行業結構
大數據市場剛剛邁入中國之時,國內對大數據的應用領域主要集中在互聯網,智能交通、電子政務、金融理財、電商物流等方面雖然得到了發展,但應用領域仍然較為狹窄。近年來,隨著泛互聯網的發展,各行業的數據量激增,金融科技、征信、工業、醫療等更多領域開始關注并利用大數據技術挖掘數據價值,并逐步成為大數據行業的主流下游應用領域。
4、在征信領域應用
隨著我國社會信用體系建設的步伐不斷加快以及計算機和網絡技術的不斷提高,征信業的發展也需要適應大數據時代發展所帶來的技術變革。征信機構在積累征信數據的同時,也需要提升自身的數據存儲能力,豐富所積累數據的維度,提升數據分析挖掘、處理速度等各方面能力,從而促進大數據技術在征信領域的應用。
隨著云計算、數據挖掘等信息技術的發展和應用,為征信產品的創新和升級奠定了技術基礎。數據處理能力的提升,使得征信機構可以對數據資源進行更充分地挖掘和分析,開發出具有更高技術含量的產品和服務,滿足銀行、保險等金融機構多層次、全方位、專業化的征信需求。
此外,以互聯網金融為代表的新型互聯網服務行業的快速發展也帶來大量新的征信需求。對于互聯網金融企業,需要借助信用信息共享來防范信用風險、降低交易成本。大數據技術在征信領域的應用,可以幫助其甄別和防范可能發生的風險。
三、 行業主要特點
大數據行業的下游應用領域極其廣泛,例如金融科技、征信等領域,下游應用領域市場規模的增長代表著大數據行業市場需求的上升。
1、金融科技
金融科技是基于大數據、云計算、人工智能等一系列技術創新,全面應用支付清算、借貸融資、財富管理、零售銀行、保險、交易結算等六大金融領域,是金融業未來的主流趨勢?;仡櫲祟惤鹑诎l展史,科技創新與金融創新始終緊密相連,特別是進入信息社會以來,在摩爾定律的作用下,新技術的出現速度不斷加快,而金融與科技的共生式成長也使得現代金融體系伴隨信息技術共同經歷著指數級增長。
大數據在金融業的應用場景相當廣泛。如在銀行業,大數據應用場景集中在數據庫營銷、用戶經營、數據風控、產品設計和決策支持等;在證券業,證券企業可以運用大數據技術進行數據挖掘和分析以找到高頻交易服務對象、資產較高的服務對象和理財服務對象,然后證券公司就可以根據服務對象的特點進行精準營銷,推薦針對性服務。
根據艾瑞咨詢統計,2018 年我國金融機構技術資金投入達 2,297.3 億元,其中投入到以大數據、云計算為代表的前沿科技資金為 675.2 億元,占總體投入的 比重為 29.4%。另外,艾瑞咨詢預計,到 2022 年中國金融機構技術資金投入將 達到 4,034.7 億元,其中前沿科技投入占比將增至 35.1%。
雖然我國目前與歐美發達國家相比,金融基礎比較薄弱,但正是我國金融市場尚未成熟的特點給予我國金融科技快速發展的土壤,未來相關金融機構投入到以大數據、云計算為代表的前沿科技資金投入也會不斷加大,這也會在相當程度上推動大數據行業的發展。
2、征信
征信是依法收集、整理、保存、加工自然人、法人及其他組織的信用信息,并對外提供信用報告、信用評估、信用信息咨詢等服務,幫助客戶判斷、控制信用風險,進行信用管理的活動。黨的十八大以來,在黨中央、國務院統一部署下,我國征信業發展明顯提速,初步形成了“政府+市場”雙輪驅動,金融信用信息基礎數據庫與市場化征信機構錯位發展、功能互補的市場格局,征信體系在市場經濟中發揮了更為重要的基礎性作用。
從征信企業業務流程看,信息收集、信息加工處理、信用產品輸出、商業化應用是征信業務開展的四大關鍵環節,而大數據的應用貫徹于征信企業業務流程四大關鍵環節始終。特別是央行在 2009 年 1 月發布了征信行業數據標準:《征信數據元 信用評級數據元》、《征信數據交換格式信用評級違約率數據采集格式》,該標準格式的發布帶動了大數據風控技術的快速發展。同時,以機器學習、神經網絡為代表的大數據算法的不斷完善,也極大地推動我國征信行業的發展。
根據央行征信中心統計,截至2019年底,征信系統共收錄10.2億自然人、2,834.1萬戶企業和其他組織的信息,規模已位居世界前列。此外,我國央行征 信中心 2011、2015 和 2019 年征信查詢總次數分別為 3.09 億次、7.19 億次和 25.1 億次,增長速度較快,特別是 2015 年到 2019 年,征信查詢總次數增長了近 2.5 倍,年復合增長率達到 36.69%。
雖然我國目前征信查詢次數增長較快,但是對于中國龐大的人口基數來說,人均查詢次數仍然偏少,且考慮到我國目前金融市場尚未成熟的特點,未來我國征信行業市場需求巨大。
綜上所述,以金融科技、征信等領域為代表的大數據下游應用領域市場規模的增長一方面對大數據產業提供了穩健的需求保障,另一方面也對大數據技術提出了更高的需求。這就要求大數據相關企業不僅要不斷加大技術研發投入,而且要更加深入了解、分析下游應用領域市場訴求,從而提供更加貼合市場需求的大數據技術解決方案。
四、行業上下游產業的關聯性
大數據產業鏈覆蓋從數據采集挖掘到數據應用服務,當前大數據及相關應用的產業鏈日益完善。
1、數據來源
(1)產業概況
近年來,官方數據開放程度逐漸提高,行業聯盟興起,第三方數據服務蓬勃發展,各大企業(以互聯網核心企業為主)也開始逐步開放群體畫像數據,不同口徑單一數據的跨界融合成倍放大了數據價值。從整體趨勢上來講,數據來源已較為多元,數據產生量爆炸式增長,可供分析的數據維度越來越豐富。
據 Forrester 的研究結果,目前在線或移動金融交易、社交媒體、GPS 坐標等數據源每天要產生超過 2.5EB(1EB 為 2 的 60 次方字節)的海量數據。據國際數據公司(International Data Corporation)預計,全球數據總量增長率將維持50%左右,2020 年全球數據總量將達到 40ZB(1ZB=1024EB);中國將達到 8.6ZB, 占全球的 21%。
伴隨著數據資源價值逐步得到認可,數據流通的需求不斷上升,除企業直接合作外,數據交易市場開始出現,建立數據需求方與供給方之間成規?;穆撓?。數據的開放需要多方助力,數據的流通與分享能夠成倍提升大數據的經濟價值和 社會價值。
當前大數據應用的數據源仍以自由數據為主,尚未形成完善統一的監管政策與行業規則,企業之間的數據孤島情況仍然存在,數據交易方面,數據交易模式與數據資產定價標準有待建立,發展程度尚不成熟。
數據源是大數據應用的起點與核心,用戶的自有數據資源是后續開發應用的基礎資產。在大數據的背景下,除了自有數據的不斷增大之外,打破數據孤島,實現數據開放,大數據的價值才能最大地顯現。用戶的自有數據與外部服務商的數據相結合,將成為各個垂直行業價值開發的起點。
(2)關鍵技術:數據庫技術
在解決大數據問題時,首先需要解決的問題是針對不同數據的分類選擇不同方法進行數據的整理與存儲。當前,來自各領域的數據呈現爆發式增長,包括網頁與社交媒體、機器數據、內部數據、交易數據、生物數據、來自數據提供商的數據等。大數據與傳統數據最重要的區別即是數據類別由原來的結構化數據,加入了半結構/非結構化的數據。為解決半結構化/非結構化數據的爆發,NoSQL 數據庫應運而生。
NoSQL(Not Only SQL)數據庫泛指非關系型數據庫,能夠解決大規模數據集合的處理問題,特別是針對非關聯性數據。NoSQL 數據庫包括 Key-Value 存儲、列存儲、文檔型等多種類型,適用于多種場景。
2、數據管理
(1)產業概況
數據管理是利用計算機硬件和軟件技術對數據進行有效的收集、存儲、處理和應用的過程,經歷了人工管理、文件系統、數據庫系統三個發展階段。狹義的數據管理包括數據準備、存儲管理、計算處理及數據安全等環節。隨著互聯網和移動互聯時代的到來,非結構化數據呈現爆發式增長,繼而對數據的處理和管控提出了更高的要求,將對非結構化數據的清洗、加工、挖掘、集成和可視化被納入廣義數據管理過程,以滿足更深入的數據處理需要,在此過程中,數據管理的外延還將持續拓展。
(2)關鍵技術:分布式架構
與傳統數據“數據簡單、算法復雜”的計算不同,大數據計算是數據密集型計算,對計算單元和存儲單元間的數據吞吐率要求極高,對性價比和擴展性要求也非常高。因此傳統以來大型機和小型機的并行計算不能滿足大數據時代數據體量、規模、類型的變化。由此,分布式計算被大規模應用到了大數據領域。分布式計算系統是一組自治的計算機集合,通過通信網絡相互連接,實現資源共享和協同工作,從而呈現給用戶的是單個完整的計算機系統。
2004 年,Google 公布了 MapReduce 分布式并行編程架構;而后,Yahoo 提出 S4 系統、Twitter 提出 Storm 系統;Google 隨后提出了將 MapReduce 內存化 以提高實時性的 Spark。
①Hadoop
MapReduce Hadoop是一個由 ASF 所開源的發布式系統基礎架構。用戶可以在不了解底層分布式細節的情況下,基于 Hadoop 開發分布式的大數據存儲與處理應用程序,并利用分布式集群進行高速運算和海量存儲。主要特點是擴展能力強、成本低、 高效率、可靠。
②Storm
Storm 是 Twitter 正式開源的一個分布式的、容錯的實時流計算系統,能夠逐條接收和處理數據記錄,具有很好的實時響應特性。Storm 實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數據。借助實時的信息交互與通訊組件(如 Kafka、ZeroMQ、Netty 等),Storm 對大數據中的記錄進行逐條處理,響應實時性可以達到秒級別甚至更短。
③Spark
Spark 是 Hadoop MapReduce 的一個替代方案,可以在 Hadoop 文件系統中并 行運行。Spark 克服了 MapReduce 在迭代計算和交互式計算方面的不足,同時能 夠充分利用內存資源提高計算效率。
3、數據應用
(1)產業概況
大數據應用,是利用大數據分析的結果,為用戶提供輔助決策,發掘潛在價值的過程。近年來,大數據應用從獨立的工具產品向完整的行業解決方案發展,相關產品和企業數量越來越多,涉及的領域越來越廣,大數據正在政府決策、交通物流、 醫療健康、公共服務、人力資源、廣告營銷、影視娛樂、能源、金融、農業、電信、零售等領域得到越來越深入的應用。但由于各行業自身的信息化和數字化發展程度不均勻,大數據的行業應用的深度仍需加強。從趨勢上看,除通用型工具外,其他獨立數據產品的可適用范圍將越來越小,基于行業的定制,結合平臺的解決方案將成為大數據產業的必然趨勢。
大數據的本質,不在于研究如何處理數據,而是更好的發現海量數據中隱藏的價值,當前,在全球范圍內,大數據的應用已經具備了初步的實踐基礎,在政府決策、醫療健康、金融、電信、零售、廣告營銷等領域得到了較為深入的應用。在數據處理與應用之間,必要的過程即是數據分析與解釋。分析與解釋是用于幫助解釋過去和預測未來的一系列方法。數據分析與解釋橫跨了計算機科學、統計學和數學、專業領域知識等多個領域。近年來,傳統的數學和統計學數據分析越來越難以滿足大數據時代的需求,機器學習和人工智能漸漸流行。
①機器學習
機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現有知識的學問。當把機器學習算法應用在大量數據集時,機器就可能“學習”到一些有價值的新的關系,這些關系原本隱藏在浩瀚的數據海洋之中,依賴人腦根本無法發現。
②人工智能
人工智能則是高于機器學習的一個范疇?,F代公認的人工智能主要研究課題有:推理、知識表示、自動規劃、機器學習、自然語言處理、計算機視覺、機器人學、通用智能或強人工智能。在這八項研究課題里,自然語言處理,計算視覺都是用來處理人類交互環境中信息,可以用來處理大數據庫中非結構化的圖片/視頻/語音數據。而推理/知識表示/機器學習則是用來發掘大量數 據中隱藏關系的利器。人工智能領域的研究自然而然的被認為是解決大數據分析 這一難題的答案。
五、行業競爭格局
目前,根據自身核心競爭力與商業模式情況,我國大數據企業主要呈現數據優勢型、技術擁有型、應用服務型三大特征,行業內企業均具備一項或多項上述特征。
1、數據優勢型企業
具備數據優勢型特征的企業即先天擁有或以收集數據資源為目標的企業,類企業占據一定的先發優勢,可利用手中的數據資源提升自身的企業競爭力,或主導數據交易平臺機制的形成。具備數據優勢型特征的企業以在自身行業積累了豐富數據資源以及力圖匯聚開放網絡數據的企業為代表。
2、技術擁有型企業
具有技術擁有型特征的企業是以技術見長的,專注于數據采集、存儲、分析以及可視化工具的企業,主要為軟件企業、硬件企業和解決方案服務商。
3、應用服務型企業
具有應用服務型特征的企業是指為客戶提供云服務和數據服務的企業,這類企業廣泛對接各個行業,專注于產品的便捷化和可維護性,同時針對不同行業客戶的需求提供差異化的服務。
大數據技術在征信領域應用的主要企業包括上海華夏鄧白氏、益博睿、中誠信征信、金電聯行、芝麻信用、前海征信、蘇州朗動、北京金堤等。
行業未來發展趨勢
1、各行各業對數據分析的需求將更加旺盛
隨著計算機技術的發展普及,各種信息系統的廣泛運用,各類系統中積累了大量的原始數據,各行各業對于數據分析的需求越來越急迫,除了分析這些數據內部所蘊含的規律、預測相關系統的運行趨勢以外,對于數據分析的廣度和速度都有了越來越高的要求。
這些需求促使 IT、互聯網廠商不斷加快對于數據分析技術的研發創新。一方面,大數據分析不再局限于結構化的歷史數據,而更傾向于分析來自社交網絡、各種傳感器采集的非結構化數據;另一方面,激烈的市場競爭促使大數據解決方案廠商加大了對數據的快速、實時分析、智能決策技術的研發投入。
2、人工智能化是大數據的發展方向
人工智能的實現以大數據和深度學習算法為基礎。深度學習依托于模擬人腦進行分析學習的神經網絡,通過模仿人腦的思維方式進行數據的分析和處理。大數據則為人工智能提供的海量數據進行算法的驗證和模型的構建。在沒有海量數據支持的情況下,僅依靠深度學習算法上的革新是無法實現人工智能的。而近期人工智能之所以能取得突飛猛進的進展,是因為這些年來大數據長足發展的結果。正是由于各類感應器和數據采集技術的發展,我們開始擁有以往難以想象的海量數據,并開始在某一領域擁有深度的、精細化的數據。而這些,都是訓練某一領域智能的前提。
大數據是讓人們通過數據看到未來,幫助人類決策;而人工智能則是為了徹底將人們從勞動中解放出來,幫助或者替代人類完成任務。大數據為人工智能提供數據支持,人工智能通過主動學習、處理、分析大數據,自發得到可以指導人類決策的依據,指導或者直接替代人類進行決策和行動。人工智能將是各個領域 的大數據應用的發展方向。
3、產業鏈的分工將日益清晰和細化
隨著數據價值認知的深化,用戶對于數據的質量要求越來越高,標簽的準確性、無效或錯誤值的比例、數據檢索的效率和數據關聯的精準度等指標對產業鏈上各類產品或服務價格的影響日漸加大。同時,在綜合性的大型數據交易平臺帶動下,圍繞數據所產生的各類需求能夠得到最大程度的凸顯,必然會促進大數據產業鏈的劃分逐漸清晰和細化,諸如數據采集、匯聚、加工、交易和分析等環節在內的細分產業都將得到極大的推動。
此外,企業在大數據產業鏈中的定位將會更加明確和聚焦。當前很多跨越了多個環節的企業,將會根據自身的優勢和特點來重新定位在大數據產業鏈中的角色,可以預見的是某些數據擁有者將專注于對外提供數據服務,而目前橫跨分析和應用環節的企業將會有很大一部分成為專業的分析技術提供商。
4、數據處理外包行業將興起
當前,有大量公司將各種 IT 和業務功能外包給服務提供商,這其中包含數據分析。數據外包將是繼軟件外包之后的另一大產業。從歷史上來看,我國的軟件外包產業始于 20 世紀八十年代,此后一直保持持續穩定增長,軟件外包已經成為發達國家的軟件公司降低成本的一種重要的手段。而數據外包作為一個新興的大數據產業,即為企業和科研客戶提供海量數據處理的外包服務,幫助客戶完成海量數據作業任務,并最終交付精準無誤的數據成果。使用戶最小成本、最大利益獲得處理后的數據資產,從而可以將更多的人力和資本投入到生產和科研活動中。
市場研究和咨詢公司 Hexa Research 于 2017 年公布的報告稱,全球數據分析 外包市場將在 2016 年至 2024 年間的復合年增長率超過 30%,年收入超過 60 億美元。
大數據的價值體現在基于海量數據形成的洞見以指導人類行為。海量數據不僅僅體現在數據體量上,還體現在關聯性上。分離數據形成的“數據孤島”是大數據行業面臨的重要問題,其阻礙了數據的連接融合,使數據無法形成知識體系產生洞見,降低了數據的利用價值。只有跨領域的數據分析才更有可能形成真正的知識和智能從而產生更大的價值。同時,大數據本身具有非常強的資產屬性,大數據時代,數據就是金錢。因此,基于各類大數據的共享與交易也將得到蓬勃的發展。
(來源:鵬瀾財經)