首頁 行業資訊正文

2019年中國人工智能基礎數據服務行業白皮書

52ai 行業資訊 2019-11-19 20:51:07 11139 0 行業發展領域專業研究

核心摘要:

在經歷了一段時期的野蠻生長之后,人工智能基礎數據服務行業進入成長期,行業格局逐漸清晰。人工智能基礎數據服務方的上游是數據生產和外包提供者,下游是AI算法研發單位,人工智能基礎數據服務方通過數據處理能力和項目管理能力為其提供整體的數據資源服務,不過AI算法研發單位和AI中臺也可提供一些數據處理工具,產業上下游普遍存在交叉。

2018年中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定制服務占比86%,預計2025年市場規模將突破113億元。市場供給方主要由人工智能基礎數據服務供應商和算法研發單位自建或直接獲取外包標注團隊的形式組成,其中供應商是行業主要支撐力量。

數據安全、采標能力、數據質量、管理能力、服務能力等仍是需求方的痛點,需要人工智能基礎服務商有明確具體的安全管理流程、能夠深入理解算法標注需求、可提供精力集中且高質量的服務、能夠積極配合、快速響應需求方的要求。

隨著算法需求越來越旺盛,依賴人工標注不能滿足市場需求,因此增強數據處理平臺持續學習能力,由機器持續學習人工標注,提升預標注和自動標注能力對人工的替代率將成趨勢。遠期,越來越多的長尾、小概率事件所產生的數據需求增強,機器模擬或機器生成數據會是解決這一問題的良好途徑,及早研發相應技術也將成為AI基礎數據服務商未來的護城河。

人工智能基礎數據服務行業概述

人工智能基礎數據服務定義

意指為AI算法訓練及優化提供數據采集和標注等形式的服務

人工智能基礎數據服務指為AI算法訓練及優化提供的數據采集、清洗、信息抽取、標注等服務,以采集和標注為主。人工智能概念爆發伊始,算法、算力、數據就作為最重要的三要素被人們樂道,進入落地階段,智能交互、人臉識別、無人駕駛等應用成為了最大的熱門,AI公司開始比拼技術與產業的結合能力,而數據作為AI算法的“燃料”,是實現這一能力的必要條件,因此,為機器學習算法訓練、優化提供數據采集、標注等服務的人工智能基礎數據服務成為了這一人工智能熱潮中必不可少的一環。如果說計算機工程師是AI的老師,那基礎數據服務就是老師手中的教材。

人工智能基礎數據服務發展歷程

行業進入成長期,行業格局逐漸清晰

伴隨國內人工智能熱潮爆發,大量的AI公司拿到融資,為了不斷提高算法精度,數據采標需求也空前爆發,一度催生了行業的繁榮。但早期的AI基礎數據服務門檻較低,玩家魚龍混雜,使行業標準模糊、服務質量參差不齊。隨著競爭加快,AI公司對訓練數據的質量要求也不斷提高,并且當產業落地成為主旋律,需求方對垂直場景的定制化數據采標需求成為主流,眾多小型AI基礎數據服務公司從數據質量和采標能力上達不到要求,或被淘汰,或依附大平臺,行業格局逐漸清晰,頭部公司實力逐漸凸顯。隨著算法需求越來越旺盛,目前機器輔助標注、人工主要標注的手段需要改進提升,增強數據處理平臺持續學習和自學習能力,增加機器能夠標注維度、提升機器處理數據的精度,由機器承擔主要標注工作將成為下一階段的行業重心。未來,越來越多的長尾、小概率事件所產生的數據需求增強,人機協作標注的模式性價比不足,機器模擬或機器生成數據會是解決這一問題的良好途徑,及早研發相應技術也將成為AI基礎數據服務商未來的護城河。

人工智能基礎數據服務的行業價值

目前有監督的深度學習是主流,標注數據是其學習根本

人工智能是研究如何通過機器來模擬人類認知能力的科學,機器學習是現階段實現人工智能的主要手段。機器學習方法通常是從已知數據中學習規律或者判斷規則,建立預測模型,其中,深度學習可以通過對低層特征的組合,形成更加抽象的高層屬性類別,自動從信息中學習有效的特征并進行分類,而無需人為選取特征。憑借自動提取特征、神經網絡結構、端到端學習等優勢,深度學習在圖像和語音領域學習效果最佳,是當今最熱門的算法架構。在實際應用中,深度學習算法多采用有監督學習模式,即需要標注數據對學習結果進行反饋,在大量數據訓練下,算法錯誤率能大大降低?,F在的人臉識別、自動駕駛、語音交互等應用都采用這類方法訓練,對于各類標注數據有著海量需求,可以說數據資源決定了當今人工智能的高度。由于應用有監督學習的AI算法對于標注數據的需求遠大于現有的標注效率和投入預算,無監督或僅需要少量標注數據的弱監督學習、小樣本學習成為了科學家探索的方向,但目前無論從學習效果和使用邊界來看,均不能有效替代有監督學習,人工智能基礎數據服務將持續釋放其對于人工智能的基礎支撐價值。

人工智能基礎數據服務的主要產品形式

定制服務為主要服務形式,數據集產品集中于語音類賽道

目前,國內AI基礎數據服務主要為數據集產品和數據資源定制服務,數據集產品往往是AI基礎數據服務商根據自身積累產出的標準數據集,以語音數據集為主,主體偏普通話語音、英文語音、方言語音等;為保證算法優勢,客戶更多采用定制化服務,由客戶提出具體需求,數據服務商或直接對客戶提供的數據進行標注、或對數據進行采集并標注。大型的需求方,為保障數據的安全,往往提供Web形式的自有標注平臺給執行方,以此對整體項目進行把控,也有一些AI基礎數據服務商向客戶提供私有化平臺建設服務,或將自身平臺與甲方系統兼容;除以上兩種形式外,部分AI基礎數據服務商還向算法服務進行拓展,提供算法訓練、模型搭建等服務。

人工智能基礎數據服務的發展背景

人工智能經濟崛起為基礎數據服務提供長期向好的基本面

2010年語音識別和計算機視覺領域產生重大突破,國內開始萌生AI概念。到2015年,國內迎來人工智能創業熱潮,獨角獸不斷涌現,融資記錄被不斷打破。2012年-2019年8月人工智能領域共發生2787件投融資事件,總融資額達4740億元,人工智能成為最炙手可熱的融資熱點,百度、阿里、騰訊、京東、華為等科技企業也紛紛加注。2017年至今,產業落地成為AI行業的主流,人工智能賦能實體經濟保持高速發展態勢,涉及行業包括安防、金融、零售、交通、教育、醫療、營銷、工業、農業、企服等眾多領域。下游的爆發式增長為人工智能基礎數據服務的發展提供了長期向好的基本面。

數據量呈指數式增長,非結構化數據的應用依賴于清洗標注

PC、互聯網、消費級移動設備的興起宣告了數據時代的來臨,物聯網的發展更使線下業務產生的大量數據被采集起來,數據量呈指數式增長,據IDC統計,全球每年生產的數據量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非結構化數據。過去計算機主要處理結構化數據,人工智能模型卻以處理非結構化數據見長,但“玉不琢不成器”,數據經過清洗與標注才能被喚醒價值,這就產生了源源不斷的清洗與標注需求。在我國,每年需要進行標注的語音數據超過200萬小時,圖片則有數億張。

人工智能基礎數據服務市場現狀

人工智能基礎數據服務產業鏈

AI基礎數據服務方是行業核心環節

人工智能基礎數據服務產業圖譜

產業上下游普遍存在交叉

AI基礎數據服務方的上游是數據生產和外包提供者,下游是AI算法研發單位,AI基礎數據服務方通過數據處理能力和項目管理能力為其提供整體的數據資源服務。 AI基礎數據服務方整體有兩大類,一種是具備自有的標注基地或全職標注團隊,這類企業也參與產業上游部分直接提供產能資源,另一種是依靠眾包或外包模式,專注于數據產品的開發與項目執行。下游部分AI公司擁有自己的標注工具,也可通過AI中臺獲取一些通用標注工具,同時一些數據需求大的企業還孵化了自己的數據服務團隊。整體而言,產業上下游普遍存在交叉關系。

人工智能基礎數據服務行業投融資

融資規模集中于千萬量級,早期融資項目居多

從融資規模來看,人工智能基礎數據服務市場的融資多集中在千萬級別。從時間維度來看,2015年人工智能基礎數據服務商獲得的融資金額相對較高,標志著行業初露頭角,受到資本的認可。從獲得融資的企業數量來看,目前獲得融資的玩家并不多,資本市場表現的活躍度不高。從融資輪次來看,大部分融資仍然集中于早期融資,目前上市的企業僅掛牌新三板的數據堂一家(不考慮科技公司內部孵化的基礎數據服務商)。人工智能基礎數據服務毛利率普遍較高,但為保持與人工智能市場前沿算法的匹配,需要投入大量研發成本進行數據處理平臺與工具的研發升級,因此對融資仍有較強依賴。

人工智能基礎數據服務行業商業模式

生產、獲客、部署合力驅動發展

人工智能基礎數據服務行業是典型的To B型業務,商業模式較為穩定。在生產方面,主要通過自建標注基地或標注團隊、搭建眾包平臺、采購供應商外包服務(BPO)等模式實現生產運營,大多企業主要采取眾包與外包模式,百度數據眾包、倍賽等企業自建標注基地或全職標注團隊,對于培訓較高素質工作人員、完善團隊管理有積極意義;在獲客方面,主要通過口碑傳播、學術會議與展會及代理渠道等模式進入市場,對銷售人員熟悉市場趨勢、客戶需求的要求較高;在實施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應對客戶對數據安全、交付周期與成本的個性化需求。

人工智能基礎數據服務市場規模

2025年市場規模將突破百億,行業年復合增長率為23.5%

2018年中國人工智能基礎數據服務市場規模為25.86億元,其中數據資源定制服務占比86.2%,數據集產品占比12.9%,其他數據資源應用服務占比0.9%;行業年復合增長率為23.5%,預計2025年市場規模將突破110億元。從整體增速來看,行業發展較為穩健,下游人工智能行業持續發力將形成長期利好。

人工智能基礎數據服務細分結構

純標注服務為主體,由供應商提供服務占79%

2018年中國人工智能基礎數據服務市場以語音、視覺、NLP領域的標注服務為主,同時提供采集與標注服務占比較少,這是由于生數據由需求方提供的情況較多,但這并不意味著市場中數據采集需求弱,相反,人工智能技術落地后產生了大量新興垂直領域的數據需求,然而這些數據采集難度大,能夠提供相關采集工具和服務的供應商將獲取競爭優勢。市場供給方主要由企業自建或直接獲取外包團隊的形式以及供應商組成,又以供應商為行業主要支撐力量,占比79%。

人工智能基礎數據服務市場格局

行業將提升至較高集中度,CR5占26%市場份額

目前人工智能基礎數據服務行業CR5占26%市場份額,行業集中度較為適中,既非寡占型市場也非充分競爭市場,這一方面是由于百度數據眾包、海天瑞聲、數據堂等企業進入市場較早,積累了較多客戶資源,另一方面則是由于下游企業之前多采用公開數據集訓練模型,對數據的高精度要求由來尚短,受生態傳導效應滯后影響,市場門檻還不顯著,資金與研發實力較為薄弱的中小企業還有較強的發展土壤。然而未來,隨著下游企業發展壯大,直接使用外包團隊成本低廉、數據安全可控性強,一些基礎性需求將由下游企業自給自足,外部的數據服務商現有的存量市場面臨下降,因此必須承擔高難度、前沿獨特性任務,這就要求其自身投入高精度、專業化數據處理工具的研發和人工智能算法基礎研究,以把握客戶需求,開拓增量市場,因此資金與研發實力成為較高行業門檻,同時受近年資本市場冷卻影響,一批中小型廠商面臨業務收縮,再者部分廠商如倍賽開始在業內并購,參考海外數據服務市場發展情況(海外行業巨頭Appen多次并購其他企業),并購也將成為市場趨勢,多種因素疊加影響下,行業集中度將提升。

人工智能基礎數據服務場景分析

視圖基礎數據服務市場現狀

人像與OCR數據是視圖基礎數據服務的主流

在不考慮自動駕駛的前提下,2018年視圖基礎數據服務市場達到6.6億元,人像與OCR數據是視圖基礎數據服務的主流,尤其人像數據占市場的42.9%。OCR占27%,其他的人體識別數據、商品識別數據、工業質檢數據、醫學影像數據及其他新場景數據等較為分散,合計占市場30.1%。

視圖基礎數據服務技術趨勢

針對算法研發方向判斷數據需求,挖掘增量市場

按照數據使用方向,可以劃分為新算法模型搭建與研發、在已有算法基礎上增加新模塊、解決方案交付過程中定制優化等三類,其中新算法模型搭建與研發和在已有算法基礎上增加新模塊類型的數據需求是可以根據相應機器視覺算法的前沿研發方向來判斷預測的。例如,就智慧城市場景而言,針對漢族的人臉識別和視頻結構化已較為成熟,在實際應用場景中還需針對少數民族和其他人種進行優化以提升整體算法準確率,此外,跨鏡追蹤成為場景研發熱點,相應的跨攝像頭數據如何標注對算法訓練也會產生較大影響,再及,深度相機可以幫計算機讀懂三維立體的監控視頻,還能夠較好地解決復雜光照條件下視圖數據采集的問題,也將在未來成為重要的研發方向,綜上,多民族、多人種數據、跨攝像頭數據、3D數據的采集與標注服務將為視圖基礎數據服務市場的發展帶來增量空間,OCR、手機、零售等其他領域也同理可針對算法研發方向挖掘增量市場。

自動駕駛基礎數據服務應用場景

算法尚未成熟,對數據有長期需求,且缺口仍在

L3級別以上的自動駕駛系統主要有感知、定位、預測、決策和控制五部分,其對于計算機視覺技術的需求度遠高于ADAS,系統需要對雷達、攝像頭等傳感器采集的點云和圖像數據進行抽取、處理和融合,構建車輛行駛環境,為預測和決策做依據,這對于算法的準確性和實時性有極大考驗。目前自動駕駛的視覺技術主要應用有監督的深度學習,是基于已知變量和因變量推導函數關系的算法模型,需要大量的標注數據對模型進行訓練和調優。在世界級無人駕駛大賽中,主辦方往往提供近億張圖片、數十萬張標注圖片供參賽團隊訓練使用;在路測或真實道路駕駛時,如人車混雜、分布稠密、行為多變等復雜環境問題更需要海量的真實路況數據不斷對算法進行優化,才能保障無人駕駛車輛正??捎?。如今國內自動駕駛飛速發展,AI公司、科技公司、高精地圖廠商、車廠等參與者眾多,該領域的數據采集和標注需求已經成為AI基礎數據服務的主要項目之一,且自動駕駛算法應用仍待優化,數據需求缺口仍在,市場遠未飽和。

自動駕駛基礎數據服務市場現狀

2025年采標規模將超24億,科技公司和車廠是主要需求方

自動駕駛基礎數據主要是道路交通圖像、障礙物圖像、車輛行駛環境圖像等,需求方以科技公司、汽車廠商和高精地圖廠商為主,2018年自動駕駛行業基礎數據服務規模為5.76億元,預計2025年將超24億元,三方規模占比分別為49%、47.2%和3.8%,行業數據總任務量超一億張,2D圖像標注與3D點云標注任務量基本為2:1。其中高精地圖廠商算法較為成熟,數據自動化標注程度可達90%左右,外包需求較少;以百度、圖森未來為代表的自動駕駛科技公司一直是該領域基礎數據服務的主要買方,平均各家算法訓練圖像數據累積需求在千萬級以上,隨著落地項目進程加快,將會有更多細分場景的需求產生;近幾年,汽車廠商在ADAS和自動駕駛方向的投入明顯,上汽、吉利等廠商年投入均可達數億元,對于數據的采集和標注需求也逐年增加,預計未來3年中,汽車廠商將成為需求主力。

智能交互基礎數據服務市場現狀

遠場語音交互成為主流需求,中文類數據仍占據市場核心

2018年語音交互相關數據服務市場規模達到13.5億元。語音交互主要分為近場交互、中場交互和遠場交互,以智能影音家居、可交互機器人和車機為代表的中遠場交互類數據服務需求合計占到智能交互基礎數據服務的68%,成為當前智能交互基礎數據服務的主流需求,因此針對遠場語音交互的低噪聲環境服務具有較強發展潛力和議價能力。在服務語種上,中文(含方言)服務占據71%的市場份額,外語種資源相對稀缺,采集和標注難度較大,成本相對更高,目前占29%的市場份額。

智能交互基礎數據服務技術趨勢

實現跨語音識別、語義理解的復合數據標注

目前企業在智能交互系統的建設中,對單純的語音識別或合成方面技術能力相對較完善,而在上下文理解、多輪對話、情緒識別、模糊語義識別、意圖判斷等方面的研發痛點更強,根據智能交互系統算法的發展,迭代并設計符合算法需求的NLP數據產品,有助于從數據層面推動智能交互系統的發展。特別的,對話系統的效果對標注數據的質量和規模依賴性很強,但目前受標注數據和模型能力的雙重制約,對話流程還無法對語音、語義整個交互流程打通,而實現跨語音識別、語義理解的復合數據標注可以幫助減輕語音信息與文本信息之間的信息誤傳導,對整個對話流程效果增強能夠產生積極影響,將增加智能交互基礎數據服務探索的可能性。

人工智能基礎數據服務需求分析

人工智能基礎數據服務客戶定位

客戶分為AI公司、科技公司、科研機構、行業企業四類

從需求方來看,AI公司和科技公司占主要份額,AI公司更聚焦于視覺、語音等某一類型的基礎數據服務,而科技公司結合集團優勢,向人工智能整體發力,不同部門會產生多類型數據需求,科研機構需求占比較小。此外傳統意義上的行業企業,如汽車廠商、手機品牌商、安防廠商等傳統企業圍繞自身業務進行技術拓展,也開始產生AI基礎數據需求,并且量級逐漸增大,未來將釋放更多市場空間。

人工智能基礎數據服務核心需求類型

AI應用三大階段,對基礎數據服務產生差異化需求

企業應用人工智能算法要經歷研發、訓練和落地三個階段,不同階段對于AI基礎數據服務也有差異化需求。研發需求是新算法研發拓展時產生的數據需求,一般量級較大,初期多采用標準數據集產品訓練,中后期則需要專業的數據定制采標服務;訓練需求是通過標注數據對已有算法的準確率、魯棒性等能力進行優化,是市場中的主要需求,以定制化服務為主,對算法的準確性有較高要求;落地場景的業務需求中算法較為成熟,涉及的數據采集和標注更貼合具體業務,如飛機保養中的涂料識別數據等,對于標注能力和供應商主動提出優化意見的服務意識有較強要求。

人工智能基礎數據服務需求痛點

五大需求痛點決定AI基礎數據服務商的服務標準

目前需求方在選擇數據服務時往往會遇到數據安全、采標能力、數據質量、管理能力、服務能力等痛點。對于數據安全,需求方希望基礎數據服務商有明確具體的安全管理流程,對數據傳輸、存儲,以及結項后的數據銷毀等環節比較重視。在采標能力方面,需求方算法越來越貼近業務,希望數據服務商對于自動駕駛、工業等有一定門檻的領域有采集能力,并且能理解客戶意圖,配合標注,甚至可以提出標注建議;根據市場反應,大多數數據服務公司首次交付項目時,數據的準確率普遍偏低,都需要一到兩次的返工,故需求方對無效數據少、準確率高的公司更加青睞。對于執行效率,一般AI基礎數據服務商都能在項目周期內完成,但管理能力較弱的公司很難在兼顧多個項目時做到精力集中、高質量地服務客戶,同時執行團隊的素養與信譽也是重要影響因素。服務意識是一項軟實力,需要AI基礎數據服務商能夠積極配合、快速響應需求方要求。

版權聲明

本文僅代表作者觀點,不代表本站立場。
本文系作者授權發表,未經許可,不得轉載。

評論

白金岛跑得快下载