百度為何開源深度機(jī)器學(xué)習(xí)平臺?
194 2021-09-07
通過這一開源平臺,世界各地的開發(fā)者們可以免費(fèi)獲得更優(yōu)質(zhì)和更容易使用的分布式機(jī)器學(xué)習(xí)算法源碼,從而大幅降低開發(fā)和部署分布式機(jī)器學(xué)習(xí)系統(tǒng)及相關(guān)應(yīng)用的門檻。包括今日頭條、汽車之家等在內(nèi)的多家公司已經(jīng)通過該開放平臺受益。

作為在人工智能布局較早的玩家,百度擁有領(lǐng)先業(yè)界的實(shí)力。從2013年百度深度學(xué)習(xí)研究院(IDL)的創(chuàng)建及2014年Andrew Ng的加盟至今,百度DMLC分布式深度機(jī)器學(xué)習(xí)開源項(xiàng)目(簡稱“深盟”)已在深度學(xué)習(xí)的多個應(yīng)用領(lǐng)域做過探索,上線了如xgboost(速度快效果好的Boosting模型)、CXXNET(極致的C++深度學(xué)習(xí)庫)、Minerva(高效靈活的并行深度學(xué)習(xí)引擎)以及Parameter Server(一小時訓(xùn)練600T數(shù)據(jù))等產(chǎn)品,在語音識別、OCR識別、人臉識別以及計(jì)算效率提升上發(fā)布了多個成熟產(chǎn)品。

而具有一系列領(lǐng)先優(yōu)勢的百度卻選擇開源其深度機(jī)器學(xué)習(xí)平臺,為何交底自己的核心技術(shù)?

深思之下,卻是在面對業(yè)界無奈時的遠(yuǎn)見之舉。

擁抱世界:開源的魅力

開源,顧名思義,就是開放自己的源代碼給別人查閱和使用,盡管看起來很傻,然而諸多歷史事實(shí)卻告訴我們擁抱世界也能讓世界擁抱你。

Android的逆襲就是明證,在iOS侵占絕大多數(shù)智能手機(jī)操作系統(tǒng)的時代誕生,Google選擇開源,讓早已在蘋果面前沒有機(jī)會的業(yè)界見到了希望,至今Android已擁有過半的市場份額,以至于在移動互聯(lián)網(wǎng)大行其道的今天,Google可以憑借它與旗下產(chǎn)品的整合打造屬于自己的強(qiáng)大生態(tài)系統(tǒng)。相比之下,生而嬌貴的Windows mobile的故事夠令人發(fā)醒的,終于微軟也不得不寄人籬下地去兼容Android和iOS平臺應(yīng)用。此外,作為微軟最主要的應(yīng)用程序框架,微軟對.net寄予厚望,希望它的開源可以來到所有平臺,進(jìn)而重現(xiàn)JAVA的光輝歷史。這也證明了即使強(qiáng)大如微軟也無法憑借一己之力讓其產(chǎn)品得到世界的擁抱。

眾人拾材火焰高:用平臺籠絡(luò)世界的力量

要實(shí)現(xiàn)人工智能,機(jī)器必須具備自主學(xué)習(xí)能力,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)領(lǐng)域的重大突破,可以完成具有高度抽象特征的人工智能任務(wù),如自然語言理解等復(fù)雜場景,因而備受業(yè)界追捧。當(dāng)然,機(jī)器學(xué)習(xí)領(lǐng)域并不只是有深度學(xué)習(xí)這一種算法的存在,然而深度學(xué)習(xí)卻有著顯著的優(yōu)勢:在數(shù)據(jù)集足夠大的情況下,深度學(xué)習(xí)擁有最好的預(yù)測能力。盡管在算法的選擇上仍然存在“殺雞焉用宰牛刀”的爭論,但深度學(xué)習(xí)算法為人工智能領(lǐng)域注入的強(qiáng)大能力卻是其他算法無以比擬的;同時,隨著深度學(xué)習(xí)技術(shù)的成熟,諸多傳統(tǒng)機(jī)器學(xué)習(xí)算法的淘汰幾乎是必然的。然而正如前述,深度學(xué)習(xí)對大量數(shù)據(jù)的需求及其本身的復(fù)雜性仍然是其發(fā)展壯大路上的最大阻礙,也是業(yè)界的無奈所在。

百度在此領(lǐng)域發(fā)力較早,且在諸多方向上進(jìn)行了深入的研究,利用深入學(xué)習(xí)結(jié)合自身搜索引擎的大數(shù)據(jù)讓機(jī)器翻譯及自然語言等技術(shù)實(shí)現(xiàn)了新的飛躍。然而在面向更廣大更具體的應(yīng)用場景時,任何一個公司都難以滿足所有需求。借鑒歷史,開放共贏不僅可以把事情做的,也讓業(yè)界和生態(tài)系統(tǒng)得到健康發(fā)展。

百度此次開源也是完全奔著建平臺去的。完全采用C++語言搭建核心,為平臺的穩(wěn)定高效運(yùn)行奠定了基礎(chǔ);覆蓋了三類最常用的機(jī)器學(xué)習(xí)算法,包括用于點(diǎn)擊預(yù)測的稀疏線性模型、用于排序的決策樹模型以及深入學(xué)習(xí),滿足了最廣大的需求;重點(diǎn)開發(fā)的“蟲洞”項(xiàng)目將自動構(gòu)建深盟所有項(xiàng)目,為所有組件提供一致的數(shù)據(jù)流支持且提供包括Amazon EC2,Microsoft Azure, Google Compute Engine在內(nèi)的云計(jì)算平臺兼容支持,降低平臺的準(zhǔn)入門檻。

開源并入駐Github也進(jìn)一步強(qiáng)調(diào)了其開放的心態(tài)和對平臺的信心。一系列的動作都是希望讓開發(fā)者可以獲得更優(yōu)質(zhì)更容易使用的深入學(xué)習(xí)算法源碼,降低開發(fā)和部署深入學(xué)習(xí)系統(tǒng)及相關(guān)應(yīng)用的門檻,進(jìn)而利用世界的力量壯大自身。

面對可預(yù)料的爆發(fā),技術(shù)一定程度上漸發(fā)成熟,但也因?yàn)楦髯缘募夹g(shù)基因和路線差異,面臨著極大的分裂傾向。開放的心態(tài)擁抱世界,打造機(jī)器學(xué)習(xí)領(lǐng)域的國際標(biāo)準(zhǔn),百度的此舉既是對前期研究投入的回收保障,更是攜手籠絡(luò)友商,確保自身的話語權(quán)所在。