中文自然語(yǔ)言處理數(shù)據(jù)共建讓機(jī)器讀懂“千言”
2020-08-26 16:18
本文來(lái)源:中國(guó)消費(fèi)者報(bào)•中國(guó)消費(fèi)網(wǎng)
作者:武曉莉
“機(jī)器人保姆要想真正走入家庭,,自然語(yǔ)言是第一關(guān)。”達(dá)闥科技總裁黃曉慶在此前的一次座談上對(duì)記者說(shuō),。
自然語(yǔ)言理解(NLP)素有“人工智能皇冠上的明珠”的盛譽(yù),語(yǔ)言與知識(shí)技術(shù)是人工智能認(rèn)知能力的核心,。這也意味著語(yǔ)言與知識(shí)等認(rèn)知層面的技術(shù)突破,,將進(jìn)一步促進(jìn)AI深入發(fā)展。
中文作為最優(yōu)美,、最復(fù)雜的語(yǔ)言,,其自然語(yǔ)言的數(shù)據(jù)共建將幫助機(jī)器讀懂“千言”,開(kāi)拓人工智能領(lǐng)域無(wú)限的遐想空間,。
機(jī)器認(rèn)知需依賴(lài)知識(shí)圖譜
“知識(shí)圖譜是機(jī)器認(rèn)知世界的重要基礎(chǔ),。”在剛剛結(jié)束的以“掌握知識(shí)、理解語(yǔ)言,、擁有智能”為主題的百度大腦語(yǔ)言與知識(shí)技術(shù)峰會(huì)上,,百度CTO王海峰解讀了語(yǔ)言與知識(shí)技術(shù)的發(fā)展歷程與最新成果,與產(chǎn)學(xué)研各界分享技術(shù)及產(chǎn)業(yè)發(fā)展趨勢(shì)和展望,。
基于最大的搜索平臺(tái)的數(shù)據(jù)優(yōu)勢(shì),,百度打造了世界上最大規(guī)模的知識(shí)圖譜,擁有超過(guò)50億實(shí)體和5500億事實(shí),,并在不斷演進(jìn)和更新,。該知識(shí)圖譜應(yīng)用于各行各業(yè),每天的調(diào)用次數(shù)超過(guò)400億次,。
在融入知識(shí)的基礎(chǔ)上,,機(jī)器的語(yǔ)言理解能力不斷增強(qiáng)。通過(guò)知識(shí)增強(qiáng)的語(yǔ)義理解框架ERNIE,,在深度學(xué)習(xí)的基礎(chǔ)上融入知識(shí),,同時(shí)具備持續(xù)學(xué)習(xí)能力,這讓機(jī)器自然語(yǔ)言突破了閱讀理解,、對(duì)話理解以及跨模態(tài)深度語(yǔ)義理解等技術(shù),。
語(yǔ)言生成是語(yǔ)言與知識(shí)技術(shù)中的重要組成部分?;陬A(yù)訓(xùn)練技術(shù)的成功經(jīng)驗(yàn)提出的基于多流機(jī)制的語(yǔ)言生成預(yù)訓(xùn)練技術(shù),,兼顧詞、短語(yǔ)等不同粒度的語(yǔ)義信息,,顯著提升生成效果,。
在應(yīng)用系統(tǒng)層面,對(duì)話系統(tǒng)和機(jī)器翻譯等成績(jī)卓著,。提出了知識(shí)圖譜驅(qū)動(dòng)的對(duì)話控制技術(shù),,以及首個(gè)基于隱空間的大規(guī)模開(kāi)放域?qū)υ捘P蚉LATO等,并推出智能對(duì)話定制和服務(wù)平臺(tái)UNIT,,幫助開(kāi)發(fā)者高效構(gòu)建智能對(duì)話系統(tǒng),,實(shí)現(xiàn)規(guī)?;瘧?yīng)用。
通過(guò)上述技術(shù),,機(jī)器翻譯也取得了突破性進(jìn)展,。以百度為例,其翻譯支持200多種語(yǔ)言,,每天響應(yīng)超過(guò)千億字符的翻譯請(qǐng)求,,支持超過(guò)40多萬(wàn)家第三方應(yīng)用,技術(shù)上,,提出了多智能體聯(lián)合學(xué)習(xí),、基于語(yǔ)義單元的同傳模型、稀缺語(yǔ)種分組混合訓(xùn)練算法等,。
王海峰認(rèn)為,,人工智能大腦語(yǔ)言與知識(shí)技術(shù)的持續(xù)探索和創(chuàng)新,以平臺(tái)化的方式輸出,,可以賦能千行萬(wàn)業(yè),,持續(xù)提升產(chǎn)業(yè)智能化水平。
此次大會(huì)還發(fā)布了百度大腦語(yǔ)言與知識(shí)產(chǎn)品全景圖,,以及語(yǔ)義理解技術(shù)與平臺(tái)文心,、智能文檔分析平臺(tái)TextMind和AI同傳會(huì)議解決方案三大新產(chǎn)品和6項(xiàng)升級(jí)。
語(yǔ)言與知識(shí)技術(shù)平臺(tái)化
只用一臺(tái)電腦和一部手機(jī),,就可以在大型會(huì)議現(xiàn)場(chǎng)快速搭建一套同傳系統(tǒng),,只需點(diǎn)點(diǎn)鼠標(biāo)、打幾個(gè)字,,就能快速獲得專(zhuān)業(yè)的同傳服務(wù),。
語(yǔ)言與知識(shí)技術(shù)平臺(tái)化可以在應(yīng)用中產(chǎn)生大量?jī)r(jià)值,為廣大開(kāi)發(fā)者和產(chǎn)業(yè)實(shí)踐者提供以語(yǔ)言與知識(shí)技術(shù)為核心驅(qū)動(dòng)的系列產(chǎn)品,。
據(jù)百度集團(tuán)副總裁吳甜介紹,,語(yǔ)義理解技術(shù)與平臺(tái)文心,基于深度學(xué)習(xí)平臺(tái)飛槳打造,,依托領(lǐng)先的語(yǔ)義理解核心技術(shù),,集成優(yōu)秀的預(yù)訓(xùn)練模型、全面的NLP算法集,、端到端開(kāi)發(fā)套件和平臺(tái),提供一站式NLP開(kāi)發(fā)與服務(wù),,讓開(kāi)發(fā)者更簡(jiǎn)單,、高效地定制企業(yè)級(jí)NLP模型。文心經(jīng)過(guò)了大量真實(shí)應(yīng)用場(chǎng)景的淬煉,,已經(jīng)具備優(yōu)秀的工業(yè)級(jí)落地實(shí)力,。
智能文檔分析平臺(tái)TextMind,,具備“多快好省”的核心優(yōu)勢(shì),可以促進(jìn)企業(yè)辦公智能升級(jí),。
利用機(jī)器大腦智能創(chuàng)作平臺(tái),,媒體應(yīng)用場(chǎng)景也得到再升級(jí)。智能策劃,、智能采編,、智能審校三大媒體場(chǎng)景方案,可以進(jìn)一步助力媒體人更快,、更好地創(chuàng)作,。
智能對(duì)話定制與服務(wù)平臺(tái)UNIT,有更智能的任務(wù)式對(duì)話理解,、極致便捷的表格問(wèn)答和融合通用的新對(duì)話引擎,。將進(jìn)一步降低任務(wù)式對(duì)話、智能問(wèn)答的定制成本,,并融合通用對(duì)話能力,,提升交互體驗(yàn)。
上述AI同傳會(huì)議解決方案,,覆蓋了會(huì)議全場(chǎng)景,、全流程,旨在打造用戶隨身的“會(huì)議同傳專(zhuān)家”,。
所有的場(chǎng)景都離不開(kāi)數(shù)據(jù)計(jì)算,,更多的數(shù)據(jù)集作者參與共建,可以共同推動(dòng)中文信息處理技術(shù)的進(jìn)步,,建設(shè)世界范圍的中文信息處理影響力,。據(jù)了解,未來(lái)3年,,中文自然語(yǔ)言處理數(shù)據(jù)共建計(jì)劃——“千言”將面向20多個(gè)任務(wù),,收集和建設(shè)不少于100個(gè)中文自然語(yǔ)言處理數(shù)據(jù)集,覆蓋語(yǔ)言與知識(shí)技術(shù)全部領(lǐng)域,。
未來(lái),,機(jī)器將更好地理解世界、更好地服務(wù)于人,。
責(zé)任編輯:40
請(qǐng)關(guān)注
官方微信公眾號(hào)
官方微信公眾號(hào)
請(qǐng)關(guān)注
官方微博
官方微博