創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
2019 年,技術(shù)進(jìn)展方面主要體現(xiàn)在預(yù)訓(xùn)練語言模型、跨語言 NLP/無監(jiān)督機(jī)器翻譯、知識圖譜發(fā)展 + 對話技術(shù)融合、智能人機(jī)交互、平臺廠商整合AI產(chǎn)品線。
1 預(yù)訓(xùn)練語言模型
隨著 2018 年底 Google 提出預(yù)訓(xùn)練語言模型 BERT,在多項 NLP 任務(wù)上獲得更優(yōu)效果,預(yù)訓(xùn)練語言模型的研究與應(yīng)用被學(xué)術(shù)界和工業(yè)界視為 NLP 領(lǐng)域的一項重大突破,將 NLP 問題的解決方式從以往的為每個任務(wù)單獨設(shè)計復(fù)雜的模型逐漸演變成了預(yù)訓(xùn)練 + 微調(diào)的范式,讓眾多 NLP 應(yīng)用能夠享受到大語料預(yù)訓(xùn)練模型帶來的紅利,在通用的預(yù)訓(xùn)練模型的基礎(chǔ)上加入簡單的任務(wù)層,并結(jié)合自己場景的少量語料就可以獲得一個不錯的領(lǐng)域 NLP 模型。
至此開啟了自然語言處理的新篇章。
在 2019 年,各個研究機(jī)構(gòu)和公司在 BERT 的基礎(chǔ)上進(jìn)一步創(chuàng)新,紛紛提出了自己的預(yù)訓(xùn)練模型,如:Facebook 發(fā)布的 RoBERTa,CMU 發(fā)布的 XLNet,Stanford 發(fā)布的 ELECTRA,還有百度的 ERNIE 模型,阿里的 structBERT 模型, 華為的 NEZHA,哈工大和科大訊飛也都提出了自己的模型,不斷刷新 NLP 任務(wù)的最好成績。
這新的工作總結(jié)起來,主要來自訓(xùn)練任務(wù)設(shè)計和訓(xùn)練算法兩個方面。
訓(xùn)練任務(wù)設(shè)計
進(jìn)行更加精細(xì)的語義粒度建模,包括引入更細(xì)粒度的建模對象和更加精細(xì)的刻畫語義關(guān)聯(lián)。
比如 “全詞 Mask” 或者 “Knowledge Masking”,技術(shù)在 MLM 預(yù)訓(xùn)練任務(wù)中 Mask 整個詞而不是單個 Token,進(jìn)而提升了任務(wù)難度使得 BERT 學(xué)到更多語義信息,哈工大和科大訊飛聯(lián)合發(fā)布的中文 BERT 模型以及 NEZHA 模型中得到了應(yīng)用;再比如引入更多類型的句間關(guān)系,從而能夠更加準(zhǔn)確描述語義關(guān)聯(lián)性,進(jìn)而提升語義匹配等方面能力,這在阿里和螞蟻團(tuán)隊的 BERT 模型中得到體現(xiàn)。
利用新的機(jī)器學(xué)習(xí)方法建模
包括 CMU 和 Google 聯(lián)合發(fā)布的 XLNet 使用了 Autoencoder 和 Auto-regressive 兩種方案;斯坦福大學(xué)提出的 ELECTRA 模型,引入對抗機(jī)制來進(jìn)行更好的 MLM 學(xué)習(xí)。華盛頓大學(xué)和 Facebook 聯(lián)合發(fā)布的 SpanBERT 模型還引入了 Span 預(yù)測任務(wù)。這些方案應(yīng)用更學(xué)習(xí)方法來建模文字之間的聯(lián)系,從而提升模型效果。
訓(xùn)練算法設(shè)計
針對模型的易用性的問題,減少模型參數(shù),或者降低模型的復(fù)雜度,包括 Google 發(fā)布的 ALBERT 使用了詞表 embedding 矩陣的分解與中間層的共享。
提高訓(xùn)練速度的優(yōu)化
包括混合精度訓(xùn)練,用 FP16 來進(jìn)行權(quán)重,激活函數(shù)和梯度等的表示;LAMB 優(yōu)化器通過一個自適應(yīng)式的方式為每個參數(shù)調(diào)整 learning rate,模型訓(xùn)練能夠采用很大的 Batch Size; 這些方法極大地提高了訓(xùn)練速度。
阿里的 structBERT 模型通過引入更多模型和任務(wù)結(jié)構(gòu)化信息,提升語言表示能力。在Gluebench mark 上多次名列前矛和保持領(lǐng)先位置。通過蒸餾和 CPU 加速,RT 提高了 10x,finetuned 的模型給多個業(yè)務(wù)場景帶來了明顯提升,上線了 AliNLP 平臺。
預(yù)訓(xùn)練語言模型在大規(guī)模無監(jiān)督文本上進(jìn)行預(yù)訓(xùn)練,將得到的詞和句子的表示遷移到廣泛的下游任務(wù)上,包括文本匹配,文本分類,文本抽取,閱讀理解,機(jī)器問答等不同的場景。如阿里語言模型在 MS MARCO 問答評測,TREC Deep Learning 評測上都取得了第一名的好成績。
下游的任務(wù)可以在低資源的情況下快速獲得一個不錯的解決方案,極大的提升了 NLP 算法的應(yīng)用落地能力。
2 跨語言 NLP/無監(jiān)督機(jī)器翻譯
作為預(yù)訓(xùn)練語言模型的擴(kuò)展,F(xiàn)acebook 的研究人員提出了跨語言的語言模型預(yù)訓(xùn)練 “Cross-lingual Language Model Pretraining”,僅使用單語數(shù)據(jù)的無監(jiān)督訓(xùn)練和使用平行語料的有監(jiān)督訓(xùn)練的條件下,模型有效學(xué)習(xí)了跨語言文本表征,在多語言分類和無監(jiān)督機(jī)器學(xué)習(xí)等任務(wù)上,都比之前的最優(yōu)結(jié)果有顯著的提升。
繼 2018 年 Google 預(yù)訓(xùn)練語言模型 BERT 橫掃 主流 NLP 任務(wù)之后,2019 年 Facebook 發(fā)布了新型跨語言預(yù)訓(xùn)練語言模型 XLM,實現(xiàn)不同語言在統(tǒng)一嵌入空間的表征共享,并在無監(jiān)督機(jī)器翻譯任務(wù)上帶來顯著的質(zhì)量提升。在探索大規(guī)模、多語言神經(jīng)機(jī)器翻譯方向上,Google、阿里巴巴等進(jìn)行了有效探索,通過同時在數(shù)十乃至數(shù)百種語向的平行語料上訓(xùn)練一個模型,而不是對各個語向分別建模,實現(xiàn)語義映射關(guān)系共享,不僅壓縮了模型數(shù)量,同時普遍提升了小語種翻譯效果。
過去一年來,多語言 NLP 技術(shù)的研究成果主要集中在機(jī)器翻譯(特別是無監(jiān)督的機(jī)器翻譯),跨語言詞向量,多語言 NER,依存句法分析,詞對齊和多語言詞典生成等方向。
由于跨語言詞向量的學(xué)習(xí)/映射是其中的關(guān)鍵步驟,目前的無監(jiān)督/跨語言的 NLP 任務(wù)在相近的語言之間(如英語/法語,英語/西班牙語等)效果最好,在不同的語言家族間(如英語/越南語)效果還是有較大提升空間。
3 知識圖譜發(fā)展+對話技術(shù)融合
隨著數(shù)據(jù)量的積累和應(yīng)用對數(shù)據(jù)質(zhì)量和結(jié)構(gòu)要求的提升,近幾年知識圖譜又成為一項熱點技術(shù)開始被關(guān)注。
知識圖譜技術(shù)領(lǐng)域在 2019 年的發(fā)展,包括領(lǐng)域知識圖譜的構(gòu)建和整合(金融、企業(yè)等)、圖譜平臺化標(biāo)準(zhǔn)能力的建設(shè)(schema 定義 + 構(gòu)建 + 調(diào)用)、圖譜應(yīng)用算法建設(shè)(基于圖譜數(shù)據(jù)的圖模型 + 規(guī)則推理等);并基于構(gòu)建的圖譜數(shù)據(jù)和能力,開始在更多的業(yè)務(wù)場景得到應(yīng)用(搜索推薦內(nèi)容理解和挖掘、金融風(fēng)控和決策、對話理解和內(nèi)容生成等)。
在知識圖譜和對話結(jié)合的技術(shù)方向,對話技術(shù)在問答和任務(wù)式對話近幾年已形成了一定的技術(shù)框架和業(yè)務(wù)覆蓋,開始需要解決一些對知識理解 + 答案專業(yè)性要求更高的領(lǐng)域場景(理財助理等)。
對話技術(shù)結(jié)合知識圖譜的領(lǐng)域知識完整度 + 結(jié)構(gòu)化質(zhì)量優(yōu)勢來進(jìn)行覆蓋,可以解決相應(yīng)場景下語料標(biāo)注(意圖理解)和專家配置(對話流程 + 響應(yīng)生成)上的不足,進(jìn)一步提升對話覆蓋和響應(yīng)質(zhì)量。融合知識圖譜對話這個方向,在 2020 年會有更多的真實場景落地和覆蓋。
4 智能人機(jī)交互
自然語言理解和深度問答匹配技術(shù)在學(xué)術(shù)和工業(yè)界持續(xù)發(fā)發(fā)展,并且已經(jīng)在全域業(yè)務(wù)和場景有了大規(guī)模應(yīng)用,基于預(yù)訓(xùn)練語言模型進(jìn)一步帶來性能的提升。
機(jī)器閱讀理解成為低成本通用技術(shù),圍繞百科、政策法規(guī)、商品詳情頁、說明書等場景構(gòu)建應(yīng)用中臺能力,接入效率有了很大提升。結(jié)合圖-文的多模態(tài) VQA 問答技術(shù)在行業(yè)中率先孵化,理解商品詳情頁長圖進(jìn)行問答成為一項新的競爭力。
對話(Dialog)技術(shù)能力進(jìn)一步發(fā)展,但是在端到端的基于數(shù)據(jù)驅(qū)動的對話狀態(tài)跟蹤和對話策略還是只能在限定范圍內(nèi)進(jìn)行探索,工業(yè)場景基于對話平臺構(gòu)建的任務(wù)型機(jī)器人成為了主流的實現(xiàn)方案。
多語言技術(shù)實現(xiàn)新語言的快速拓展,基于 Cross-Lingual 構(gòu)建多語言語言模型,在遠(yuǎn)距離語言對在英 -> 中、英 -> 泰遠(yuǎn)距離語言對上超越 Google,拓展一個新語言從去年的 2 個月縮短到 2 周。
對話生成技術(shù)開始取得突破,基于結(jié)構(gòu)化知識的引入提升生成的可控性,賣點的生成帶來導(dǎo)購轉(zhuǎn)化率的提升。
5 平臺廠商整合AI產(chǎn)品線
隨著 AI 技術(shù)發(fā)展和 AI 應(yīng)用的需求,AI 技術(shù)框架的成熟(Tensorflow、PyTorch等),AI 技術(shù)能力逐漸被標(biāo)準(zhǔn)化為一系列 AI 平臺類產(chǎn)品,面向企業(yè)和開發(fā)者,提供更低門檻和更高效率的 AI 應(yīng)用支持。
對話類平臺,Google 從 2016 年開始發(fā)布 Assistant 對話助手,這幾年陸續(xù)發(fā)布了 Google Home(現(xiàn)在整合到 Nest 智能家居品牌),Duplex 語音電話,以及收購了 API.AI 對話開發(fā)平臺;今年 Google 已基本整合這些對話產(chǎn)品線,基本布局了對話現(xiàn)有的平臺 + 終端,現(xiàn)成一個整體的對話產(chǎn)品線。
AI 類平臺方面,Amazon 自 2017 年發(fā)布 SageMaker 機(jī)器學(xué)習(xí)平臺產(chǎn)品,今年進(jìn)一步基于 SageMaker 整合 AI 開發(fā)過程,同時打通下游技術(shù)框架和上游 AI 應(yīng)用,整合 AI 產(chǎn)品線。類似阿里的機(jī)器學(xué)習(xí)平臺 PAI,定位成面向企業(yè)和開發(fā)者的一站式機(jī)器學(xué)習(xí)平臺。
2019 年,應(yīng)用與產(chǎn)品方面主要體現(xiàn)在機(jī)器翻譯、對話系統(tǒng)、多輪對話智能服務(wù)、智能語音應(yīng)用持續(xù)發(fā)展。
6 機(jī)器翻譯
機(jī)器翻譯的產(chǎn)品發(fā)展延續(xù)了之前的趨勢,在通用領(lǐng)域(新聞),特定領(lǐng)域(電商,醫(yī)療等)擴(kuò)展了更多的語言方向,支持了更豐富的業(yè)務(wù)場景,并持續(xù)帶來商業(yè)價值。阿里巴巴在翻譯干預(yù)和智能泛化方向進(jìn)行了卓有成效的探索,把業(yè)務(wù)知識更好地融合到神經(jīng)網(wǎng)絡(luò)翻譯框架中,大大提升了垂直場景下關(guān)鍵信息的翻譯準(zhǔn)確率。
高價值和高敏感內(nèi)容的翻譯目前仍離不開人工,因此在計算機(jī)輔助翻譯(CAT)引入智能算法實現(xiàn)人機(jī)協(xié)同翻譯,以及機(jī)器翻譯后編輯(MTPE)等新型生產(chǎn)模式,也受到越來越多的關(guān)注。阿里巴巴、騰訊在自動后編輯(APE)、交互式翻譯(IMT)都開始有產(chǎn)品推出,并在實際業(yè)務(wù)中落地。
除了文本翻譯之外,更多的多模態(tài)翻譯應(yīng)用場景出現(xiàn),如語音翻譯在會議同傳,雙語字幕,翻譯機(jī)硬件上的嘗試(阿里二十周年年會上馬老師和逍遙子演講也以實時雙語字幕的形式展示)。
結(jié)合 OCR,機(jī)器翻譯和合圖技術(shù)的圖片翻譯在支付寶掃一掃,微信,搜狗翻譯機(jī)上得到應(yīng)用。隨著賣家直播的興起,直播視頻翻譯的場景和需求也會越來越多。但是受限于直播場景中復(fù)雜的領(lǐng)域,專業(yè)的術(shù)語,快速的語速和有時嘈雜的背景環(huán)境,直播翻譯對于語音識別和機(jī)器翻譯的挑戰(zhàn)也是非常巨大。
7 對話系統(tǒng)
對話系統(tǒng)的語言覆蓋進(jìn)一步提升,基于多語言遷移能力快速拓展了法語、阿拉伯語、臺灣話的對話系統(tǒng),目前已支持 11 個語種,及馬來語-英語和泰語-英語的混合語言理解,為 Lazada 和 AE 帶來解決率的大幅提升。
對話系統(tǒng)支持了更大規(guī)模的商家和企業(yè),支撐了超過 50+ 的集團(tuán)經(jīng)濟(jì)體客戶,店小蜜拓展了通用包、行業(yè)包、店鋪包的知識定位能力,累計承載百萬級活躍商家,日均千萬級對話輪次。釘釘小蜜基于企業(yè)智能助理承載了 40W 日均活躍企業(yè)。
對話系統(tǒng)的交互形式進(jìn)一步豐富,直播小蜜實現(xiàn)了從商品相關(guān)問題的被動回答,到主動和用戶展開開放式對話的轉(zhuǎn)變,帶來 cdau 破百萬。
VQA 等多模態(tài)理解能力落地店小蜜及經(jīng)濟(jì)體小蜜,提升用戶交互體驗的同時大幅降低商家配置成本。
熱線小蜜的語音交互能力作為典型案例獲 2019MIT Technology Reviewer 十大突破技術(shù)提名,并沉淀了面向多領(lǐng)域的外呼場景,并在多個生態(tài)輸出。
8 多輪對話智能服務(wù)
多輪交互在智能服務(wù)場景(客服機(jī)器人)在解決用戶模糊問題,提高用戶使用體驗方面起到的重要的作用。模糊問題指用戶問題描述不完整,如 “怎么開通” ,這句話沒有說明是哪個業(yè)務(wù),這類問題占客服機(jī)器人總提問量的 30%。
螞蟻智能服務(wù)團(tuán)隊設(shè)計了基于標(biāo)簽的多輪交互方案,首先離線挖掘標(biāo)簽,并審核,標(biāo)簽包括業(yè)務(wù)標(biāo)簽(花唄,備用金...)和訴求標(biāo)簽(怎么開通,如何還款...),通過向用戶反問標(biāo)簽列表的形式澄清用戶問題。
已有的問題澄清方法主要通過直接推薦完整澄清問題的方案,但定義什么是好的澄清問題仍然不明確,螞蟻團(tuán)隊設(shè)計了一個基于強(qiáng)化學(xué)習(xí)推薦標(biāo)簽列表的方案做問題澄清,整個標(biāo)簽推薦是一個序列決策的過程,在用戶點擊了標(biāo)簽之后,我們會把點擊的標(biāo)簽和原始的用戶問題一起作為澄清后的問題。
整個優(yōu)化的目標(biāo)是,目標(biāo)是最大化整個標(biāo)簽列表對潛在澄清問題的覆蓋率,同時保持不同標(biāo)簽對潛在澄清問題集合的有效劃分,因此,在強(qiáng)化學(xué)習(xí)過程中,相應(yīng)設(shè)計了基于信息增益的獎勵(Reward)。
基于強(qiáng)化學(xué)習(xí)方法的多輪交互上線后,螞蟻客服機(jī)器人場景共解決了 33% 的模糊問題,機(jī)器人綜合場景轉(zhuǎn)人工率絕對下降 1.2%。
9 人機(jī)對話構(gòu)建新的交互入口
場景驅(qū)動的個性化多輪對話技術(shù),助推人機(jī)對話場景擴(kuò)充,同時語音語義一體化的上下文語義理解技術(shù),持續(xù)提升多輪對話達(dá)成率。
天貓精靈在過去一年中,將人機(jī)對話能力擴(kuò)充到二哈電話助手,語音購物,新人使用引導(dǎo)等復(fù)雜的交互場景,更是在雙十一期間,創(chuàng)造了語音購物 100 萬訂單的記錄。
天貓精靈在去年的 315 推出了防騷擾電話助手 “二哈”,開啟了全新的人機(jī)對話交互場景:作為用戶的替身完成對話。“二哈” 的對話場景是在垂直領(lǐng)域內(nèi)的開放式多輪對話,目的是通過對話來識別來電意圖,并代替用戶來獲取必要信息。在 “二哈” 中我們提出了基于多輪對話上下文的機(jī)器閱讀理解技術(shù),用以理解來電意圖和關(guān)鍵信息;基于對于來電內(nèi)容的理解,我們基于 Transformer 構(gòu)建了對話策略模型,用以選擇策略和生成對話。針對 “二哈” 的對話場景,我們提出使用圖靈測試通過率來衡量對話的質(zhì)量,亦即當(dāng)來電在整個對話中都沒有意識到是機(jī)器在與其通話時,可以認(rèn)為 “二哈” 通過了圖靈測試!岸 目前的圖靈測試通過率達(dá)到了 87%,有效的幫助了用戶應(yīng)對陌生來電,節(jié)省用戶時間。
通過人機(jī)對話的方式去完成復(fù)雜的任務(wù),比如點咖啡、購物等,往往需要機(jī)器和用戶進(jìn)行多次對話交互,同時在不同的任務(wù)場景下,對話機(jī)器人需要掌握各自領(lǐng)域的知識,才能和用戶對答如流。比如在語音購物場景,天貓精靈具備跨行業(yè)的智能導(dǎo)購員能力,吸收各行業(yè)導(dǎo)購員的銷售經(jīng)驗,在用戶進(jìn)行語音購物的時候,以最終的成交轉(zhuǎn)化為目標(biāo),像商場的銷售員一樣主動進(jìn)行多輪對話形式的購物引導(dǎo),深入挖掘用戶購物需求并結(jié)合用戶畫像進(jìn)行精準(zhǔn)推薦。且對不同的用戶,天貓精靈可以采用最適合 TA 的對話方式,做到個性化多輪對話。
多輪對話的達(dá)成,是建立在一系列的單輪交互都達(dá)成的基礎(chǔ)上的,而如果整體任務(wù)的達(dá)成率是簡單的單輪達(dá)成率的乘積關(guān)系的話,多輪對話的達(dá)成率將很難提升。而打破簡單乘積關(guān)系的關(guān)鍵在于,每一輪對話理解的時候,需要充分利用上下文信息。
在天貓精靈上,我們進(jìn)行了上下文語音語義理解的探索。首先在語音解碼的環(huán)節(jié),我們將多輪對話中,上文提到的實體信息構(gòu)建成 memory,通過 attention 機(jī)制讓解碼器網(wǎng)絡(luò)感知到這些對話場景信息,顯著提升了多輪對話場景的語音識別精度,然后在語義理解環(huán)節(jié),我們獨創(chuàng)了具備跨輪 attention 能力的端到端上下文繼承模型,實現(xiàn)更高效的對話場景恢復(fù)的能力。從而讓線上多輪對話的錯誤率下降了 58.5%,有效保障了復(fù)雜多輪對話場景的擴(kuò)充。
10 智能語音應(yīng)用持續(xù)發(fā)展
智能音箱,近幾年基本上國內(nèi)外大玩家都已陸續(xù)進(jìn)入市場(Amazon Alexa、Google Home/Nest、天貓精靈、小米小愛、百度小度),2019 年進(jìn)入競爭格局;2019 年智能音箱出貨量仍然在增加,但增速下降。
智能音箱仍然以音樂播放等軟件類服務(wù)為主,但進(jìn)一步應(yīng)用創(chuàng)新仍依賴智能家居和 IoT 設(shè)備的進(jìn)一步普及。
智能語音電話,2018 年 Google I/O 大會展示了 Duplex 的語音電話助手 demo。2019 年智能語音電話開始更多地應(yīng)用到真實業(yè)務(wù)領(lǐng)域,包括電銷、金融、政務(wù)等領(lǐng)域的應(yīng)用都在增長,以提升用戶服務(wù)覆蓋+降低人工成本。
螞蟻智能語音電話 2019 年也在安全(核身)、金融(保險回訪、微貸催收)、支付(客戶激活)等更多金融場景應(yīng)用和落地。
智能語音類應(yīng)用,所面向的用戶場景強(qiáng)依賴對話語音交互,推動了 NLP 技術(shù)和語音技術(shù)的發(fā)展;隨著技術(shù)和產(chǎn)品的發(fā)展成熟,以及用戶接受度的提高,2020 年的應(yīng)用規(guī)模和領(lǐng)域會進(jìn)一步擴(kuò)大。
機(jī)器人招商 Disinfection Robot 機(jī)器人公司 機(jī)器人應(yīng)用 智能醫(yī)療 物聯(lián)網(wǎng) 機(jī)器人排名 機(jī)器人企業(yè) 機(jī)器人政策 教育機(jī)器人 迎賓機(jī)器人 機(jī)器人開發(fā) 獨角獸 消毒機(jī)器人品牌 消毒機(jī)器人 合理用藥 地圖 |