自新冠肺炎疫情爆發(fā)以來,智能疫情防控機器人以其便捷、高效、準確的特點迅速成為防控一線的有利助手。目前業(yè)界使用較多的智能疫情防控機器人主要有外呼和在線服務兩類產品。外呼類產品可以實現(xiàn)對重點用戶的電話問詢,其首批測評結果已經(jīng)發(fā)布,受到了業(yè)界的廣泛關注。在線服務機器人,可接受用戶主動提問,為用戶提供咨詢、問診、查詢等服務,可以迅速地為用戶傳達疫情信息。為便于相關單位根據(jù)需求選擇合適的產品,中國人工智能產業(yè)發(fā)展聯(lián)盟(以下簡稱“聯(lián)盟”)在此前工作基礎上,依托中國信息通信研究院和人工智能關鍵技術和應用評測工業(yè)和信息化部重點實驗室,開展了面向疫情防控在線服務機器人的評估測試,現(xiàn)將評估結果公布如下。
本輪智能疫情防控機器人(在線類)評測共有15家企業(yè)報名參加,16款產品參與評測。聯(lián)盟通過技術測試、材料審查和企業(yè)披露等方式對參評產品進行了評測。參與本輪評測的企業(yè)與產品見下表(按拼音順序排列,排名不分先后)。
阿里云計算有限公司:阿里云在線疫情知識問答
北京捷通華聲科技股份有限公司:靈云智能客服系統(tǒng)
北京京東世紀貿易有限公司:智能疫情助理
北京容聯(lián)易通信息技術有限公司:容聯(lián)X-bot
北京搜狗科技發(fā)展有限公司:新冠肺炎智能問答機器人
杭州朗和科技有限公司:網(wǎng)易七魚疫情服務機器人
南京云問網(wǎng)絡技術有限公司:云問防疫問答機器人
平安國際智慧城市科技股份有限公司:疫情速遞
廈門快商通科技股份有限公司:新冠肺炎咨詢助手
上海智臻智能網(wǎng)絡科技股份有限公司:小i疫情智能問詢機器人
深圳市一號互聯(lián)科技有限公司:小A智客服
深圳追一科技有限公司:疫情機器人
騰科科技(深圳)有限公司:疫情防控助手
騰訊科技(深圳)有限公司:騰訊客服
浙江同花順智能科技有限公司:同花順智能客服系統(tǒng)
竹間智能科技(上海)有限公司:竹間智能防疫情感機器
結果分析與建議
1、基礎功能豐富多樣,業(yè)務功能有待完善
本輪評測功能部分測試了疫情防控在線服務機器人的多渠道管理、富媒體消息互動、情緒安撫等六項基礎功能指標,測試了疫情查詢、問題咨詢、自診問診等五項業(yè)務功能指標。下圖給出了功能部分的評測結果,列出了參評產品對各項指標的支持情況:
總體而言,參評產品在多渠道管理支持能力和富媒體消息互動支持能力方面表現(xiàn)良好,所有參評產品均支持兩種及其以上渠道管理,最高的支持達到六種,全面覆蓋了PC端和移動端用戶。參評產品在會話異常處理上表現(xiàn)比較接近,大部分產品部分支持該功能,在情緒安撫功能支持上兩極化差異較明顯,全面支持和不支持數(shù)量相近,兩者合計數(shù)量占比超過八成。主要有以下三個方面的特點:
多渠道管理能力普遍支持較好,保障不同渠道用戶訪問服務的便捷高效;
交互方式多樣化,超過半數(shù)參評產品支持圖像交互,信息展示更立體;
會話異常處理結合情緒安撫,有效提升了用戶情感體驗。
針對不同疫情防控場景,測試選取了不同的測試數(shù)據(jù),根據(jù)產品對語料的反饋相關度設置了0-4分五級評分標準。通過測試結果得出,多數(shù)產品對咨詢、問診和防控業(yè)務場景支持能力較好,高效回復率分別達到35.6%、40.9%、45.0%,有效回復率分別達到70.6%、63.4%、60.0%。但是在政策和新聞等信息類業(yè)務場景中,多數(shù)參評產品得分情況較差,不能較好的反饋實時信息,這方面的能力需要繼續(xù)加強。
2、對話質量參差不齊,性能指標有待優(yōu)化
智能疫情防控在線服務機器人的核心技術是自然語言處理和對話系統(tǒng),產品能否準確識別對話中的關鍵詞,并理解用戶意圖成為服務效果的關鍵,因此本次評測選取意圖理解和關鍵詞識別作為核心性能指標。作為一款以自然語言處理為核心技術的產品,測試數(shù)據(jù)集的設計尤為重要,通過分析用戶對疫情信息關注的不同角度,本次測試數(shù)據(jù)集選擇咨詢、問診、防控和信息查詢四個不同場景。測試使用的數(shù)百條語料由聯(lián)盟人員通過對疫情相關信息和知識的調研,并分析各家產品的特點后設計,涵蓋了疫情相關術語以及用戶比較關心的問題。下圖給出了16款參評產品的性能指標測試結果(產品序號根據(jù)評測先后順序排列,與表1次序無關)。
總體來看,各家參評產品在關鍵詞識別和意圖理解能力上參差不齊,準確率最高值與最低值相差都超過了50個百分點。在關鍵詞識別能力上,有6款產品的準確率超過60%,基本可以識別出“新型冠狀病毒”、“N95口罩”、“發(fā)燒干咳”、“密切接觸者”等疫情強相關詞匯,以進行關鍵詞匹配和擴展,確保答復的準確性和豐富性。在意圖理解能力上,有7款產品的準確率超過50%,可對用戶提出的問題有針對性的進行答復、相關問題推送和情緒安撫,從而提供精確、及時、有效的服務。
通過圖3中的性能指標產品分布情況可知,多數(shù)參評產品意圖理解和關鍵詞識別準確率分布在[0.2,0.4)和[0.6,0.8),反映出參評產品在性能上的兩級分化,建議相關企業(yè)及時豐富疫情相關語料并進行產品優(yōu)化,提升問題解決率。
3、 用戶需求攀升,交互量日益增加
在本輪評測中,除上述功能和性能指標外,還統(tǒng)計了截至2月12日各參評產品的訪問量、交互量以及用戶平均在線時長情況。具體數(shù)據(jù)如下圖所示。
從訪問量上看,超七成產品的總訪問量達到了百萬級,其中總訪問量超過二百萬和三百萬的產品約占三成;從日均訪問量上看,約70%的產品日均訪問量在一萬到二十萬之間,僅有10%的產品突破了二十萬大關;從交互量上看,約75%的產品總交互量超過了百萬條,約78%的產品日均交互量超過一萬條;從用戶平均在線時長上來看,超五成產品達到了2分鐘以上,約37%的產品用戶平均在線時長不足1分鐘,另外平均在線時長超過3分鐘的產品數(shù)約占36%。
4、建議與反饋
聯(lián)盟通過分析疫情防控機器人(在線類)的評測結果,結合終端用戶的實際需求,提出以下建議:
注重信息和答案的真實性和準確性:在疫情防控、政策宣貫、信息查詢等場景下,保證數(shù)據(jù)和問題結果的真實性極為重要。例如:本次評測中發(fā)現(xiàn),各款產品對“白酒能否替代酒精消毒?”的解答不盡相同,甚至得到相反的答案;
確保疫情相關知識的豐富性與時效性:如氣溶膠傳播、SARS-CoV-2等疫情術語的解釋及核酸檢測、人工肺等醫(yī)療手段的闡述;
適度增加富媒體消息的交互:采用圖文結合的方式,能更加清晰簡潔的回復用戶提出的問題。例如在“如何正確佩戴N95口罩?“問題上,以圖片示意每一步佩戴操作,相對而言更為明確和具體;
適當發(fā)起多輪對話關聯(lián)上下文語義信息:在人機對話過程中以多輪次問答的形式采集用戶信息,幫助用戶明確問題,從而動態(tài)且精準地為用戶解答并推薦相關問題。
|
|
機器人招商 Disinfection Robot 機器人公司 機器人應用 智能醫(yī)療 物聯(lián)網(wǎng) 機器人排名 機器人企業(yè) 機器人政策 教育機器人 迎賓機器人 機器人開發(fā) 獨角獸 消毒機器人品牌 消毒機器人 合理用藥 地圖 |