創(chuàng)澤機(jī)器人 |
CHUANGZE ROBOT |
機(jī)器人通過收集大量觸覺數(shù)據(jù)來識(shí)別物體的方法存在一定的限制。一方面機(jī)器人觸覺傳感器收集大量物體的觸覺數(shù)據(jù)過程資源耗費(fèi)大,另一方面日常生活能接觸到的物體種類龐大。近期在IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS發(fā)表的一篇《A Deep Learning Framework forTactile Recognition of Known as Well as Novel Objects》文章中提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的綜合觸覺識(shí)別框架,它可以利用對象的語義屬性描述和觸覺數(shù)據(jù)的融合來實(shí)現(xiàn)對新對象的識(shí)別。相對于傳統(tǒng)學(xué)習(xí)方法有較大優(yōu)勢,因?yàn)檎Z義信息更容易獲得,可以由人工[1]提供,也可以從語義數(shù)據(jù)庫(如Wikipedia[2])自動(dòng)挖掘。
1、機(jī)器人觸覺識(shí)別總體框架
文中設(shè)計(jì)的總體識(shí)別框架,如圖1所示。首先從觸覺數(shù)據(jù)出發(fā),可以將一個(gè)物體識(shí)別為一個(gè)已知的物體(之前接觸過的)或一個(gè)新的物體。已知對象的識(shí)別是利用訓(xùn)練數(shù)據(jù)構(gòu)建的多類分類器來實(shí)現(xiàn)的,而新奇對象的識(shí)別依賴于基于屬性的ZSL方法。此外,通過一次學(xué)習(xí)(one-shotlearning, OSL),只從一個(gè)訓(xùn)練樣本開始,就可以實(shí)現(xiàn)觸覺數(shù)據(jù)的合成。
2. 特征生成器G
用訓(xùn)練集訓(xùn)練一個(gè)包含CONVXF和FCFY的神經(jīng)網(wǎng)絡(luò)CNNXY對Y進(jìn)行分類。利用語義屬性向量訓(xùn)練一個(gè)反卷積神經(jīng)網(wǎng)絡(luò)G來合成觸覺特征。為提高特征生成器G的品質(zhì),使合成的觸覺特征盡可能接近從真實(shí)觸覺數(shù)據(jù)中提取的特征。文中加入另一個(gè)卷積神經(jīng)網(wǎng)絡(luò)D來對抗訓(xùn)練G,其中D用來區(qū)分合成觸覺特征或者真實(shí)的觸覺特征。利用訓(xùn)練好的G,合成觸覺特征。
3. 平臺(tái)搭建
文中使用語義屬性集:A ={吸收性、凹凸性、可壓縮性、冷熱、模糊性、硬的、多毛的、金屬的、多孔的、粗糙的、光滑的、柔軟的、固體的、有彈性的、濕軟的、有紋理的、厚的}。使用公開的PHAC-2數(shù)據(jù)集,該數(shù)據(jù)集包含60種物體每一種都在[4]中進(jìn)行了10次試驗(yàn)。數(shù)據(jù)通過SynTouch BioTac觸覺傳感器獲得。對BioTac讀數(shù)進(jìn)行預(yù)處理,并按照[5]中使用BioTac讀數(shù)對A中包含的屬性進(jìn)行二元分類,獲得了一個(gè)由6000個(gè)樣本組成的原始觸覺數(shù)據(jù)集(60種物體每種10個(gè)樣本進(jìn)行10次試驗(yàn))。
文中隨機(jī)選擇6個(gè)對象作為Z,54個(gè)作為Y,為了確保系統(tǒng)對Y和Z選擇具有魯棒性,這個(gè)隨機(jī)過程重復(fù)了七次以生成不同的Z和Y。表1為文中使用的網(wǎng)絡(luò)架構(gòu)。FCFY和FCFZ都是單層全連接網(wǎng)絡(luò)。在卷積層之后是針對非線性的ReLU激活函數(shù)。卷積層和全連接層的權(quán)值都使用Xavier方法[6]進(jìn)行初始化,所有反卷積層都使用Gaussian初始化器進(jìn)行初始化。文中用softmax函數(shù)和多項(xiàng)式邏輯損失訓(xùn)練完全連接層,用交叉熵?fù)p失訓(xùn)練D。
4. 實(shí)驗(yàn)評估
1)目標(biāo)分類
圖2給出了PHAC-2對象及其屬性的例子,以及split 1的測試對象。雖然測試對象(用藍(lán)色框起來)在語義上與訓(xùn)練對象不同,但是這兩個(gè)集合共享相同的屬性,每個(gè)測試對象都有區(qū)別于其他對象的屬性向量。驗(yàn)證了Z和Y之間的共享屬性,驗(yàn)證了中每個(gè)對象的屬性向量的唯一性,從而允許使用文中框架來執(zhí)行ZSL。
圖2 PHAC-2對象及其屬性示例
2)已知對象的多重分類
從每個(gè)中隨機(jī)選取10個(gè)樣本作為測試數(shù)據(jù),剩下的90個(gè)樣本用于訓(xùn)練CNNXY。表2表示了該框架達(dá)到的識(shí)別精度。我們可以看到,識(shí)別精度是非常高的。這個(gè)結(jié)果很重要,因?yàn)樗绊懥薈ONVXF的訓(xùn)練,從而也影響了對新對象的識(shí)別。
表2 的多類分類的識(shí)別精度(%)
3)合成觸覺特征的評估
如果缺少真實(shí)的訓(xùn)練數(shù)據(jù),則利用合成的特征來訓(xùn)練識(shí)別系統(tǒng)。因此,可以單獨(dú)使用合成特征對框架進(jìn)行訓(xùn)練并使用真實(shí)特征進(jìn)行測試,以未知目標(biāo)識(shí)別的準(zhǔn)確性程度來評估合成觸覺特征的質(zhì)量。在表3中,測試了在使用真實(shí)觸覺特征和使用合成觸覺特征替代真實(shí)觸覺特征這兩種情況下,系統(tǒng)的識(shí)別表現(xiàn)。
表3 使用每個(gè)類0、10、50、90或100個(gè)樣本訓(xùn)練FCFZ后,多類分類(真實(shí)觸覺特征訓(xùn)練)和ZSL(合成觸覺特征)的識(shí)別準(zhǔn)確率(%)
從表4中很明顯看到,使用真實(shí)觸覺特征進(jìn)行訓(xùn)練的效果明顯優(yōu)于合成觸覺特征訓(xùn)練。但是,在沒有真實(shí)觸覺信息可用的情況下,多類分類器是無法區(qū)分對象的,會(huì)按平均概率進(jìn)行分類。然而,對于所有的對象分類,ZSL卻可以給出一個(gè)高于概率的分類精度。還有,增加訓(xùn)練的合成觸覺特征樣本數(shù)量并不會(huì)提高準(zhǔn)確度,這可能是因?yàn)槊總(gè)類的合成觸覺特征都是由相同的屬性向量(通過添加少量的噪聲)合成的,這種相似性,為一個(gè)對象生成多個(gè)特征會(huì)導(dǎo)致過擬合。文中還分析了使用對抗神經(jīng)網(wǎng)絡(luò)的必要性,如果跳過算法2和僅使用算法1訓(xùn)練生成器,那么系統(tǒng)性能會(huì)下降,這是因?yàn)楹铣傻挠|覺數(shù)據(jù)與真實(shí)觸覺數(shù)據(jù)有較大差別。
表4有GAN和無GAN的ZSL識(shí)別精度(%)
5. 總結(jié)
這篇論文設(shè)計(jì)了一個(gè)觸覺識(shí)別框架,利用觸覺數(shù)據(jù)能夠識(shí)別已知和未知對象。在對未知對象的識(shí)別分類上,精度達(dá)到36%,這是傳統(tǒng)訓(xùn)練模式達(dá)不到的。此外,該框架有效利用輸入的數(shù)據(jù),如果有足夠的數(shù)據(jù)可用時(shí),可以達(dá)到較高的多類分類精度。該框架仍然存在一些限制,首先領(lǐng)域移位問題[7]和語義屬性空間與觸覺特征空間的相關(guān)性限制了對新對象的識(shí)別。此外該框架能夠識(shí)別的新類集合必須是已知的,添加新類需要修改FCFZ的輸出層,同理添加新屬性需要修改的輸入層。此外,文中使用了由[4]設(shè)計(jì)的語義二進(jìn)制屬性。探討非語義屬性和實(shí)值屬性可以提高[8]、[9]識(shí)別的準(zhǔn)確性和泛化能力。最后,文中只根據(jù)觸覺數(shù)據(jù)來識(shí)別物體,可以結(jié)合視覺進(jìn)一步拓展,如在[10],[11]?紤]到CNN在圖像識(shí)別和生成[12]方面的良好表現(xiàn),視觸覺融合識(shí)別可以顯著提高識(shí)別性能,這是非常有研究價(jià)值的。
機(jī)器人招商 Disinfection Robot 機(jī)器人公司 機(jī)器人應(yīng)用 智能醫(yī)療 物聯(lián)網(wǎng) 機(jī)器人排名 機(jī)器人企業(yè) 機(jī)器人政策 教育機(jī)器人 迎賓機(jī)器人 機(jī)器人開發(fā) 獨(dú)角獸 消毒機(jī)器人品牌 消毒機(jī)器人 合理用藥 地圖 |