?
語音輸入是我們和混合現實設備交互的重要方式之一,優勢是輸入速度快,學習時間更短。混合現實設備的語音交互可以做到:
(1)通過連接混合現實設備的麥克風,捕捉用戶語音指令;
(2)將捕捉到的語音指令發送到LUIS;
(3)LUIS對混合現實設備捕捉到的語音指令,進行信息提取分析,并判斷意圖做出回應;
自然語言理解
自然語言理解(Nature Language Understanding, 簡稱NLU),同自然語言處理(Nature Language Processing, 簡稱NLP)和自然語言生成(Nature Language Generation, 簡稱NLG)是相關聯的三個概念。
自然語言理解指人工智能的一個復雜挑戰:如何處理將結構凌亂的輸入語句轉化為條理清晰的機器可理解的語言。因為人類語言的復雜多變,且無統一的規則,如發音歧義、單詞順序顛倒、縮寫表達、口語化用詞等等,機器很難處理不可預知的輸入。
微軟語言理解服務LUIS (Language Understanding IntelligentService)屬于Azure服務之一,它可以使應用程序理解用戶以自己的語言表達的內容。 LUIS基于機器學習,使開發人員可以構建應用程序,以便接收采用自然語言的用戶輸入并從中提取含義。
簡單的說自然語言理解的原理就是用一系列規則或數據模型將語句分解為結構有序的實體,有意義的實體一定要提取出來再加以定義,并賦予語義上的意義,用以后續的實體鑒別。譬如語句:“我需要從十月4號到10號去邁阿密的航班和賓館”需要被重新分析定義成:“需求:航班(意圖)/需求:賓館(意圖)/邁阿密(城市)/十月4號(日期)/十月10號(日期)/情緒:0.5723(中性)”。LUIS正是提供了這樣一個可以理解用戶輸入語句的應用平臺,用機器語言理解使用者的意圖。混合現實設備基于機器學習可以實現:理解并學習輸入語言,同時能回復具體的相關信息。
當LUIS與混合現實結合時,使用者可直接對混合現實設備的麥克風講話操控混合現實圖像。混合現實設備捕捉到用戶聲音,發送到Azure LUIS中,LUIS會提取核心信息并進行分析,試圖來確認用戶請求的意圖。提取出如圖1所示,使用者將語音(Voice)或視線(Gaze)操控混合現實改變場景內物體的大小和顏色。
語言理解LUIS與混合現實結合
LUIS的設置和部署,與MR應用的基本操作相似。重點是設置語言理解端口,在這一過程,使用者將定義實體和意圖,圖2為實體,圖3為意圖,意圖是用一句話的方式制定的,再去標定這句話對應的實體。最后選擇訓練功能。
通過對計算機進行特定語境詞匯訓練,可以讓混合現實設備能夠根據使用者習慣或者場景分析判斷所要做出的操作,從而讓語音交互變得更加智能。
當我們通過調用Azure 語言理解(LUIS)服務和混合現實技術結合時,混合現實設備能夠借助LUIS把麥克風收到的語音指令轉化為計算機理解的語言從而進行語言操控,提供了項目更為豐富多樣的交互方式,讓混合現實項目也能更加貼近場景需求,佩戴者可完全通過聲音來操控設備,釋放雙手的同時,大幅提高工作效率。例如可以通過機器學習將使用場景的常用語句和使用者說話習慣對LUIS進行訓練,這樣,用戶在通過調用LUIS的服務在混合現實設備的交互過程也會變得更為方便。?
目前LUIS主要為大規模商用解決方案提供服務,相信與混合現實設備的結合,可以為行業用戶提供更為多元的應用。