Google釋出用於訓練通用智慧助理的架構引導對話資料集

為了滿足智慧助理需要執行越來越多複雜任務的需求,Google釋出了最新的架構引導對話(Schema-Guided Dialogue,SGD)資料集,以擴展智慧助理模型,使其有能力處理多重領域的任務。

現在的智慧助理可以完成的任務越來越多,包括預定餐廳或是擷取網路訊息等,Google提到,像是Google助理這類智慧助理整合了眾多領域的服務,每個服務可能由不同領域的服務疊加而成。為了適應這樣的發展,讓智慧助理能夠支援更多的新服務,而不需要收集額外的資料或是重新訓練模型,降低維護成本。因此Google釋出SGD資料集,來填補訓練智慧助理處理複雜與大規模任務所需要的資料集空缺。

SGD資料集是目前最大的任務導向對話語料庫,Google使用綠野仙蹤(Wizard of Oz)方法產生人類與助理的對話,共包含跨17個領域18,000個對話,並附加了不同的註解。這些對話涉及與服務和API的互動,包括銀行服務、事件、日曆甚至是天氣等17個領域,而在多數的領域,SGD資料集包含多個不同的API,不少API介面不同但是功能重複,以反應實際的狀況。

Google表示,SGD資料集是第一個涵蓋這麼多領域,會為每個領域都提供多個API的資料集,而且為了量化模型對API介面更新或是新API的強健性,評估資料集包含了許多在訓練資料集中,所沒有的新服務。

用戶使用SGD資料集,可以訓練智慧助理支援網頁的多元服務,Google提到,要達成這個目的,通常需要一個大型的主要架構(Master Schema),羅列所有支援的功能和參數,但實際上,要開發適合所有使用案例的主架構非常困難,而且即便克服了這項障礙,主架構也可能會讓新的或是小型服務的整合變得複雜,進而增加智慧助理的維護成本。

而且不少服務之間使用相似的概念,像是訂票服務,電影票、機票和演奏會門票邏輯都相似,但使用主架構的方法,就會不方便對這類概念進行連結建模,除非以手動的方式定義之間的映射。

Google提出了一個新的架構引導方法解決這些問題,這個新方法不需要為智慧助理定義一個主架構,而是為每個服務或是API,提供功能與相關屬性列表的自然語言描述,這些描述可以用於學習一個架構的分散式語意表達,為對話系統提供額外的輸入,並將對話系統以單個統一的模型實作,這個統一模型為不同服務提供相似概念的表示,並透過架構的分散式表達,使得新服務可以不需要事先有訓練資料就能運作。

Google為此還以架構引導方法創建了一個智慧助理,在所有服務和領域使用單一模型,沒有設定各領域的專門參數,就能處理各式任務,Google開源了用於對話狀態追蹤的模型,可以在新服務和API沒有訓練資料的情況下,同時保有與常規設定相同的能力。

原文來自 iThome Online