微軟讓人工智慧看圖說故事,靠一張照片就能寫出驚悚故事

微軟釋出了Pix2story,讓使用者只要指定圖片,人工智慧就能看圖說故事。微軟提到,他們試圖教導人工智慧創意,試圖將人工智慧發展至另一個層次,而在Pix2story中,他們讓人工智慧發揮創意結合特定類型產生故事。

微軟提到,說故事是人的天性之一,在寫作被發明之前,人們就透過講故事分享價值觀,而編寫故事並非一件簡單的事,特別如果是光靠看圖片,並以各類藝術類型(Genre)寫出故事。自然語言處理技術發展至今,是作為推動電腦與人類互動革新的領域,微軟試著讓自然語言處理能以更自然和更聚焦的方式敘事。

微軟在Azure上開發了Pix2Story,這是一個應用類神經網路的網頁應用程式,使用者只要選擇圖片,Pix2Story就會發揮創意為該張照片編寫出一小段冒險、科幻和驚悚類型風格的故事。而該系統的架構設計,首先要從上傳的照片取得圖說,並將這些圖說輸入至遞迴神經網路(Recurrent Neural Network)模型,根據圖片以及文體產生故事。

產生輸入照片圖說的方法,微軟以MS COCO圖說資料集的30萬張圖片,訓練了視覺語意嵌入模型,對上傳的圖像進行分析和產生的圖說。視覺語義嵌入負責將輸入的圖片轉換成圖說,這部分包含兩個模型,第一個是卷積神經網路,用於萃取稱為註釋向量的特徵向量。第二個模型則是長期短期記憶(Long Short-Term Memory)網路,透過上下文向量、先前的隱藏狀態以及先前產生的單詞,一次產生一個單詞。

另外,還要以不同的藝術類型產生故事,為此微軟以2千部小說,花費兩個星期訓練編碼解碼(Encoder-Decoder)模型。微軟將小說的段落映射到Skip-thought向量(Vector),而這是一種可以生成用於不同任務的通用型語句表達的模型。微軟提到,在這個專案中,他們訓練編碼解碼模型,並使用書本中文字的連續性,來重建編碼段落周圍的句子。編碼器會將句子映射到向量中,而解碼器接著對該向量進行調整,為來源句子進行類型翻譯。

由於視覺語意嵌入模型輸入給Skip-thought模型短句子,則輸出也會是短句子,因此當結果想要輸出是更加敘事的段落,則需要對輸入做風格轉換,這意味要使用Skip-thought向量表達,將輸入設置加上成想要輸出包含的特徵,這個操作的公式為Skip-thought的輸入等於,圖片編碼圖說減去平均所有圖說編碼,再加上相似長度的編碼段落以及預期輸出的特徵。

原文來自 iThome Online