AI趨勢周報第70期:韓研究員開發圖像轉換系統InstaGAN,讓照片人物長褲換短裙

重點新聞(1228~0103)

GAN   InstaGAN   圖像轉換

韓研究員用生成對抗網路,讓照片人物的長褲變短裙

韓國科學技術研究院(KAIST)和浦項工科大學的研究員,利用生成對抗網路(GAN)打造一套圖像轉換系統InstaGAN,能將原本照片人物的褲裝,轉換為真實度高的裙裝,或是將風景圖中的羊群,變成一群長頸鹿。一般運用於圖像的GAN,由2套互相競爭的神經網路組成,包括生成樣本的生成器,以及評鑑生成樣本和真實樣本的鑑別器,但若要生成變化大的圖像,則不易成功。而InstaGAN整合了多種目標物件的實例訊息,也就是物件分割掩碼(Object segmentation masks,即同個物件的畫素組),完好地結合目標物件的邊界,忽略顏色等細節,同時轉換圖像及相對應的實例屬性集,並保留背景。

為測試InstaGAN,研究員採用了多種數據集(包括微軟圖像數據集COCO、Multi-Human Parsing和)的兩類圖像,與公認的圖像轉換系統CycleGAN比較。結果顯示,InstaGAN較能保留背景,並生成合理的圖像。(詳全文)

微軟   AI Labs   AI基因分析

邁向精準醫療!臺灣微軟與臺灣人工智慧實驗室發表AI基因分析平臺

臺灣微軟和臺灣人工智慧實驗室(AI Labs)近日發表AI基因分析平臺TaiGenomics,來進一步發展精準醫療。精準醫療有別於傳統醫療,除了一般性檢測,還需透過基因檢測和生物檢測,來達到個人化的治療。而AI Labs研究全基因定序和變異分析已有6個多月,採用微軟Azure服務,開發出TaiGenomics,藉助AI來進行全基因體定序、序列分析、基因變異分析、文獻比對,建立出模組化分析流程,而基因分析的變異資料,能協助醫生判斷和預測患病機率。這一做法,也預計將大幅減少人工比對資料的時間,以及降低基因檢測成本。(詳全文)

AI   Maximum Entropy RL   機器人運動

Google Brain科學家聯合加州柏克萊大學,設計一套能教機器人走路的演算法

Google Brain科學家與加州柏克萊大學研究員,開發一套演算法,能教四隻腳的機器人,來爬行已知與未知的陸面。研究員首先表示,近來深度增強式學習廣泛用於模擬世界中的運動策略,再轉移到真實世界的機器人上,但由於模擬落差,導致表現不佳。研究員因而採用最大熵法則的增強式學習(Maximum Entropy RL),不需模擬訓練,就能學習運動技能。

在真實世界測試時,研究員將AI模型套用到4隻腳的機器人Minitaur上,利用工作站(Workstation)更新神經網路、下載Minitaur資料和上傳policy,並放置一臺Nvidia Jetson TX2於機器人上,來執行policy、蒐集和上傳資料。經過2小時16萬步的訓練,Minitaur能在平面地形行走,也能上坡、上階梯,以及經過有木頭路障的平面,這些場景在訓練時並未出現。(詳全文)

滴滴   增強式學習   派車

滴滴設計新RL演算法,來提高派車效率

中國叫車龍頭滴滴日前設計一套新演算法,能加強分派司機的效率。這個演算法以增強式學習(RL)為基礎,RL透過獎懲讓AI代理人來完成目標,而在滴滴的例子中,AI代理人就是司機,獎勵則是載客後得到的車費。滴滴原本的派車演算法有2個部分,分別是預測乘車人需求變化的系統,以及依照這些預測來派車的系統。但這個方式無法因應供需變化,還需重新訓練預測系統,以達到更精準的預測。而新方法則是將2個部分合而為一,演算法能根據每項後續資料,來學習更有效率地派車,能根據供需變化自動調整,不需要重新訓練。滴滴計畫採用該演算法,但尚未公布確切時間。(詳全文)

科技部   AI   醫療影像資料庫

國內首個跨院所醫療影像標註資料庫上線,加速醫療影像的AI應用

科技部日前與臺灣大學、臺北榮總和臺北醫學大學三大醫療團隊,共同宣布國內第一個跨院所的醫療影像資料庫正式啟動。這個資料庫的誕生,來自2017年科技部啟動的「醫療影像專案計畫」,當時醫界與學界AI團隊合作,結合醫療人員標註影像資料,要開發能自動分析醫療影像的演算法。經過一年,這個醫療影像標註資料庫集結了46540個病例的醫療影像,超過500萬張的醫療影像,涵蓋腦轉移瘤、肺癌、心臟冠狀動態脈等重大疾病。科技部表示,未來藉醫療影像標註資料開發出AI分析工具,能快速協助醫生判讀醫學影像,也能幫助人力不足的偏鄉醫療。(詳全文)

AI   指甲感應器   疾病追蹤

IBM科學家以指甲感應器及AI來追蹤疾病

IBM科學家日前展示了一指甲感應器原型,能偵測指甲的彎曲與移動,並傳送到執行機器學習模型的智慧手錶上,以用來偵測人體的健康狀態與疾病的進展。該指甲感應器包括一個應變計(Strain Gauges)與一個小型運算器,能夠持續測量手指的彎曲與移動,並將所蒐集的數據傳送到智慧手錶上,讓這個能執行多種機器學習模型的智慧手錶,來評估這些數據,以判斷是否有運動遲緩、顫抖及運動障礙等帕金森氏症症狀。該研究已刊登在《科學報告》(Scientific Reports)期刊上。(詳全文)

臉書   語音辨識   開源

臉書開源第一個使用CNN的端到端語音辨識系統

臉書近日釋出自動語音辨識的卷積方法,也開源端到端語音辨識系統wav2letter++。這個自動語音辨識方法使用卷積神經網路(CNN)進行聲音建模和語言建模,好處是可以輕鬆擴展到其他語言,而直接從原始語音學習,也是解決音訊品質變化大的好方法。臉書釋出全新自動語音辨識的卷積方法的同時,也釋出了快速且靈活的獨立機器學習函式庫Flashlight和wav2letter++開發框架,讓其他開發者也能實作出相同的成果。(詳全文)

Twilio   Autopilot   Chatbot

Twilio聊天機器人平臺Autopilot開始支援臉書,加速企業打造Chatbot應用

提供雲端通訊服務的Twilio,先前釋出AI平臺Autopilot,加速企業用戶開發客製化的Chatbot服務。近日,該公司進一步擴大Autopilot的產品布局,開始支援臉書Messenger,方便使用者打造Chatbot應用。Twilio Autopilot透過單一API,存取多個通訊管道,能將Chatbot應用部署至多平臺,包括簡訊、語音,或是智慧助理如Alexa、Google Assistant。該公司認為,藉此能提高終端用戶的一致性體驗。不過,支援臉書Messenger的Autopilot,還只在Beta階段。(詳全文)

Google   Google Lens   影像辨識

10億種產品都認得!Google Lens影像辨識力超強

Google日前宣布其AI影像辨識技術Google Lens已能辨識10億多個物件。Google Lens於前年5月首次亮相,是以AI和電腦視覺為基礎的影像文字辨識技術,讓用戶可以手機拍攝食譜後,將其食材加入購物清單,或拍攝名片後加入聯絡人名單。為訓練Google Lens,開發小組打造了光學字元辨識(OCR)引擎,再結合由Google 搜尋和知識圖譜(Knowledge Graph)累積的語言知識,再以Google Books掃瞄而來的不同字元、語言、字體、及圖畫來訓練機器學習演算法。 Google表示,Google Lens現在的表現是首次推出時的4倍。現在,Google利用自家OCR引擎做其他用途,像是讀取產品標籤。(詳全文)

圖片來源/Sangwoo Mo et al.、臺灣微軟、Tuomas Haarnoja、IBM、Google

AI趨勢近期新聞

1. 臉書開源可即時模糊VR背景的AI系統DeepFocus

2. 臺灣人工智慧學校1歲了!學員大秀年度成果,甚至有能及時預警病情惡化的系統

3. 美高中生靠機器學習辨識地面易燃物,助加州政府防範森林野火

資料來源:iThome整理,2019年1月

原文來自 iThome Online