Google用AI自動重新剪輯影片

Google開源智慧影片重新取景(Reframe)框架AutoFlip,能夠以人工智慧分析影片內容,並依照指定的大小,自動重新剪輯出新的影片。AutoFlip建立在MediaPipe框架的基礎上,而MediaPipe則是用來處理時間序列多模態資料的開發工作管線。

Google提到,影片為了能良好地在電視或是電腦螢幕上觀看,通常採用16:9或是4:3的寬高比,但是現在有越來越多的用戶,在行動裝置上創建與觀看影像內容,而傳統的長寬比並不適合行動裝置螢幕,因此有必要重新取景。

而過去重新取景的方式為靜態剪裁,也就是指定攝影機視埠(Viewport)並剪輯可見的內容,但由於影片在拍攝時的構圖和運鏡,會使得靜態剪輯出來的效果不好,想要更好的效果,就必須以人工識別每個影格上的重要內容,追蹤每個影格間的轉換,並且為整部影片調整剪裁區域,這個過程繁瑣且容易發生錯誤。

為了解決這個問題,Google開發了AutoFlip,使用者只要輸入影片和影像尺寸,AutoFlip就會制定最佳追蹤和剪輯策略,生成指定寬高比且與原影片相同長度的影片。AutoFlip利用機器學習物體偵測和追蹤技術,以理解影片的內容,進而智慧地為影片重新取景,AutoFlip會偵測鏡頭變化,以獨立鏡頭進行處理,AutoFlip會在每個鏡頭重新取景前,偵測重要的內容以安排最佳相機模式和路徑。

AutoFlip有幾個重要的步驟,分別是鏡頭偵測、影片內容分析和重新取景。鏡頭是連續沒有剪輯的影像序列,為了偵測鏡頭的變化,AutoFlip會計算每個影格與前一個影格顏色分布的差異,當影格顏色分布變化的速率產生變化,則表示鏡頭切換。AutoFlip會緩衝影片確保鏡頭完整,以達鏡頭重新取景的最佳效果。

Google利用深度學習物體偵測模型,來找出有趣和醒目的內容,這些內容包括人和動物,但根據應用不同,其他像是廣告文字或是運動比賽中的球,也會成為重要的內容。人臉和物體偵測模型,則是透過MediaPipe整合到AutoFlip中,這個架構極具彈性,開發人員可以方便地添加不同的偵測演算法,以滿足各種使用案例需求。

每個物體類型都有一個對應的權重,該權重決定物體的重要性,當權重越大則對攝影機路徑產生越大的影響。AutoFlip會根據物體在鏡頭中的行為模式,自動選擇靜止、平移和追蹤等最佳重新取景策略。當發生剪輯出來的鏡頭,無法覆蓋整個影片區域的情況時,AutoFlip便會採用黑邊模式填充影片。

AutoFlip可以快速地自動剪輯影像,使其適合在各種裝置上播放。而接下來,Google還會繼續改進AutoFlip,他們提到,因為重新取景,所以影片前景的文字或是圖標通常會被裁掉,下一步他們想要透過修復技術,將這些前景物件放回重新製作的影片上。

原文來自 iThome Online