近日,中國計算機學會(CCF)推薦的A類國際學術會議ACM International Conference on Multimedia(簡稱ACM MM 2023,ACM國際多媒體會議)論文接收結果公布。會議共收到3000+篇投稿,最終錄用902篇,錄用率為29.3%。永利官網(wǎng)智能多媒體安全實驗室的論文 “UMMAFormer: A Universal Multimodal-adaptive Transformer Framework For Temporal Forgery Localization” (作者:張瑞,王宏霞,杜明珊,劉漢卿,周煬,曾強)被錄用,第一作者為永利官網(wǎng)博士生張瑞同學,指導老師是王宏霞教授,永利yl23411官網(wǎng)為論文唯一單位。ACM MM 自1993年首次舉辦以來,已成為多媒體領域的重要學術盛會,本屆會議將在加拿大渥太華舉辦。
隨著人工智能生成技術的不斷發(fā)展,生成的虛假媒體愈加逼真,使“眼見為實”、“有圖有真相”的思維方式受到質疑,因此,多媒體內容的真?zhèn)舞b別變得愈加困難?,F(xiàn)有的研究通常僅基于二分類器來區(qū)分整段多媒體內容的真?zhèn)危瑢τ诰植總卧靸热萑狈τ行У臋z測手段。這篇論文正是針對這一問題提出了一種新穎的通用框架——UMMAFormer。該框架能夠適應不同模態(tài)多媒體內容,包括音頻、視頻或者音視頻多模態(tài),并從中精準預測偽造片段的開始和結束時間,實現(xiàn)時序局部偽造內容的定位。為了增強對時序異常特征的關注,本文采用了一種創(chuàng)新的時序特征異常注意模塊,這使得系統(tǒng)在檢測偽造內容時更加準確。此外,針對局部短偽造片段特征的增強,論文還引入了并行交叉注意特征金字塔網(wǎng)絡,進一步提升了性能。為了驗證所提方法的有效性,還構建了一種專門針對視頻涂改場景的時序視頻涂改定位數(shù)據(jù)集。實驗結果表明,所提方法在多個基準數(shù)據(jù)集(如Lav-DF、TVIL、Psynd等)上均取得了最先進的性能。