Sang H, Hai G. A Framework: Region-Frame-Attention-Compact Bilinear Pooling Layer Based S2VT For Video Description. EJAS [Internet]. 2019Sep.8 [cited 2024Dec.4];7(4):17-30. Available from: http://804474.wannyin.cyou/index.php/AIVP/article/view/6717