近年来,针对图画使命的神经网络架构查找(NAS)逐步成为了各大研讨机构和业界重视的「明星技能」。可是,针对视频了解的神经网络架构查找却由于其在时空上的复杂性而鲜为研讨人员所触及。
近来,来自谷歌机器人的研讨科学家 Michael S. Ryoo 和实习研讨员 AJ Piergiovanni 接连发文介绍了他们在视频了解网络 NAS 方面的作业,关于该范畴的研讨具有很强的引领效果。
视频了解是一个极具应战性的问题。由于视频包含时空(Spatio-temporal)数据,所以需求经过特征表征一起提取其静态表观信息和画面动态信息。这不仅关于主动了解视频的语义内容(如网络视频分类或体育活动辨认)是必不可少的,而且关于机器人的感知和学习也十分要害。与人类相类似,机器人摄像头的输入一般很少是对国际的「静态快照」,而是接连的视频。
现在的深度学习模型的功能在很大程度上依赖于它们的网络架构。用于处理视频的卷积神经网络(CNN)一般是手动地将人们熟知的二维架构(如 Inception 和 ResNet)扩展成三维架构,或者是经过精心规划一种将静态表观信息和画面动态信息交融在一起的双流 CNN 架构(two-stream CNN)而完成的。可是,规划一个能够充沛的运用视频中的时空信息的抱负视频架构仍然是一个有待探究的问题。
关于图画使命来说,虽然用于探究功能优异的网络架构的神经架构查找(NAS)计划(如 Zoph 等人宣布的「Using Machine Learning to Explore Neural Network Architecture」,与 Real 等人宣布的「Using Evolutionary AutoML to Discover Neural Network Architectures」)现已被广为研讨,可是用于视频使命的神经网络架构的主动优化计划(machine-optimized neural architectures)尚未被研讨。用于视频的 CNN 一般需求许多的核算和内存,因而规划一种既能表征其共同的特点,又能进行有用查找的办法十分困难。
为了应对这些应战,咱们针对更抱负的视频了解网络架构的主动查找进行了一系列研讨。
咱们展现了三种不同的神经架构演化算法:学习层及其模块装备的 EvaNet,学习多流衔接的 AssembleNet,以及构建核算高效的简练网络的 TinyVideoNet。
咱们开发的视频架构在多个公共数据集上的功能显着优于现有的手动规划的模型,并证明晰咱们的网络运转时刻可削减至 1/10 至 1/100。
EvaNet:榜首批进化的视频结构
咱们在 ICCV 2019 上提出了「Evolving Space-Time Neural Architectures for Videos」(EvaNet),这是关于视频神经网络架构查找规划的初次测验。
论文链接:https://arxiv.org/abs/1811.10636;
GitHub 链接:https://github.com/goog-research/goog-research/tree/master/evanet
EvaNet 是一个模块级的架构查找办法,首要重视查找时空卷积层的类型以及它们的最佳串行或并行核算装备。本算法运用带有骤变操作符的演化算法进行查找,迭代地更新结构的「种群」。这使得对查找空间的并行化的、更高效的探究成为了或许,也是视频架构查找考虑不一起空层及其组合的必要条件。EvaNet 中开发了多个模块(在网络中的不同方位)来生成不同的架构。
咱们的试验成果证明晰经过演化异构模块获得的此类视频 CNN 架构的长处。该办法发现,由多个并行层组成的重要模块功率一般是最高的,由于它们比手动规划的模块更快,功能更好。
另一个有必要留意一下的方面是,由于运用了演化战略,咱们获得了许多功能类似但结构各异的架构,而且无需进行额定的核算。对这些模型进行集成能够进一步进步他们的功能。由于它们的并行特性,即使是集成模型也比(2 + 1)维的 ResNet 这样的规范视频网络在核算上愈加高效。
EvaNet 发生的不同架构示例。每个大五颜六色框和小的五颜六色框都代表一个网络层,框的色彩代表其类型:蓝色代表三维卷积,橙色代表(2 + 1)维卷积,绿色代表 iTGM,灰色代表最大池化,紫色代表均匀,粉色代表 1x1 的卷积。各个层一般会被分组成模块(大一点的框)。每个框中的数字表明卷积核(filter)的巨细。
AssembleNet:树立更强更好的(多流)模型
在论文「AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures (https://arxiv.org/abs/1905.13209)」中,咱们研讨了一种将具有不同输入模态(如 RGB 和光流)的不同的子网络和时刻分辨率交融在一起的新办法。
论文链接:https://arxiv.org/abs/1905.13209
AssembleNet 是一系列可学习的网络架构,它们供给了一种学习跨输入模态的特征表征之间「连通性」的通用办法,一起针对方针使命进行了优化。
咱们提出了一种通用办法,能够将各种形式的多流 CNN 表征为有向图,并结合一个高效的演化算法来探究高档网络衔接。这样做是为了从视频中学习到更好的关于静态表观和动态画面视觉头绪的特征表征。
与曾经运用后期交融或固定中心交融的手艺规划的双流模型不同,AssembleNet 能够演化出许多过度衔接、多流且多分辨率的架构,并经过对衔接权重的学习引导骤变。咱们正初次研讨具有各种中心衔接的四流架构——每个 RGB 和光流都有 2 个流,每个流具有不同的时刻分辨率。
下图展现了一个 AssembleNet 架构示例,它是经过对一组随机初始化的多流架构进行 50 到 150 轮的演化发现的,咱们在两个十分盛行的视频辨认数据集 Charades 和 Moments-in-Time(MiT) 上测试了 AssembleNet。AssembleNet 在 MiT 上的功能位列榜首,准确率超越 34%。在 Charades 中它的体现更让人吃惊,均匀准确率(mAP)达到了 58.6%,而之前为人所知的最佳成果是 42.5% 和 45.2%。
运用 MiT 数据集进行演化的代表性 AssembleNet 模型。一个节点对应一个时空卷积层模块,每条边代表它们的连通性。较暗的边际意味着较强的衔接。AssembleNet 是一组可学习的多流架构,针对特定方针使命进行优化。
在 Charades(左)和 MiT(右)数据集上,将 AssembleNet 与最先进的手动规划的模型进行了比较。AssembleNet-50 与 AssembleNet-101 的参数量和双流 ResNet-50 与 ResNet-101 适当。
Tiny Video Networks:最快的视频了解网络
论文链接:https://arxiv.org/abs/1910.06961
为了使视频 CNN 模型在实际国际的设备上(如机器人所需的设备)上能够正常运转,有必要进行实时、高效的核算。可是,要在视频辨认使命上获得现在最先进的成果,需求十分大的网络,一般具有数十到数百个卷积层,这些卷积层将被应用于许多的输入帧上。这也就导致了这些网络的运转时刻一般很长,对长度为 1 秒的视频片段进行辨认至少需求在现在的 GPU 上运转 500+ ms 以上的时刻,在 CPU 上则至少需求 2000+ ms。
在 Tiny Video Networks 中,咱们经过主动规划的网络获得了不错的功能,而其核算成本却大幅度的下降。
咱们的 Tiny Video Networks(TinyVideoNets)有很高的准确率和运转功率,能够以实时或更高的速度高效运转。要想辨认大约 1 秒钟的视频片段,在 CPU 上只需求运转 37 至 100 ms,在 GPU 上只需求运转 10 ms,比曾经手动规划的网络快了数百倍。
咱们经过在架构的演化过程中清晰界说模型运转时刻,并约束算法探究的查找空间(一起包含空间和时刻分辨率以及通道巨细),大幅度削减了核算量,然后完成了功能的进步。
下图阐明晰 TinyVideonet 发现的两种简略但十分有用的网络架构。风趣的是,本算法学习到的模型架构比经典的视频架构的卷积层数更少:由于 Tiny Video Networks 更倾向于轻量级元素,例如二维池化,门控层和揉捏激起(squeeze-and-excitation)层。此外,TinyVideonet 能够一起优化参数和运转时刻,以供给可用于未来网络探究的高效网络。
经过演化得到的 TinyVideoNet(TVN)架构,能够最大极限地进步辨认功能,一起将核算时刻保持在约束时刻之内。例如,TVN-1(上面一列)在 CPU 上的运转时刻为 37 毫秒,在 GPU 上的运转时刻为 10 毫秒。TVN-2(下面一列)在 CPU 上的运转时刻为 65 毫秒,在 GPU 上的运转时刻为 13 毫秒。
左图是 TinyVideonet 模型与曾经的模型的 CPU 运转时刻比照图,右图是 TinyVideonet 模型与(2+1)维 ResNet 模型关于运转时刻和模型准确率的比照图。有必要留意一下的是,TinyVideonets 的点只占了这个时刻—准确率空间的一小部分(这部分空间中不存在其它模型),也就是说 TinyVideonets 能够十分迅速地找到准确率很高的架构。
结语
据咱们所知,这是关于视频了解神经网络架构查找榜首项研讨。咱们用新式演化算法生成的视频架构在公共数据集上的体现要远远超越最著名的手动规划的 CNN 架构。咱们还证明晰经过学习得到核算功率高的视频模型(TinyVideoNets)是可行的。这项研讨拓荒了新的研讨方向,并阐明主动演化的 CNN 在视频了解使命中有很好的研讨远景。