新利体育

ICCV 2019接收论文提前看,旷视11篇入选文章放出 - 资源

?

ICCV 2019年最终论文接收结果终于公布,此时,共收到1077篇论文,录取率为25%。

%5C

ICCV的全称是IEEE国际计算机视觉会议,由IEEE主持的国际计算机视觉会议,以及计算机视觉模式识别会议(CVPR)和欧洲计算机视觉会议(ECCV),它们被称为三大会议计算机视觉。

ICCV每两年举行一次,以其低就业率而闻名。这是三次会议中公认的最高级别。

ICCV将于10月27日至11月2日在韩国首尔的COEX会议中心举行。

这一次,AI Unicorn鄙视了11篇论文,从文本到绘画,从数据集到新模型,内容相当丰富。让我们一起学习量子比赛

论文简介

1、论文名称:Objects365: A Large-scale, High-quality Dataset for Object Detection

文章链接:否

开源链接:

关键词:目标检测,数据集

总结:

n

在本文中,我们介绍了一个新的大型对象检测数据集Objects365,它拥有超过600,000个图像,365个类别和超过1000万个高质量的边界框。由精心设计的三步注释管道手动标记,它是迄今为止最大的对象检测数据集合(带有完整注释),并为社区创建了更具挑战性的基准。

n

Objects365可用作更好的特征学习数据集,用于对位置敏感的任务,例如目标检测和分割。 Objects365预训练模型明显优于ImageNet预训练模型:当在COCO上训练90K/540K迭代时,AP改善了5.6(42 vs 36.4)/2.7(42 vs 39.3)。同时,当达到相同的精度时,可以大大减少微调时间(差异的10倍)。 Object365的更好的泛化功能也已在CityPersons,VOC Segmentation和ADE中得到验证。我们将发布数据集和所有预先训练的模型。

n

%5C

n

%5C

n

Objects365是研究所发布的通用对象检测数据集。研究团队由视觉技术首席科学家孙健领导。

n

在此之前,对于Objects365和之前发布的大型拥挤场景数据集CrowdHuman,Vision Technology和北京致远人工智能研究所也推出了2019年野外探测(DIW 2019)挑战赛,登上了2019年的CVPR研讨会。

n

2、论文名称:ThunderNet: Towards Real-time Generic Object Detection

n

链接到论文:

n

关键词:一般物体检测

n

总结:

n n

在计算机视觉领域,如何在移动设备上实现实时目标检测是一项非常重要且非常具有挑战性的任务。然而,当前基于CNN的目标检测网络通常需要巨大的计算开销,导致这些网络模型不被部署在移动设备上。

n

在本文中,我们探讨了两阶段目标检测模型在移动实时目标检测任务中的有效性,并提出了一个轻量级的两阶段目标检测模型ThunderNet。在骨干网中,我们分析了先前轻量级骨干网的缺点,并提出了一种专为目标检测任务设计的轻量级骨干网。在检测网络部分,我们采用了非常简单的RPN和检测头设计。为了产生更具辨别力的特征表示,我们设计了两个网络模块:上下文增强模块(CEM)和空间注意模块(SAM)。最后,我们探讨了轻量级目标检测模型的输入分辨率,骨干网络与检测头之间的计算开销的平衡。与之前的轻量级单级目标检测模型相比,ThunderNet仅需要40%的计算开销,即可在Pascal VOC和COCO数据集上获得更好的检测精度。 ThunderNet还在移动设备上实现了24.1fps的实时检测。众所周知,这是ARM平台上报告的第一个实时检测模型。

n

%5C

n

%5C

n

本论文的共同工作是CS正在研究一直在嘲笑实习的郑勤博士。

n

另一位是研究所研究员李泽明。

n

3、论文名称:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network

n

文章链接:否

n

关键词:文本检测

n

总结:

n n

场景文本检测是场景文本阅读系统中的重要一步。随着卷积神经网络的快速发展,场景文本检测也取得了很大进展。尽管如此,仍有两个主要挑战阻止文本检测部署在实际应用程序中。

n

第一个问题是速度和准确性之间的平衡。第二种是为任何形状的文本实例建模。最近,已经提出了一些方法来处理任意形状的文本检测,但是它们很少考虑算法的运行时间和效率,这可能在实际应用环境中受到限制。在本文中,我们提出了一个高效准确的任意形状文本检测器PSENet V2,它配备了一个低计算成本的分割模块和一个可学习的后处理方法。更具体地,分割模块由特征金字塔增强模块(FPEM)和特征融合模块(FFM)组成。 FPEM是一个可级联的U形模块,它引入了多个级别的信息以指导更好的分割。 FFM可以将来自不同FPEM深度的特征组合到最终分割特征中。可学习的后处理由像素聚合模块(PA)实现,其可以通过预测的相似性矢量精确地聚合文本像素。几个标准基准测试的实验验证了所提出的PSENet V2的优越性。值得注意的是,我们的方法可以在CTW1500上以84.2 FPS达到79.9%的F值。据我们所知,PSENet V2是第一种实时检测任何形状文本实例的方法。

n

%5C

n

%5C

n

4、论文名称:Semi-supervised Skin Detection by Network with Mutual Guidance

n

文章链接:否

n

关键词:半监督学习,皮肤分割

n

总结:

n n

我们提出了一种新的数据驱动皮肤分割方法,该方法可以从单个肖像图像中稳健地计算皮肤区域。

n

与之前的方法不同,我们使用人体区域作为弱语义指导,考虑到很难获得大量手动标记的皮肤数据。具体来说,我们提出了一个双任务网络,通过半监督学习策略联合检测皮肤和身体。该网络由一个共享编码器和两个独立的解码器组成,分别检测皮肤和身体。对于任何解码器,其输出也起到另一个解码器的作用。这样,两个解码器实际上互相启动。大量实验证明了相互制导策略的有效性,结果也表明该方法在皮肤分割任务中优于现有方法。

n

%5C

n

%5C

n

5、论文名称:Semi-Supervised Video Salient Object Detection Using Pseudo-Labels

n

文章链接:否

n

关键词:半监督学习,视频检测

n

总结:

n n

基于深度学习的视频聚焦区域检测已经超过了大量无监督方法。但是这种方法依赖于大量手动标记的数据。

n

在本文中,我们使用伪标签来解决半监督视频焦点区域检测问题。具体地,我们提出了一种视频聚焦区域检测器,其包括空间信息改善网络和时空模块。基于这样的结构和光流,我们提出了一种从稀疏标记的帧生成像素级伪标签的方法。使用生成的伪标签和部分手动注释,我们的探测器学习了时空对比度和帧间一致性的线索,从而产生准确的聚焦区域。实验表明,该方法大大超过了跨多个数据集的现有完全监督方法。

n

%5C

n

%5C

n

6、论文名称:Disentangled Image Matting

n

文章链接:否

n

关键词:图像到后面

n

总结:

n n

我们提出了一个新的图像匹配问题框架。大多数先前的图像去除算法基于输入三元图计算图像的指定区域中的阿尔法值(alpha)。对于划分为三部分图的一元区域的完整背景和前景像素,这些方法期望准确地生成alpha值和零值。

n

1。区分要确认的区域中的前景,背景和混合像素; 2.准确计算混合像素的alpha值。其中,我们将第一个任务称为Trimap Adaptation,第二个任务是Alpha Estimation。三部分图形调整是典型的分类问题。 α值估计是典型的回归问题。本文提出的端到端AdaMatting框架通过使用多任务学习分别解决了这两个问题。目前,在多个图像数据集的所有常用指标中都实现了最佳结果。

n

%5C

n

7、论文名称:Re-ID Driven Localization Refinement for Person Search

n

文章链接:否

n

关键词:行人搜索

n

总结:

n n

在许多应用中,检测器充当上游任务,结果直接影响下游任务,尤其是检测框架的定位精度。目前的主流实践是在不考虑下游任务的情况下单独训练探测器,因此得到的探测帧不一定是下游任务的最佳选择。

n

在本文中,我们以行人搜索任务为例,提出了一种优化检测框架定位精度的新方法,使其更适合于给定的任务。行人搜索旨在从完整的图片中检测和识别行人,分为两个任务:检测和行人识别(Re-ID)。本文提出了一种重新ID驱动的定位调整框架,该框架使用重新ID丢失来微调由检测网络生成的检测帧。本文设计了一种可导出的ROI转换模块,它可以根据检测帧的坐标从原始图像输出相应的位置图像,然后将其发送到re-ID网络。由于可以引导整个过程,因此重新ID丢失可以监督检测帧的坐标,从而使检测网络能够生成更适合于行人搜索该任务的检测帧。通过大量的实验结果,本文的方法在多个数据集上实现了最先进的性能。

n

%5C

n

%5C

n

8、论文名称:Vehicle Re-identification with Viewpoint-aware Metric Learning

n

文章链接:否

n

关键词:车辆重新识别,测量学习

n

总结:

n n

在车辆重新识别任务中,极端视角变化(将视角改变到180度)对现有方法构成巨大挑战。

n

件。在测试过程中,我们首先估计车辆的视角,并使用相应的指标根据估计结果对其进行测量。实验结果证实,VANet可以显着提高车辆重新识别的准确性,并且在识别具有不同拍摄角度的车辆对方面更有效。我们的方法可以在两个基准数据集上获得最佳结果。

n

%5C

n

%5C

n

9、论文名称:MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

n

链接到论文:

n

关键词:模型压缩,元学习

n

总结:

n n

Channel Pruning是一种有效的模型压缩方法,我们的方法MetaPruning提出了一种新的修剪方法。

n

传统修剪通常需要手动或基于某些经验标准来设置每层的压缩比,然后迭代地选择要移除的通道,这是耗时且劳动密集的。 MetaPruning,跳过要选择的频道并直接搜索为每个层保留的频道数。为了有效和准确地找到每个层的最佳信道组合,MetaPruning首先训练PruningNet并使用元学习来预测每个可能的补丁网络(PrunedNet)的准确性。使用网络体系结构搜索的思想,使用进化算法搜索最佳的PrunedNet。 PruningNet直接为PrunedNet预测可靠的准确性,使进化搜索非常有效。最后,与MobileNet V1/V2基线相比,MetaPruning的准确度提高了9.0%/9.9%。 MetaPruning还实现了比当前最佳基于AutoML的修剪方法更高的精度。 MetaPruning非常灵活,可以应用于FLOP下的修剪或特定硬件速度限制的修剪。

n

%5C

n

本文由香港大学,清华大学,鄙视和华中科技大学联合制作。

n

本文由香港大学的Zechun Liu博士撰写。

n

10、论文名称:Symmetry-constrained Rectification Network for Scene Text Recognition

n

文章链接:否

n

关键词:文本识别

n

总结:

n n

由于文本字体,形状和自然场景的复杂性,自然场景的文本识别始终是一项非常具有挑战性的任务。近年来,识别不规则形状的场景文本的问题引起了越来越多的研究者的关注。有效且直观的研究方向之一是在识别之前校正文本区域,即识别之前的不规则性。文本被修正为正常形状。但是,简单的文本校正可能不适用于极度扭曲或弯曲的文本。

n

为了解决这个问题,我们提出了ScRN(Symmetry-constrained Rectification Network),一个使用文本对称约束的文本校正网络。 ScRN利用了文本区域的许多数学属性,包括文本的中心线,字符大小和字符方向。此信息可帮助ScRN生成准确的文本区域描述,使ScRN能够实现比现有方法更好的校正,从而提高识别准确性。我们在多个不规则数据集上实现了更高的识别准确度提升(ICDAR 2015,SVT-Perspective,CUTE80)。

n

%5C

n

%5C

n

11、论文名称:Learning to Paint with Model-based Deep Reinforcement Learning

n

链接到论文:

n

开源代码:

n

关键词:强化学习,绘画

n

总结:

n n

如何制作像画家一样的机器,用几支笔创作出迷人的画作?结合深度强化学习方法和神经网络渲染器,我们让代理人学会在自我探索中绘制数百个笔画的纹理丰富的自然图像。每个笔划的形状,位置和颜色由其自身确定。代理人的训练过程不需要人体绘画经验或笔画轨迹数据。

n

%5C

n

本文作者是北京大学本科生黄哲伟。他出生于信息科学竞赛,并入选福建省队。进入北京大学信托基金一年后,他成为Visionary Intelligent Computing Group(IC Group)的实习生。

n

对于这位AI自由职业画家,已经详细报道了量子比特:

n n n n n n n n n