搜狗挑战计算机视觉国际顶级赛事 Pascal VOC 刷新世界最好成绩

2018-03-30 15:55 北京财经网我要评论()

字号：T|T

人工智能应用落地如火如荼，科技巨头间的技术竞争也在风起云涌。3月29日，在国际顶级赛事Pascal VOC挑战赛目标检测Competition 3子任务中，搜狗人工智能图像团队所提交的FPNSSD深度模型，获得了77.0的高分，一举刷新了该项任务的世界最好成绩。（成绩查询网址：http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=3）。

图片1.jpg

PASCAL VOC挑战赛是计算机视觉目标检测的经典权威赛事，其数据集标注质量高、场景复杂、目标多样、检测难度大，是快速检验算法有效性的首选。在计算视觉领域，Pascal VOC挑战赛与ImageNet同为世界顶级的比赛，是国内外AI公司竞相展开激烈竞争的主赛场。

PASCAL VOC的数据集包括20个类别：人类，动物(鸟、猫、牛、狗、马、羊)，交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)，室内物体(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。其中，搜狗图像团队参加的Competition 3子任务，以官方提供的数据集为训练集，不能添加其他额外标注数据，更能体现参赛团队的模型设计和技术功底。

搜狗图像团队研发的FPNSSD检测算法，借鉴了RetinaNet的架构设计思想并优化经典的SSD检测算法，设计出基于ResNet152的Feature Pyramid Network(FPN)网络结构，同时融合浅层与深层的多尺度特征信息，这种在模型上的选择和优化策略大大增强了对小目标物体的检测能力。在此次挑战赛中，搜狗图像团队的FPNSSD检测算法在20个子类别中获得10个单项第一，其中在鸟、猫、狗等小物体类别上胜出优势明显，充分验证了FPNSSD检测算法在模型结构设计上的先进性。

此外，FPNSSD检测算法采用SoftmaxLoss + Hard Negative Mining的训练方式，在FPNSSD框架中相对当前业内常用的基于FocalLoss的训练方式，能取得更高精度。

搜狗图像团队成员大多来自清华、北大、中科院、浙大等高校，曾先后取得几十项相关技术专利。团队长期专注于场景文字检测识别、人脸识别、图像细粒度分类、敏感图像检测、图像理解等前沿领域研究，相关成果已广泛应用于搜狗旅行翻译宝、搜狗翻译APP、搜狗输入法、搜狗汪仔答题助手、搜狗识图等产品，在众多垂直领域及具体场景中满足着广大用户日益多样化、个性化的应用需求。

不仅如此，搜狗人工智能图像团队的前沿成果，还通过搜狗AI开放平台，正在为金融、保险、医疗等行业客户提供优质的AI服务和解决方案。作为人工智能带路党的搜狗，未来还将基于图像识别技术在更多场景实现进一步突破创新，带来更丰富便捷的AI体验。