盖世汽车讯 图像中的哪些像素代表无人驾驶汽车前的不同的人或物体,哪些像素代表背景类别?这一任务称作全景分割(panoptic segmentation),是自动驾驶汽车、机器人、增强现实,甚至生物医学图像分析等领域的一个基本问题。据外媒报道,德国弗莱堡大学(University of Freiburg)计算机科学系Abhinav Valada博士及其团队开发了先进的AI模型EfficientPS,能够更快更有效地对视觉场景进行连贯识别。
研究人员解释称,这项任务通常使用机器学习技术来解决。一些公共基准数据集,如Cityscapes,在衡量这些技术的进展方面发挥着重要作用。Valada团队成员Rohit Mohan表示,“多年来,谷歌或优步等公司的研究团队一直在这些基准测试中争夺榜首。”而弗莱堡大学计算机科学家开发的用于理解城市场景的方法在Cityscapes中排名第一,Cityscapes是自动驾驶场景理解研究中最具影响力的排行榜。而且在其他标准的基准数据集如KITTI、Mapillary Vistas和IDD中,EfficientPS也名列前茅。
在项目网站上,Valada展示了团队如何在不同的数据集中训练不同AI模型的例子。结果叠加在相应的输入图像上,其中的颜色显示模型分配的像素所对应的物体类别。例如,汽车用蓝色标记,人用红色标记,树用绿色标记,建筑物用灰色标记。此外,该AI模型还在每个被视为独立实体的对象周围绘制边框。研究人员对该模型进行了训练,使其成功地将从斯图加特学习到的城市场景信息迁移到纽约市。虽然该AI模型并不了解美国的城市,但却能够准确地识别出纽约市的场景。
以往的大多数方法通常具有较大的模型尺寸,并且在实际应用中(例如资源严重受限的机器人技术)耗费昂贵的计算资源。Valada解释道,“我们EfficientPS不仅能性能先进,而且计算效率高、速度快,这些特征进一步扩展了其应用范围。”