新型计算机视觉算法可识别单个像素的图像-凡亿课堂

对于人类来说，识别一个场景中的物品是很容易的，但对于人工智能和机器人来说，是需要经历训练和算法支持才能做到识别物体。为帮助机器更好地识别物体，麻省理工学院计算机科学与人工智能的研究小组与康奈尔大学、微软三方合作，共同开发新型计算机视觉算法STEGO，可在没有人类标签情况下能够识别精确到单个像素的图像。

据了解，该算法具备着语义分割，语义分割是目前计算机视觉系统的一项重要技能，可以理解成为图像中的每个像素分配标签的过程，一般来说图像里含的物体要素过多或者杂乱无章，甚至部分不适合文字框，以往的计算机算法更适用于识别人和汽车等“离散”的物体，举个例子，小孩在草原里放风筝，以前的系统可能识别成小孩，但对于STEGO来说会理解成：小孩、草原、风筝等。

同时，为了降低耗时，在没有人类帮助的情况下，STEGO会寻找出现在整个数据集中的相似对象，然后将这些相似的对象关联在一起，以在它学习的所有图像中构建一致的世界视图。

该研究团队负责人、麻省理工学院CSAIL博士生，微软软件工程师，以及论文的主要作者马克-汉密尔顿表示：“如果你在看肿瘤扫描、行星表面或高分辨率的生物图像，如果没有专家知识，你很难知道要寻找什么对象。在新兴领域，有时甚至人类专家也不知道正确的对象应该是什么，在这些类型的情况下，需要设计一种方法在科学的边界上运作，尤其是不能依靠人类在机器之前弄清楚的情况下。”

据悉，研究人员在多种图像领域上对STEGO进行训练，结果显示STEGO的性能是以前语义分割方案的两倍，并且与人类控制的图像评估密切相关，最重要的是，在应用无人驾驶汽车数据集时，STEGO成功分割出道路、人、街道标志，分辨率和颗粒度远比以前系统高得多。

当然，虽然STEGO性能优于之前的系统，但也有其局限性，比如，它会将意大利面和玉米糁都识别为“食品”，不能很好地区分它们，甚至会被无意义的图像所迷惑。该团队希望在未来的迭代中建立更多的灵活性，使该系统能够识别多个类别的物体。

欲了解更多的计算机视觉资讯，可关注凡亿课堂。

登录后查看更多