Вы сейчас просматриваете Возможности Mathison для решения прикладных задач

Возможности Mathison для решения прикладных задач

Машинное обучение и нейронные сети — не просто модные технологии, но и мощный инструмент для решения самых разных задач, в том числе, прикладных.

Как правило, нейронные сети применяются там, где требуется анализ больших объемов данных — например, последовательностей изображений и видеопотоков. В этой сфере нейронные сети часто применяются в комплексе с методами компьютерного зрения, позволяющими автоматически интерпретировать изображение, — то есть,  решать такие задачи, как поиск объекта, определение его положения, размеров, позы, цвета или других свойств, анализ сцены кадра, классификация изображений.

Классическими задачами в сфере компьютерного зрения являются детекция (object detection), классификация (classification) и сегментация (segmentation). В этой статье мы предлагаем разобраться, чем именно они могут быть полезны.

Задача детекции (Object detection) ставится, если требуется определить наличие или отсутствие на изображении объектов заданного класса — например, при распознавании лиц, отслеживании присутствия людей или животных в кадре, автомобилей или дорожных знаков в зоне видимости, маркировки на упаковке или изделия на конвейере. При этом может быть задан один класс или несколько классов искомых объектов. Местоположение объекта в пиксельном пространстве изображения выделяется ограничивающей рамкой (bounding box).

Разметка изображений для детекции в Mathison

Для того, чтобы эффективнее определять объект, при разметке иногда требуется не только обозначить его расположение, но и выделить ключевые точки (Keypoints) — особенности или паттерны, которые могут служить ориентирами при поиске объекта, определении его положения, позы, формы, ориентации или движения. Благодаря аннотированию ключевых точек модели получают более детальное понимание пространственных отношений между различными объектами или структурами внутри каждого изображения.

В качестве ключевых точек (паттернов) может использоваться схематичный «скелет» человека, определяющий его позу, упрощенное изображение ушек или мордочки животного.

Разметка изображений с помощью инструмента «Ключевые точки» в Mathison

Задача классификации предполагает разделение изображений на категории (классы) путем присвоения изображению метки класса (label), к которому оно принадлежит. Цель состоит в том, чтобы точно классифицировать изображение по определенной заранее метке.

Выделяют бинарную, мультилейбловую и мультиклассовую классификацию.

При бинарной классификации (Binary classification) подразумевается, что весь объем изображений можно разделить только на две категории. Таким образом, бинарная классификация может быть полезна при решении тех задач, где необходимо определить только присутствие или отсутствие объектов одного заданного класса.

Разметка изображений для бинарной классификации в Mathison

 Мультилейбловая классификация (Multilabel classification) предполагает наличие нескольких классов на всем объеме изображений. При этом в рамках одного изображения может быть представлено несколько классов.

Такая классификация может применяться в задачах, где необходимо проанализировать сцену изображения по ее атрибутам — например, если на изображении присутствуют метки «человек», «лошадь», «шлем», «трибуны», можно сделать вывод о том, что на изображении показан ипподром.

Разметка изображений для мультилейбловой классификации в Mathison

Мультиклассовая (Multiclass classification) предполагает наличие нескольких классов на всем объеме изображений, но, в отличие от мультилейбловой классификации, в рамках одного изображения возможен только один класс.

Разметка изображений для мультиклассовой классификации в Mathison

Сегментация также подразумевает присвоение метки класса, но уже не изображению в целом, а каждому его пикселю. Цель сегментации — классифицировать пиксели входного изображения по принадлежности к объектам, т.е. разделить изображение на области, внутри которых все пиксели принадлежат одному объекту. Как и детекция, сегментация позволяет выделять на изображении отдельные объекты, но делает это более точно —объект выделяется уже не ограничивающей рамкой (bounding box), а более точным контуром. Сегментация часто применяется там, где необходим анализ сцены изображения — в автономном вождении, промышленном визуальном контроле, робототехнике.

Выделяют семантическую, паноптическую сегментацию и сегментацию экземпляра.

При семантической сегментации (Semantic segmentation) объекты внутри одного класса не разграничиваются между собой.

Разметка изображений для семантической сегментации в Mathison

При сегментации экземпляра (Instance segmentation) объекты внутри одного класса выделяются отдельно.

Разметка изображений для сегментации экземпляра в Mathison

Паноптическая сегментация (Panoptic segmentation) объединяет в себе задачи семантической сегментации и сегментации экземпляра: на изображении выделяются семантически значимые области, в пределах которых объекты одного класса выделяются отдельно.

Разметка изображений для паноптической сегментации в Mathison