Что такое компьютерное зрение?

Компьютерное зрение является одной из самых горячих областей компьютерных наук и исследований в области искусственного интеллекта, но пока еще не может конкурировать с силой человеческого глаза. Кстати, далее по ссылке вы можете почитать интересные лекции стэнфордского университета на тему «Свёрточные нейронные сети для визуального распознавания».

Когда вы смотрите на изображение, вы видите людей, объекты и здания. Он поднимает воспоминания о прошлом опыте, похожих ситуациях, с которыми вы сталкивались. Толпа смотрит в том же направлении и держит телефоны, что говорит о том, что это какое-то событие. Человек, стоящий рядом с камерой, одет в футболку, которая намекает на то, каким может быть событие. Когда вы смотрите на другие мелкие детали, вы можете получить гораздо больше информации из картинки.

Но для компьютера это изображение - как и все изображения - представляет собой массив пикселей, числовые значения, которые представляют оттенки красного, зеленого и синего. С 1950-х годов одной из трудностей, с которыми сталкиваются компьютерные ученые, является создание машин, способных воспринимать фотографии и видео, как это делают люди. Область компьютерного зрения стала одной из самых горячих областей исследований в области компьютерных наук и искусственного интеллекта .

Спустя десятилетия мы достигли огромного прогресса в создании программного обеспечения, которое может понимать и описывать содержание визуальных данных. Но мы также обнаружили, как далеко мы должны пройти, прежде чем сможем понять и воспроизвести одну из фундаментальных функций человеческого мозга.

Краткая история компьютерного зрения

В 1966 году Сеймур Паперт и Марвин Мински, два пионера искусственного интеллекта, запустили проект Summer Vision , двухмесячный проект с участием 10 человек для создания компьютерной системы, которая могла бы идентифицировать объекты на изображениях.

Чтобы выполнить задачу, компьютерная программа должна была иметь возможность определить, какие пиксели принадлежат какому-либо объекту. Это проблема, которую легко решает система человеческого зрения, основанная на наших обширных знаниях о мире и миллиардах лет эволюции. Но для компьютеров, мир которых состоит только из цифр, это сложная задача.

Во время этого проекта доминирующей ветвью искусственного интеллекта был символический ИИ , также известный как ИИ на основе правил: программисты вручную определяли правила обнаружения объектов на изображениях. Но проблема заключалась в том, что объекты на изображениях могли появляться под разными углами и при разном освещении. Объект может появляться на фоне разных фонов или быть частично закрытым другими объектами. Каждый из этих сценариев генерирует разные значения пикселей, и практически невозможно создать ручные правила для каждого из них.