воскресенье, 10 июня 2012 г.

Компьютерная система искусственного зрения (КСИЗ)


КСИЗ - Компьютерная Система Искусственного Зрения - технология, оптимизирующая восприятие события в целом с качественным выделением деталей объекта при наименьших затратах ресурсов.
В сфере видеонаблюдения существует серьезная проблема: камеры с широким углом обзора не могут четко показать отдельные мелкие детали, а направленные камеры не дают обзорного представления обо всем объекте и событиях.
В решении этого вопроса некоторые фирмы пошли по пути применения дорогостоящих камер высокого разрешения и записи кадров повышенного разрешения. Но, даже если взять самую дорогую камеру с широкоугольным объективом, например для наблюдения за стоянкой автотранспорта, через нее все равно невозможно будет рассмотреть номер интересуемого автомобиля. Та же проблема с записью. Если писать в максимально возможном разрешении 768x576, ничего, кроме полной загрузки компьютера, получить не удастся. Конечно, это дает некоторый эффект повышения четкости в несколько раз, но номер автомобиля в сотни и тысячи раз меньше всей автостоянки, поэтому даже десятикратное увеличение четкости здесь бесполезно.

Jpg 268x220, 18333 байт
Jpg 269x220, 8089 байт
Более продвинутым можно назвать использование поворотных платформ с применением увеличительных объективов. Но во время узкого просмотра какой-либо зоны исключаются события во всех остальных частях объекта. Да и выбор этой зоны определяется только человеком, что делает автоматическую запись бессмысленной.
Итак, мы выяснили, что этого не добиться с одной, даже самой совершенной камерой, путем записи даже с самым высоким разрешением, с помощью самой современной поворотной платформы, что нам остается? Применение большого количества камер, направленных в разные точки объекта. Здесь можно представить два варианта. Первый – это установить 100 камер с большим увеличением, скажем в 100 раз, направив их в разные точки. Тогда будет возможно четко увидеть любую точку объекта, но, если в этой точке находится лишь часть рассматриваемого элемента, то придется выводить на воспроизведение сразу большое число камер, совмещая их по предполагаемым линиям, как обои. Другой вариант – направить камеры только в десяти направлениях, но по десять в каждое с разным увеличением. Тогда появится выбор той камеры на просмотр, в которой интересуемый элемент попадает полностью. Во всех случаях просмотр затрудняется необходимостью обязательного воспроизведения почти всех ста камер, кроме того, применение ста камер и ста записывающих устройств значительно повышают стоимость системы.
Но люди уже давно привыкли к фантастическим фильмам, где показывают, как из огромной картинки выделяют и увеличивают небольшую зону до опознаваемого изображения. Как объяснить клиенту, что это невозможно в жизни, если для этого не заплатить фантастическую сумму?
До КСИЗ это было только в кино. Хотя и эта технология еще далека от совершенства, но она уже приносит свои ощутимые плоды. Теоретически КСИЗ зиждется на природных принципах. Как устроено человеческое зрение? В принципе, оно в первом своем приближении похоже на «поворотную платформу». Только скорости поворота, увеличения и фокусировки в тысячи раз больше. Человек может моментально перейти с панорамного обзора в детальный просмотр отдельной точки своего вида.
Что побуждает его перейти именно к этой точке? Какое либо качество, выделяющее ее по сравнению с общим фоном. Например, если вы смотрите на дорогу, на которой стоит автомобиль, то вы скорее всего обратите внимание на него, чем на качество дорожной разметки (если она не имеет необычных свойств). Если вас потом спросить, то вы наверняка назовете марку автомобиля, но не вспомните, была ли разметка у обочины. На море вы сразу сфокусируете свое зрение на корабле, если не будет необычных волн. Если вы заметите нестандартное поведение воды – воронку, то переведете взгляд именно на нее, а не на другую часть моря, где все спокойно. Во дворе дома вы сразу обратите внимание на движущуюся машину, но на оживленной автотрассе вы скорее всего не запомните ни один автомобиль. Таким образом, несложно понять, по каким критериям человеческое зрение переходит с панорамного зрения на направленное. Это должен быть объект или участок местности, имеющий отличительные свойства по отношению к общей картине панорамы. Таких «мишеней» может быть несколько, и человеческое зрение осматривает их по очереди в зависимости от приоритетов, которые задает ему мозг. Приоритеты определяет сознание на основе принципа наибольшей важности или интереса одного объекта по отношению к другим.
Что дает знание этих принципов. Исходя из условий конкретного объекта, мы можем сузить задачи видео наблюдения до минимума, сэкономив ресурсы. В большинстве случаев нет смысла писать все подряд, чаще всего интерес представляют только движущиеся объекты или конкретно определенные зоны. Например, вы оставляете автомобиль во дворе дома в установленном месте. Задача охраны автомобиля решается двумя камерами: направленной на автомобиль с необходимым увеличением, дающим возможность четко рассмотреть подошедшего человека, и обзорной – показывающей всю обстановку вокруг (количество сообщников, свидетелей, элементы подготовки и прочее). В результате пишутся только две камеры, но запись производится не постоянно со всех обеих, а по детекции индивидуально каждая, что дополнительно экономит ресурсы компьютера. Теперь сравним этот вариант с традиционным. В среднем применение двух обычных камер обойдется в $200 в сумме, одна камера высокого разрешения $350. Запись с высоким разрешением занимает в среднем в 4 раза больший объем, примерно во столько же раз увеличивает загрузку процессора и снижает максимальную скорость. Запись двух камер обычного разрешения требует в 2 раза меньше ресурсов. Кроме того, направленная камера пишет гораздо реже, так как захватывает лишь небольшой участок местности. Потому последний вариант как минимум в 2 и как максимум в 4 раза выгоднее.
Но если ваша машина представляет лишь сантиметровый прямоугольник на обзорном экране, первый вариант никогда не даст вам четкой картинки злоумышленника, решившего угнать ваш автомобиль. Во втором же варианте есть возможность подобрать камеру необходимого угла зрения для контролируемого объекта. Поэтому применение двух обычных камер с обычным вариантом записи не только экономически выгоднее, но и чаще всего единственно эффективно.
Jpg 282x278, 19552 байт
Jpg 282x278, 18894 байт
Обзорная камера необходима, но она не дает фото злоумышленника. Программное увеличение проигрывает аппаратному.
Jpg 282x278, 19508 байтОбзорная камера
Jpg 282x278, 20240 байтНаправленная камера
Jpg 282x278, 14166 байтПрограммное увеличение
Jpg 282x278, 17103 байтКСИЗ

Усложним задачу. Кроме самого злоумышленника желаем зафиксировать лица сообщников. Ставим еще одну направленную камеру, например, с наблюдением за входом во двор. Три камеры разрешения 300-400 линий все равно дешевле, чем одна – с 600 линиями. Объем записи, загрузка все равно меньше почти в полтора раза при постоянной записи, а в реальной жизни в 3 – 4 раза, так как по направленным камерам идет редкая запись. А качество воспроизведения зон несравнимо выше, т.к. для каждой из них подбирается индивидуальный угол под геометрию объекта.
И таким образом путем определенных математических расчетов выведена цифра 9 – девять зон, на которые целесообразно разделять кадр по максимуму. В большинстве же случаев достаточно одной – двух направленных камер, работающих в тандеме с панорамной.
Обзорная камера
Jpg 282x326, 27216 байтНаправленная в центр
Jpg 282x326, 22733 байтНаправленная в левый нижний угол
Jpg 282x326, 26571 байтНаправленная в левый средний квадрат

Остается уложить в голове пользователя обзорно-направленный вариант системы видео наблюдения. В какой момент какую камеру просматривать при воспроизведении? Опять же используем природу человеческого глаза и программируем его поведение. Первый взгляд зрачка всегда обзорный, поэтому показываем сначала панорамную камеру. Как только в какой-либо части экрана появляется привлекающее внимание событие, мозг человека подает команду зрачку – сфокусировать на этой зоне зрение. Пользователю остается перевести эту команду в движение руки – ткнуться мышкой в интересующую точку кадра. По этой команде компьютер выводит на воспроизведение в этом же видео окне направленную камеру, ответственную за данную зону. После удовлетворения любопытства мозг дает команду перейти на обзорный вид, что осуществляется повторным щелчком мыши. Если запись в направленной камере кончилась в виду отсутствия движения по ней, видео окно автоматически переключается в обзорное воспроизведение. И так по каждой зоне. Инструменты плеера всегда позволяют вернуться в интересуемый момент времени и просмотреть тот же период по другой камере. Кроме того, КСИЗ поддерживает и программное увеличение экрана. Если для интересуемой зоны не определена направленная камера или в данный момент не было движения, производится увеличение данной части программным путем.
Сравнение:
Программное увеличение
Jpg 282x316, 23904 байтКСИЗ
Jpg 282x316, 16851 байтПрограммное увеличение
Jpg 282x316, 21982 байтКСИЗ
Jpg 282x316, 17028 байтПрограммное увеличение
Jpg 282x316, 23630 байтКСИЗ
Jpg 282x316, 17700 байтПрограммное увеличение
Jpg 282x316, 22913 байтКСИЗ

Таким образом, мечта фантастов частично осуществима, КСИЗ позволяет не просто увеличивать отдельные части экрана, приводя к мало читабельной пикселизации, но и получать опознаваемое изображение. Экономические выгоды очевидны, достоинства – «фантастичны», если сравнивать с фильмами.
Описанные примеры относятся к технологии КСИЗ-1, следующая КСИЗ-2 имеет более продвинутый способ подражания человеческому зрению. Она строится из двух камер: обзорной стационарной и универсальной с возможностью увеличения на поворотной платформе. Первая отслеживает движение во всех частях объекта, вторая направляется туда, где оно есть. Обзорная камера отслеживает любое другое движение в невидимой для второй камеры области и дает команду перестроится на захват общей зоны детекции.
Однако если два или более разных движущихся элемента находятся в далеких друг от друга участках, динамической камере приходится перейти в широкий угол обзора, чтобы ухватить все их. Это может привести к потере четкости каждого отдельного элемента. В этом случае выставляется максимально допустимое расстояние между отдаленными объектами, при превышении которого КСИЗ переходит в специальный алгоритм поочередного фиксирования отдельных элементов. Причем время слежения за каждым и периоды перескакиваний между ними определяются взвешенными коэффициентами в зависимости от уровня важности объекта, его активности и неоднородности движения. Чем больше элемент выделяется из общей картины фона, тем большее внимание ему уделяется.
Но поворотные механизмы с трансфокаторами не всегда оправданно дороги, чаще большее количество камер заменяют их с заметным экономическим выигрышем. Поэтому КСИЗ-1 на сегодняшний день остается наиболее удачным решением проблемы обзорно-направленного вида. За два с лишним года она доказала эффективность своего применения.
Следующая технология КСИЗ-3 уже находится в стадии разработки. Она объединит еще несколько самостоятельных программных разработок, в том числе и детектор оставленных - привнесенных предметов. Ее реализация планируется на первый квартал 2004 года в восьмой версии системы GOAL.
P.S.:
За двухлетний опыт использования КСИЗ-1 наработано множество рекомендаций. КСИЗ-1 на сегодняшний день является на редкость простым, но действенным инструментом получения полезной информации. Кажущаяся банальность метода на практике очень часто приводит к единственно выигрышному решению. После разбора криминальной практики специалисты по безопасности устали повторять, что на объекте должны быть обязательно установлены направленные камеры в местах наиболее вероятного прохода людей. Как правило, это входы–выходы в помещение. Какую бы наглядную картину происходящего не давали бы обзорные камеры, они не предоставят четких деталей участников события. По обзорным картинкам часто можно определить только характер телосложения и одежду злоумышленников, и по этим признакам искать их в записях направленных камер входов-выходов, чтобы получить фото для опознания. Однако это не всегда правильное сопоставление. При использовании же технологии КСИЗ не требуется ничего искать, т.к. щелчок мыши тут же выводит интересуемое лицо.
Jpg 282x316, 21818 байт
Jpg 282x316, 19325 байт
Статья подготовлена специалистами Спецлаборатории

0 коммент.:

Отправить комментарий