Как сделать нейронную сеть для распознавания лиц
1. Л.И. Воронова, В.И. Воронов. MachineLearning: регрессионные методы интеллектуального анализа данных: учебное пособие / МТУСИ.– М., 2017.- 92с.
2. Е.Н. Горбачевская, С.С. Краснов. История развития нейронных сетей // Вестник Волжского университета имени В.Н. Татищева. 2015. № 1
4. И. А. ЧубуковаDataMining: учебное пособие /2-е изд., испр. — М.: Интернет-Университет Информационных Технологий; БИНОМ. Лаборатория знаний, 2008
10. Д.Рутковская, М Пилиньский., Л.Рутковский Нейронные сети, генетические алгоритмы и нечеткие системы: Горячая линия -Телеком, 2013. - 452 c
Одним из самых распространенных методов машинного обучения при решении данной задачи являются нейронные сети. Нейронные сети – это программная реализация сетей нервных клеток человека, т.е. биологических нейронных сетей. Активные работы над их созданием начались в 60-е годы, когда нейробиологами было установлено, что мозг – это миллиарды нейронов, соединенных между собой, а мозг человека способен выполнять сложнейшие задачи [2]Нейронная сеть состоит из связанных между собой нейронов, которые способны взаимодействовать друг с другом. Простая нейронная сетьприведена на рисунке 1.
Рис.1. Модель нейронной сети
это входные узлы, они относятся к первому слою, который называют входным; , - обозначения для активациинейронов, - активация узла i в слое j), они относятся ко второму слою, который называют скрытым, количество скрытых слоев в сети выбирается при разработке архитектуры, именно в этом слое происходят основные вычисления;– гипотеза.Последний слой называют выходным, т.к. он выдает конечное значение, вычисленное гипотезой, т.е. результат.
Существует два вида обучения с учителем и без учителя. Обучение с учителем предполагает, что для каждого входного вектора существует целевой вектор, представляющий собой требуемый выход. Предъявляется выходной вектор, вычисляется выход сети и сравнивается с соответствующим целевым вектором. Далее веса изменяются в соответствии с алгоритмом, стремящимся минимизировать ошибку. При обучении без учителя сеть обучается лишь на основе входных сигналов, желаемый результат остается неизвестным, и самостоятельно определяет признаки, по отношению к которым параметры сети будут оптимизированы.
Рис. 2 Логистическая функция (сигмоид) [1]
Распознавание лиц по фотографии
Рис.3 Архитектура сети
В этой сети (входной слой) равен 10 векторам, заложенным в базу данных, (скрытый слой) равен 25 элементам, равен 2 элементам.
Отображение лиц в наборе данных: displayData(X(1:100, :));
Рис.4 Отображение набора данных
Для применения метода главных компонент (РСА) выполним нормализацию данных с помощью оператора bsxfun
[X_norm, mu, sigma] = featureNormalize(X);
X_norm = bsxfun(@minus, X, mu);
X_norm = bsxfun(@rdivide, X_norm, sigma);
Затем выполним РСА, вычислим проекцию нормализованных входных данных X в уменьшенное размерное пространство:
Running PCA on face dataset.
Визуализируем полученные данные
Рис.5 Уменьшение размеров лиц набора данных
g = 1.0 ./ (1.0 + exp(-z));
Алгоритм обучения сети
Посте того, как мы посчитали выход нейронной сети, реализуем алгоритм обратного распространения ошибки для вычисления градиентов Theta1_grad и Theta2_grad. Выходной нейрон получает целевое значение — то выходное значение, которое является правильным для данного входного сигнала, и вычисляет ошибку , так же вычисляет величину, на которую изменится вес связи. Подсчитав ошибку, распространяем ее в обратном направлении по всей сети и находим значение локального градиента в каждом узле нейронной сети.
Вычисляем величину корректировки смещения и посылаем нейронам в предыдущем слое:
Визуализация результатов происходит путем выбора изображения из набора данных
Neural Network Prediction: male. Accuracy is 100 %.
Program paused. Press enter to continue.
Рис.6 Реализация прогноза
Оценка качества работы сети на основе обучающих данных показала точность 79%
Выводы: Автоматизированная идентификация человека является одной из современных задач современного машинного обучения и компьютерного зрения. С каждым годом к этой задаче обращаются все чаще и чаще. Сферами применения результатов в данной области является обеспечение безопасности, поиск преступников, находящихся в розыске, сбор статистической информации, спортивные тесты и многие другие. В статье рассмотрены основные понятия теории нейронных сетей, описана модификация программы, реализована программа распознавания лиц по фотографии в среде GNU Octave с применением метода главных компонент. Оценка качества работы сети на основе обучающих данных показала точность 79%.
ИНС (искусственные нейросети) – это математическая модель функционирования традиционных для живых организмов нейросетей, которые представляют собой сети нервных клеток. Как и в биологическом аналоге, в искусственных сетях основным элементом выступают нейроны, соединенные между собой и образующие слои, число которых может быть разным в зависимости от сложности нейросети и ее назначения (решаемых задач).
Пожалуй, самая популярная задача нейросетей – распознавание визуальных образов. Сегодня создаются сети, в которых машины способны успешно распознавать символы на бумаге и банковских картах, подписи на официальных документах, детектировать объекты и т.д. Эти функции позволяют существенно облегчить труд человека, а также повысить надежность и точность различных рабочих процессов за счет отсутствия возможности допущения ошибки из-за человеческого фактора.
Нейросеть – это математическая модель в виде программного и аппаратного воплощения, строящаяся на принципах функционирования биологических нейросетей. Сегодня такие сети активно используют в практических целях за счет возможности не только разработки, но и обучения. Их применяют для прогнозирования, распознавания образов, машинного перевода, распознавания аудио и т.д.
Применение нейронной сети в распознавании изображений
Работа с изображениями — важная сфера применения технологий Deep Learning. Глобально все изображения со всех камер мира составляют библиотеку неструктурированных данных. Задействовав нейросети, машинное обучение и искусственный интеллект, эти данные структурируют и используют для выполнения различных задач: бытовых, социальных, профессиональных и государственных, в частности, обеспечения безопасности.
Основой всех архитектур для видеонаблюдения является анализ, первой фазой которого будет распознавание изображения (объекта). Затем искусственный интеллект с помощью машинного обучения распознает действия и классифицирует их.
Для того чтобы распознать изображение, нейронная сеть должна быть прежде обучена на данных. Это очень похоже на нейронные связи в человеческом мозге — мы обладаем определенными знаниями, видим объект, анализируем его и идентифицируем.
Нейросети требовательны к размеру и качеству датасета, на котором она будет обучаться. Датасет можно загрузить из открытых источников или собрать самостоятельно
На практике означает, что до определённого предела чем больше скрытых слоев в нейронной сети, тем точнее будет распознано изображение. Как это реализуется?
Картинка разбивается на маленькие участки, вплоть до нескольких пикселей, каждый из которых будет входным нейроном. С помощью синапсов сигналы передаются от одного слоя к другому. Во время этого процесса сотни тысяч нейронов с миллионами параметров сравнивают полученные сигналы с уже обработанными данными.
Проще говоря, если мы просим машину распознать фотографию кошки, мы разобьем фото на маленькие кусочки и будем сравнивать эти слои с миллионами уже имеющихся изображений кошек, значения признаков которых сеть выучила.
В какой-то момент увеличение числа слоёв приводит к просто запоминанию выборки, а не обучению. Далее - за счёт хитрых архитектур.
Как нейросеть решает задачи по распознаванию образов
Нейронная сеть для распознавания изображений – это, пожалуй, наиболее популярный способ применения НС. При этом вне зависимости от особенностей решаемых задач, она работает по этапам, наиболее важные среди которых рассмотрим ниже.
В качестве распознаваемых образов могут выступать самые разные объекты, включая изображения, рукописный или печатный текст, звуки и многое другое. При обучении сети ей предлагаются различные образцы с меткой того, к какому именно типу их можно отнести. В качестве образца применяется вектор значений признаков, а совокупность признаков в этих условиях должна позволить однозначно определить, с каким классом образов имеет дело НС.
Важно учитывать, что исходные данные для нейросети должны быть однозначны и непротиворечивы, чтобы не возникали ситуации, когда НС будет выдавать высокие вероятности принадлежности одного объекта к нескольким классам.
В целом создание нейронной сети для распознавания изображений включает в себя:
С целью повышения уровня общественной безопасности, ежегодно устанавливаются дополнительные камеры общественного видеонаблюдения. Благодаря интеграции систем распознавания лиц, задержание преступников и поиск видеодоказательств совершенного преступления стал в разы эффективнее. Однако на практике встречаются ситуации, при которых возможна идентификация личности лишь на небольшом участке области обзора камеры, вследствие чего информация о передвижении человека при исчезновении его лица из кадра теряется и дальнейшее идентифицирование его личности возможно только с использованием человеческих ресурсов. В данной статье представлено теоретическое описание системы распознавания и отслеживания лиц. С помощью эталонных фотографий выбранных личностей, система запоминает их лица. В случае появления во входном видеопотоке знакомых лиц, система распознает соответствующих людей и продолжает отслеживание даже в случае исчезновения лица из кадра. Для реализации описанной системы были рассмотрены такие задачи, как детекция объектов, идентификация личности, отслеживание перемещений и современные подходы в их решении.
Ключевые слова: обнаружение, распознавание, отслеживание.
Введение
В наши дни алгоритмы искусственного интеллекта в сфере компьютерного зрения занимают ключевое место в сфере безопасности и применяются не только частными компаниями, но и государственными организациями. В технически развитых городах-миллионниках благодаря камерам общественного видеонаблюдения, эффективность выполнения задач общественной безопасности возросла на порядок. Так, например, с внедрением системы распознавания лиц в Московском метро, ежемесячно задерживаются от пяти до десяти разыскиваемых преступников.
В данной работе представлено теоретическое описание и процесс разработки системы распознавания и отслеживания лиц, которая актуальна для следующих задач:
– Идентификация и отслеживание преступников.
– Поддержка и ускорение расследований
– Поиск пропавших детей и дезориентированных взрослых.
Для достижения данной цели были поставлены следующие задачи:
– Изучение современных технологий, лежащих в основе решения.
– Извлечение кадра из входного видеопотока.
– Детектирование областей, в которых находятся люди.
– Идентификация личностей обнаруженных людей по биометрическим данным.
– Соотношение идентификационной информации с областью, содержащей человека.
– Отслеживание передвижения людей от кадра к кадру.
В открытом доступе находятся множество подходов к решению поставленных задач по отдельности, но не было найдено ни одного открытого решения, которое бы реализовало описанную цель.
Задача детекции
Детектирование людей на изображениях, как и детектирование лиц являются частными задачами более общей — детектирования объектов. В этой статье для детекции людей на изображении используется самая известная модель детекции объектов — YOLOv3 [4]. С концепцией архитектуры энкодера-декодера и одностадийным подходом, данная сеть работает в три раза быстрее, чем SSD [8], и показывает точность, сравнимую с Faster-RCNN [7].
YOLOv3 (You Only Look Once) [4] — многоклассовый детектор объектов. Данная модель использует в качестве основы (backbone) сеть Darknet-53, состоящую из 53 сверточных слоев для извлечения признаков из изображения и применяет в своей архитектуре такие известные практики, как:
− Residual blocks with shortcut-connections. Как и в сетях семейства ResNet [5], такие блоки предотвращают затухание градиентов при обучении нейронных сетей, что позволяет использовать более глубокие архитектуры без потери качества их выразительности.
− Upsampling with concatenations of feature maps. Данный метод позволяет получить более значимую семантическую информацию из апсемплированных признаков и более точную информацию из ранних карт признаков.
RetinaFace
Для распознавания лиц на изображениях используется нейронная сеть RetinaFace. Несмотря на то, что обнаружение лиц является частным случаем задачи детекции объектов, было разработано множество решений, одним из которых является модель RetinaFace [3]. Данная нейронная сеть является устойчивым одностадийным детектором, предоставляющим попиксельную локализацию для лиц разного масштаба и показывающим наилучшую точность среди всех современных моделей на момент публикации в 2019 году. Принимая на вход изображение, данная модель выводит позитивные шаблоны, состоящие из векторов, содержащих вероятность принадлежности области к области лица, границы области лица, пять лицевых ориентиров и плотные 3D грани лица, спроецированные на плоскость изображения.
Идентификация личностей
Идентификация личности по биометрическим данным — самая обсуждаемая область компьютерного зрения последних нескольких лет. В рамках данной работы, в качестве биометрических данных будем рассматривать человеческие лица и подход, основанный на вычислении эмбеддингов.
В задаче идентификации личности одним из ключевых шагов является очистка изображения от лишней информации. Выделяя области, содержащие человеческие лица, мы оставляем все необходимое данные для вычисления признаков средствами сверточных нейронных сетей, которые и будут составлять наши эмбеддинги. Одной из моделей идентификации личности является FaceNet [2] — модель компании Google, представленная в 2015 году. Данная нейронная сеть обучена отображать область изображения, содержащую человеческое лицо в точку многомерного пространства, где расстояние между этими точками напрямую соответствует мере сходства лица. В статье [2] представлены особенности обучения данной сети, сравнение нескольких глубоких архитектур, их результаты и тестирование размерностей выходных векторов.
Отслеживание объектов
Задача отслеживания объектов в видеопотоке заключается в:
– Обнаружении заданных объектов на входном видеопотоке.
– Присвоении уникальных меток каждой области с объектом.
– Сопоставлении одних и тех же областей от кадра к кадру.
Одним из самых популярных и точных подходов к задаче отслеживания является алгоритм DeepSort [6]. Данный алгоритм представлен в 2017 году и является улучшением алгоритма SORT [1]. Используя сверточную нейронную сеть для интегрирования информации о внешнем виде, DeepSort показывает снижение в переключении идентификаторов на 45 % по сравнению со своим предшественником.
Общая структура
При реализации системы распознавания и отслеживания лиц, были выделены следующие этапы:
- Детектирование людей.
- Присвоение уникальных меток обнаруженным людям в соответствии с детекциями и уникальными метками на прошлом кадре (этап отслеживания).
- Детекция лиц.
- Идентификация личности.
- Соотношение лиц и людей на видеокадре.
- Соотношение идентификационной информации с уникальными метками.
Считывая новый кадр из видеопотока, первым делом YOLOv3 [4] определяет ограничивающие прямоугольники, в которых содержатся люди (1), после чего, DeepSort [6] присваивает этим областям уникальные метки
Определение областей (1) и (3) происходит отдельно по всему кадру в силу архитектур используемых моделей. Такой подход предполагает более высокую скорость работы, в отличии от подачи на вход сети RetinaFace отдельных областей (1) изображения.
Для того, чтобы идентифицировать человека по его лицу с помощью эмбеддингов, нам нужны эталонные значения. Подготовив несколько изображений каждого человека, которого надо идентифицировать, мы считаем такие же векторы по каждой области лица, усредняем их и принимаем в качестве эталонных. Данный этап подготовки происходит до извлечения первого кадра из видеоряда.
После получения векторов по каждой области лица на текущем кадре, мы считаем l2-расстояние между эталонными и новыми, на основании чего делаем вывод, известен ли системе этот человек или нет, и если известен, то кто это, сохраняя полученные идентификационные метки (4), вместе с расстоянием в качестве значения уверенности.
Сохранив соотношения (1) с (2) и (3) с (4), мы соотносим (1) с (3) и с (4) следующим образом. Находим координаты середины ограничивающего лицо прямоугольника и смотрим, находится ли он в рассматриваемой области человека. Если находится, то запоминаем данное соотношение и переходим к следующему лицу.
После получения такого соотношения, мы сравниваем значение уверенности идентификационной информации (4) с соотношением, полученным на предыдущем кадре. Если расстояние между эмбеддингами меньше, то мы обновляем идентификационную информацию рассматриваемой области, в противном случае используем соотношение, вычисленное ранее.
Выводы
В работе исследованы и применены на практике современные нейросетевые подходы к решению поставленной задачи, в результате чего была разработана система определения и отслеживания людей. В ходе ее разработки были решены следующие практические задачи:
– Извлечение кадра из видеопотока.
– Детектирование областей, в которых находятся люди.
– Идентификация личности по биометрическим данным.
– Соотношение идентификационной информации с областью, содержащей человека.
– Отслеживание передвижения людей от кадра к кадру.
Основные термины (генерируются автоматически): идентификационная информация, Идентификация личности, кадр, нейронная сеть, задача, лицо, область, область лица, отслеживание лиц, Соотношение.
Систему камер с распознаванием лиц в Москве признали одной из самых развитых в мире. Чем это нам грозит? Как работают алгоритмы и можно ли их обмануть? И какое будущее у этой технологии?
Что такое распознавание лиц?
Распознавание лиц — это технология, которая позволяет автоматически идентифицировать (распознать, кто на фото) или верифицировать (подтвердить, что на фото именно этот человек) человека на фото, видео или вживую. Для распознавания используют нейросети, которые умеют считывать и анализировать уникальные черты человеческого лица, а затем сверять их с базой.
Об эксперте: Татьяна Гайнцева, преподаватель Deep Learning School (МФТИ), автор блога об искусственном интеллекте и нейронных сетях.
Как развивалась технология распознавания лиц
- Первые эксперименты в области машинного распознавания лиц представил в 1960-х годах Вуди Бледсо — профессор Техасского университета в Остине, исследователь искусственного интеллекта. Его рабочая группа создала базу из 800 снимков людей в разных ракурсах. Далее ученые размечали лица 46 точками-координатами с помощью прототипа современного планшета. Посредством специального алгоритма система разворачивала лица под разными углами, увеличивала и уменьшала масштаб. На втором этапе алгоритм использовал 22 измерения, действуя согласно байесовской теории принятия решений — чтобы общий вывод был максимально точным. В итоге система, разработанная Бледсо, справлялась в 100 раз быстрее, чем человек.
- В 1988 году Майкл Кирби и Лоуренс Сирович из Университета Брауна применили подход Eigenface с использованием линейной алгебры для анализа изображений. Для разметки лиц они применяли менее 100 различных значений.
- В 1991 году Алекс Пентланд и Мэтью Терк из MIT усовершенствовали технологию Eigenfaces, задействуя факторы окружающей среды. Им удалось автоматизировать процесс распознавания.
- В конце 1990-х годов Управление перспективных исследовательских проектов при Минобороне США (DAPRA) и Национальный институт стандартов и технологий выпустили программу FERET с самой обширной базой лиц — более 14 тыс. изображений. Изначально ее использовали, чтобы находить и распознавать преступников по всему миру, но затем представили для открытого доступа.
- С 2010 года Facebook начал использовать функцию распознавания лиц, чтобы находить пользователей на публикуемых фото и предлагать их отметить.
- В 2011 году власти Панамы и США запустили совместный проект FaceFirst. Это технология распознавания лиц, которую использовали для пресечения незаконной деятельности в аэропорту Токумен в Панаме. В том же году полиция и спецслужбы США начали применять распознавание лиц для опознания трупов — включая Усаму бен Ладена.
- С 2014 года распознавание лиц используют в камерах мобильных телефонов, а с 2017 — в ретейле.
Как работает распознавание лиц?
В основе технологии — две нейросети:
Вот как это выглядит:
Программа вырезает обнаруженные лица (те, что плотно расположены друг к другу, повернуты в профиль или просто очень маленькие и нечеткие, система может не распознать).
Затем она их выравнивает: детектирует на лице точки глаз, носа и рта.
Наконец, поворачивает и подгоняет размер фото так, чтобы точки глаз, носа и рта находились в определенных местах.
Некоторые алгоритмы используют больше семи точек — то есть, обводят контуры лица. Это может понадобиться, к примеру, для создания дипфейков.
На похожие лица сеть выдает похожие векторы и наоборот.
Возьмем одно фото Анджелины Джоли и два изображения Брэда Питта и прогоним их через сеть. На выходе получим три вектора. Измерим расстояние между вектором Анджелины Джоли и вектором первого Брэда Питта, а также между векторами двух Брэдов Питтов. В первом случае расстояние будет большим — это разные люди, а во втором — маленьким: это один человек.
Чтобы обучить нейросети, используют огромные базы данных с лицами людей. Нейросети на входе сообщают, кому принадлежит это лицо, а затем, в ходе обучения, добиваются, чтобы она выдавала максимально точные результаты. Обучившись на миллионах разных людей, нейросеть начинает распознавать и новые лица — те, которых не было в базе.
Технология Face ID в смартфонах устроена немного иначе. Алгоритм распознает вас не по фото, а с помощью инфракрасных точек, которые проецируются на ваше лицо через камеру. После этого создается трехмерная модель и сравнивается с той, что вы уже внесли ранее.
Где применяют распознавание лиц?
💣 Безопасность
Криминалисты, полиция и спецслужбы используют автоматизированные системы биометрической идентификации (ABIS) для поиска преступников, доказательства преступлений и их предотвращения — например, терактов или мошенничества с документами.
Камеры с распознаванием лиц применяют для обеспечения безопасности на массовых мероприятиях, для прохождения контроля в аэропортах, контроля доступа в различных организациях. Системы помогают находить пропавших детей, дезориентированных взрослых или людей, которых держат в рабстве.
💊 Здравоохранение и медицина
Распознавание лиц в больницах и домах престарелых помогает отслеживать, принимают ли пациенты лекарства и следить за их состоянием через специальный монитор. Нейросети даже умеют обнаруживать по лицу генетические заболевания по характерным признакам на лице — такие, как синдром Ди Джорджи, — и оценивать общее состояние пациента.
🍕 Ретейл, общепит и банки
Технология распознавания лиц помогает идентифицировать клиента и предотвратить мошенничество во время покупки в магазине, анализировать поведение покупателей и оптимизировать сервис так, чтобы продавать больше.
Еще одно перспективное направление — распознавание эмоций. Например, чтобы улучшить взаимодействие с клиентами и сотрудниками, работая онлайн, или анализировать, как пользователи реагируют на контент. В России подобными разработками занимается компания Neurodata Lab.
📚 Образование
Сервисы на базе распознавания лиц помогают во время онлайн-обучения: следят, чтобы ученик не отвлекался во время экзамена, не списывал и не пользовался устными подсказками.
Самые продвинутые разработки в этой области
С 2016 по 2020 год точность распознавания лиц нейросетями улучшилась в 50 раз: коэффициент ошибок составил 0,8%. Согласно исследованию Facial Recognition Market 2019 года, мировой рынок распознавания лиц тогда оценивали в $3,2 млрд. Прогноз на 2024 год — $7 млрд, при ежегодном росте в 16%.
Самые масштабные разработки в области распознавания лиц — у Google, Apple, Facebook, Amazon и Microsoft (GAFAM).
В 2014 году Facebook запустил сервис DeepFace, который определяет, принадлежат ли два сфотографированных лица одному и тому же человеку с точностью 97,25%.
В 2015 Google представила свою разработку — FaceNet. Благодаря огромному массиву данных, которые собирают сервисы Google, FaceNet достигла рекордной точности — 99,63%. Технологию, в частности, используют в Google Фото для сортировки изображений и автоматических отметок людей на них.
Amazon с 2018 года активно продвигает свой облачный сервис распознавания лиц под названием Rekognition, которым пользуются правоохранительные органы США. Система умеет распознавать до 100 человек на одном фото и искать их в базах данных, содержащих десятки миллионов лиц.
По данным Центра стратегических и международных исследований, а также Управления по науке и технологиям МВД США, лучшим решением в 2020 году было признано FRT: его точность распознавания составила 99,97%.
В России есть пять крупных игроков на рынке распознавания лиц:
- NTechLab;
- VisionLabs;
- Sensemaking Lab;
- Группа ЦРТ.
Что не так с распознаванием лиц в Москве?
В Москве действует одна из крупнейших в мире сетей с распознаванием лиц — более 200 тыс. камер общей стоимостью около 5 млрд руб.
Российскую технологию NTechLab признали лучшей в результате тестирования Национального института стандартов и технологий США. NTechLab вели совместные разработки с Genetec — поставщиком систем видеонаблюдения для американского правительства и спецслужб.
Московскую систему видеонаблюдения использовали во время пандемии в 2020 году. С ее помощью выявили более 200 нарушителей карантина и самоизоляции, которым пришлось выплатить штрафы.
Правозащитники указывают на опасность технологии для обычных граждан. Например, юрист Алена Попова неоднократно подавала иски к управлению МВД Москвы и московскому Департаменту информационных технологий с требованием запретить систему распознавания лиц на митингах.
Распознавание лиц и правда используют на митингах?
В феврале 2021-го появилась информация о том, что с помощью камер власти отслеживали участников митингов в Москве и привлекали их к ответственности. Полицейские останавливали людей на входе в метро или приходили к ним домой. Такое бывало и в других странах.
Во время протестов в Гонконге 2019-20 годов власти тоже использовали распознавание лиц, чтобы вычислять активистов. Для борьбы с этим протестующие использовали лазерные указки, маски с чужими лицами и проекторы для лица, а также громили столбы с камерами.
По мнению оппозиции, для распознавания используют программу Face++ от китайского стартапа Megvii. Эта система, предположительно, попала в черный список властей США за нарушение прав человека.
Еще один недавний пример — сайт Faces of the Riot, созданный студентом из Вашингтона. Он использовал приложение с открытым исходным кодом, чтобы извлечь лица из 827 видео, размещенных в соцсети Parler во время штурма Капитолия 6 января 2021 года. Затем он применил нейросеть для распознавания лиц, обученную на 200 тыс. фото из базы ФБР, и идентифицировал людей.
Какие еще проблемы есть у технологии сегодня?
👁️🗨️ Утечки. В данном случае в сеть утекают доступы к камерам наблюдения и результатам распознавания. За деньги можно проверить по фотографии, где и когда камеры засекли конкретного человека.
🤦 Ошибки в распознавании. В 2018 году технология распознавания лиц от Amazon ошибочно опознала 28 членов Конгресса США как преступников. Недавний пример — москвич Сергей Межуев, которого система распознавания лиц в метро ошибочно приняла за преступника в розыске. В итоге мужчину задержали, собрали все данные и не сняли подозрения, пока реальный подозреваемый не нашелся.
❌ Использование лиц без согласия. В США до недавнего времени для обучения нейросетей распознаванию лиц использовали датасеты с лицами из открытых источников. Готовые датасеты тоже были в открытом доступе. Однако сейчас их убрали, так как это нарушает законы о защите персональных данных. Теперь доступ к ним можно получить по запросу и только для исследовательских (некоммерческих) целей.
😠 Дискриминация и расизм. Для обучения нейросетей используют датасеты, которые содержат, в основном, фото людей титульной нации и расы. В итоге системы распознавания лиц плохо распознают азиатов, латиноамериканцев или афроамериканцев. Системы, которые используют в криминалистике, чаще указывают на чернокожих людей как на потенциальных преступников.
Исследование MIT от 2018 года показало, что алгоритмы Microsoft, IBM и китайского Megvii (FACE ++) очень часто ошибаются при идентификации темнокожих женщин по сравнению со светлокожими мужчинами.
Есть примеры дискриминации по полу: например, нейросеть, которая дорисовывает женским фото тело в бикини, а мужским — в костюме. Просто потому, что в сети большинство изображений именно такие.
👮 Использование технологии для манипуляции людьми. Оказавшись в руках властей, системы с распознаванием лиц вместе с базами персональных данных дают неограниченные возможности. Самый радикальный пример того, к чему это может привести — Китай.
Распознавание лиц в Китае: социальная антиутопия
В Китае распознавание лиц используют в полиции, аэропортах, на улицах, в общественном транспорте. Государство планирует распространить систему по всей стране: по данным CNBC, в конце 2018 года в Китае использовали более 200 млн камер наблюдения, а к концу 2021-го их число достигнет более 500 млн.
Одна из главных причин — внедрение системы социального рейтинга или кредита. Каждый гражданин страны получает положительные баллы за общественно-полезную деятельность, отсутствие нарушений, своевременную уплату налогов. За проступки баллы снимаются. Низкий или отрицательный рейтинг влечет разные последствия: отказ в выдаче кредита и социальных выплатах, запрет на вылет из страны и работу в определенных организациях.
Также при помощи этой технологии правительство Китая следит за представителями уйгурского этнического меньшинства. Сотни тысяч уйгуров поместили в города-гетто и лагеря для политзаключенных и всячески ограничивают их в перемещении.
Можно ли обмануть систему распознавания лиц?
Однако все эти способы вряд ли помогут. Во-первых, мы до конца не знаем, по каким именно приметам нейросети распознают лица. Во-вторых, алгоритмы обучают по разным схемам и на разных датасетах. Чтобы их обмануть, нужно точно знать, как устроена конкретная нейросеть.
Можно, конечно, полностью скрыть лицо в публичных местах и на массовых мероприятиях. Но во многих странах — включая Россию и Китай — это запрещено законом.
Есть способы, которые помогают изменить уже готовые фото. Например, компания Generated Media создала Anonymizer: приложение, которое генерирует серию портретов на основе ваших фото и делает их неузнаваемыми для нейросетей.
Можно использовать специальную маску. К примеру, возьмем фото, на котором нейросеть опознала актрису Еву Лонгорию и немного изменим его:
Слева — исходное фото, справа — маска, наложенная на него, посредине — результат. Теперь алгоритм его не узнает, хотя для нас очевидно, что это та же самая женщина. Но и этот способ можно применить только если у вас есть доступ к архитектуре нейросети.
Как регулируют распознавание лиц в разных странах?
В ЕС и Великобритании действует самый жесткий регламент по защите данных — GDPR. Он запрещает любое посягательство на личную жизнь человека со стороны частных компаний и госорганов без его согласия. Это касается и систем распознавания лиц.
В США нет единого закона, который бы регулировал использование технологии. Ближе всех к европейскому GDPR по сути стоит Закон о конфиденциальности потребителей в Калифорнии (CCPA). В некоторых штатах действуют ограничения для полиции и других органов — например, в Орегоне, Вашингтоне, Техасе, Иллинойсе, Массачусетсе, Вермонте.
ИТ-корпорации настаивают на принятии законов на федеральном уровне. В 2020 году IBM объявила о прекращении продаж своих продуктов для распознавания лиц. Вслед за ними Amazon и Microsoft временно приостановили сотрудничество с госорганами в этой области. А в июле правозащитники из ACLU подали иск против ClearviewAI за нарушение закона штата Иллинойс о конфиденциальности биометрической информации.
В Китае распознавание лиц используют повсеместно, и у госорганов есть неограниченные возможности по применению технологии. С недавних пор биометрия является обязательной даже при регистрации телефонного номера.
В России есть закон о защите персональных данных. Но он направлен, в первую очередь, на сохранность самих данных: их необходимо защищать, чтобы предотвратить утечки. Права самих граждан, чьи данные используются, никак не защищены. Безопасность биометрических данных в частной сфере пока не регулируется, но у властей с 2019 года есть право использовать распознавание лиц без согласия граждан.
Какое будущее у этой технологии?
Читайте также: