Знакомьтесь: Синтия, виртуальная школа для автопилота
Системы автопилота потихоньку начинают становиться обыденностью: Мерседесы уже умеют самостоятельно ползти в пробках, Теслы сами едут по шоссе (конечно, требуя присмотра от водителя), а машины попроще худо-бедно способны удерживаться в пределах полосы. В BMW между тем обещают к 2021 году выпустить автомобиль с полноценным автопилотом, который позволит водителю вовсе не следить за дорогой, — правда, работать он будет только на шоссе. Все потому, что к езде в городских условиях системы автоматизации пока не готовы: слишком тяжело их «обучить» ориентироваться в хаотичном и малопредсказуемом уличном трафике (например, «пробководитель» на Мерседесе Е-класса в городе отключается).
При создании автопилота систему искусственного интеллекта учат распознавать разные классы объектов: автомобили, пешеходов, дорожные знаки, бордюры и так далее. Основываясь на этой информации, компьютер должен принимать решения: разгоняться, тормозить, сворачивать, менять полосу... И если на шоссе объекты и закономерности их движения достаточно примитивные, то в городе все намного сложнее. Особая трудность —обработка нестандартных ситуаций, будь то движущиеся не по правилам машины экстренных служб, перегородивший полосу развозной грузовик, вставший на бордюре автобус или ремонт дороги.
Огромных трудозатрат требует одна только подготовка изображений, на примере которых обучают автоматику. Скажем, в рамках проекта CityScapes концерна Daimler по созданию библиотеки образов вручную обработали около двадцати тысяч изображений улиц, разделив попавшие на фото объекты на 30 классов. В израильской компании MobilEye (той самой, что недавно подписала соглашение с BMW) исключительно этой задачей занимаются свыше 600 сотрудников, а к концу года их штат увеличат до тысячи!
Команда Германа Роса из организации Computer Vision Foundation при Автономном университете Барселоны предложила упростить процедуру обучения, дополнив ее синтезированными изображениями. Для этого айтишники построили свой виртуальный город, взяв за основу обычный 3D-движок Unity (ему уже более десяти лет, и на его базе созданы десятки игр для компьютеров и консолей). Ведь в виртуальной реальности все объекты можно разбить на категории превентивно, в автоматическом режиме.
Изображения и видеозаписи для обучения получают, обсчитывая 3D-сцены с двух «виртуальных камер», которые установлены на движущейся по городу машине. При этом можно выбрать любое время суток и погоду. Библиотеку полученных таким образом записей и фотографий ее создатели назвали Synthia (Synthetic collection of Imagery and Annotations of urban scenario).
«Искусственный интеллект уже неплохо различает пешеходов и автомобили. Но распознавание тротуаров и светофоров до сих пор проблематично, — говорит Герман Рос. — Все затрудняется еще и тем, что тротуары могут сильно различаться даже в пределах одного города, не говоря уж о разных странах. Но мы можем сгенерировать изображения с любым сочетанием элементов, создать любой сложный случай». Судя по всему, это лишь вопрос времени.
В лаборатории проверяли восемь разных алгоритмов автоматического распознавания, работавших с изображениями низкого разрешения (240x180 пикселей). Разработчики уверяют, что добавление синтетических изображений при обучении искусственного интеллекта привело к повышению доли успешно распознаваемых объектов в реальной жизни с 45 до 55%. Правда, есть существенная оговорка: коммерческий софт подобного рода априори работает с изображениями более высокого качества, потому и процент успеха у него обычно выше. Впрочем, Герман Рос считает, что и в этом случае тенденция к повышению качества раcпознавания сохранится.
Все данные, сгенерированные на Синтии в ходе экспериментов, находятся в свободном доступе для использования в некоммерческих целях. Рос также упомянул о соглашении с неким автопроизводителем, совместно с которым вскоре будет скорректировано расположение «виртуальных камер», — вероятно, с прицелом на установку камер на настоящей конкретной модели этого самого неназванного производителя.