ISSN: 2167-7670
Панайотис Мелетис
Целостное понимание сцены является жизненно важным компонентом беспилотных автомобилей будущего. Крайне важно, чтобы эти автомобили могли понимать и интерпретировать свое окружение для безопасного вождения. Это требует точного обнаружения окружающих объектов (транспортных средств, людей, объектов дорожного движения, природы), различения управляемых и неуправляемых поверхностей (дорога, тротуар, здания) и сегментации статических и динамических объектов в высокоуровневые семантические классы. В прошлом компьютерное зрение решало эти проблемы по отдельности из-за их сложности и высоких вычислительных потребностей. В настоящее время системы на основе глубокого обучения обучаются на вручную аннотированных наборах данных для решения этих проблем, однако они сталкиваются с множеством проблем: 1) количество аннотированных семантических классов ограничено доступными наборами данных до нескольких десятков, что уменьшает разнообразие распознаваемых объектов, 2) плотность аннотаций обратно пропорциональна размеру наборов данных, что делает огромные наборы данных несовместимыми для точной сегментации, и 3) обнаружение и сегментация решаются по отдельности, что приводит к более высоким требованиям к памяти и вычислительным ресурсам. Наше исследование решает вышеупомянутые проблемы, предлагая новые методы для: 1) обучения одной сети на нескольких наборах данных с различными семантическими классами и различными типами аннотаций, и 2) одновременного решения с одной сетью проблем обнаружения и семантической сегментации. Мы развернули эти сети в нашем беспилотном автомобиле с производительностью в реальном времени. Мы демонстрируем самые современные результаты вместе с пятикратным увеличением числа распознаваемых классов, и мы эффективно интегрируем обнаружение и сегментацию в единую систему паноптической сегментации, делая важные шаги на пути к достижению целостного понимания сцены.