В Сколтехе разработали новый метод обучения алгоритмов компьютерного зрения на ограниченных наборах данных
Как сообщает naked-science.ru, ученые Сколтеха разработали метод обучения алгоритмов компьютерного зрения, повышающий точность обработки данных при наличии ограниченных исходных выборок. Благодаря новому методу решение различных задач дистанционного зондирования станет проще не только для компьютеров, но в перспективе и для пользователей данных.
Результаты исследования опубликованы в журнале Remote Sensing. Методы компьютерного зрения и машинного обучения уже давно используются при решении задач экологического мониторинга: с наиболее трудоемкими из них, которые к тому же подвержены человеческим ошибкам, алгоритмы справляются с большой легкостью. Однако проблема в том, что нейронную сеть сначала необходимо обучить, чтобы она могла, например, успешно различать породы деревьев в лесных массивах.
Существенное отличие спутниковых изображений от обычных фотографий, десятки которых можно ежеминутно делать на смартфон, заключается в том, что за один проход спутника можно получить не так много кадров, при этом не всегда с достаточным разрешением. Кроме того, на качество съемки влияет облачность. Получение достаточного количества хорошо размеченных изображений, пригодных для обучения нейронной сети, может оказаться крайне сложной задачей, для решения которой ученые и инженеры используют, в частности, методы аугментации изображений.
«Нейронная сеть – очень мощная система, требующая использования больших наборов обучающих данных для получения качественных результатов. К сожалению, при решении практических задач мы зачастую сталкиваемся с проблемой нехватки данных, поэтому специалистам по их обработке приходится применять различные методы, чтобы искусственно увеличивать исходные выборки. Одним из самых популярных методов является аугментация данных – преобразование изображений для повышения вариативности выборки», − рассказывает один из авторов статьи, аспирант Сколтеха Сергей Нестерук.
Профессор Сколтеха Иван Оселедец и его коллеги разработали метод аугментации данных MixChannel, который можно применять к мультиспектральным спутниковым изображениям. В его основе лежит принцип подстановки данных: на место полосы в исходном изображении подставляется полоса полученного в другое время изображения того же участка земной поверхности.
«Использование метода аугментации данных в случае с обычными изображениями RGB не представляет особой трудности, а вот эффективного средства аугментации сложных мультиспектральных данных до сих пор не было. MixChannel – принципиально новый метод аугментации, предназначенный именно для работы с мультиспектральными данными», − отмечает соавтор статьи, аспирант Сколтеха Светлана Илларионова.
Для проверки работы нового метода ученые использовали изображения бореальных хвойных и лиственничных лесов Архангельской области, полученные со спутника Sentinel-2. На них исследователи обучали сверточную нейронную сеть классифицировать данные типы лесов. «Прямой метод обучения классификационной модели на основе сверточной нейронной сети заключается в использовании набора спутниковых изображений заданной территории, полученных в течение активного вегетационного периода.
Для создания обучающего набора данных используется фрагмент, выбранный случайным образом из крупного изображения, – отмечают авторы. – Однако, если проверять полученную модель на изображении, полученном в день, который не вошел в обучающий набор, точность модели может резко снижаться».
Поскольку над территорией Архангельской области часто присутствует облачность, пригодных для использования спутниковых снимков оказалось очень мало – всего шесть, но даже при такой ограниченной выборке новый метод по результатам тестирования на трех нейронных сетях превзошел самые современные решения. Как подчеркивают авторы, разработанный ими метод можно применять в сочетании с другими методами аугментации, что позволит получать еще больше обучающих данных.
Новый метод целесообразно использовать и для решения других задач, связанных с применением данных дистанционного зондирования Земли, в частности, для экологических исследований, точного земледелия и любых других задач, где имеется ограниченное количество изображений со средним пространственным разрешением. В дальнейшем ученые планируют доработать свой метод, обеспечив возможность обработки изображений различных типов земного покрова и более обширных территорий с различными природными условиями.
В исследовании приняли участие ученые из Космического центра, Центра по научным и инженерным вычислительным технологиям для задач с большими массивами данных (CDISE) и Лаборатории цифрового сельского хозяйства (DAL) Сколтеха.