Компьютерра: обработка "больших данных" — бесполезность может быть обманчива
На сайте "Компьютерры" опубликована статья О.Парамонова "Британский стартап превратил тысячи смартфонов в ценный источник метеоданных". В ней рассказывается об особенностях работы с "большими данными". Полностью с материалом можно ознакомиться по ссылке.
В огромных массивах информации нередко скрываются закономерности, которые можно различить лишь при помощи современных технологий. У этой идеи, на которой держится вся концепция «больших данных», есть интересное следствие: бесполезность некоторых источников информации может быть обманчивой. В британском стартапе OpenSignal убедились в этом на собственном опыте.
«Один из краеугольных камней философии „больших данных“ — это понимание того, что чем больше данных, тем лучше, — пишет в блоге журнала Scientific American Сэмюэл Джонстон, один из сотрудников британского стартапа OpenSignal. — Совсем не факт, что вы будете знать заранее, для какой цели потребуется информация, которую вы копите. Это станет ясно лишь после того, как появится возможность изучить её и сличить с другими наборами данных».
Иными словами, в идеале нужно вести себя подобно заядлому барахольщику: «тащить» к себе любую информацию и не выбрасывать ничего. Кто знает, вдруг «бесполезные» измерения коррелируют с показателем, представляющим очевидную практическую ценность?
Основная специализация OpenSignal — сбор информации о покрытии беспроводных сетей. Специальные приложения для iOS и Android, которые разработала компания, сообщают на центральный сервер о перепадах мощности сигнала, которые фиксируют аппараты пользователей. На основе этого в OpenSignal составляют подробнейшую карту, отмечая на ней сотни тысяч сотов и больше миллиарда точек доступа Wi-Fi, располагающихся по всему миру, в том числе и в России. Компания планирует зарабатывать на продаже операторам данных о качестве связи.
Карта качества сигнала мобильной связи на Юго-Востоке Москвы, по данным OpenSignal
Смысл приложений OpenSignal в том, чтобы следить за беспроводными сетями и качеством связи, но это не единственное, что они делают. Они учитывают показания и других датчиков, встроенных в телефон. В частности — датчика нагрева батареи.
Никакой связи между качеством сигнала и температурой батареи нет и, скорее всего, быть не может. Это совершенно бесполезные данные, но создатели OpenSignal решили сохранить их. Вдруг пригодятся? И они были правы. При ближайшем рассмотрении выяснилось, что усреднённые показания датчика смартфона коррелируют с измерениями температуры, сделанными на ближайшей метеостанции.
В OpenSignal связались со специалистами из Королевского метеорологического общества Нидерландов и вместе с ними придумали алгоритм, позволяющий с приличной точностью пересчитывать температуру батарей в температуру воздуха.
Отсюда — один шаг до следующей идеи. Компания разработала новое приложение — WeatherSignal. Если пользователи приложения OpenSignal совместными усилиями составляли самую точную карту покрытия беспроводных сетей, то пользователи WeatherSignal делают то же самое для климатической информации.
Каждый смартфон, на который установлено приложение, фактически представляет собой передвижную метеостанцию, которая непрерывно измеряет состояние окружающей среды. В ход идут все возможные средства. Если есть датчик температуры батареи — WeatherSignal будет использовать его. Если есть датчик освещённости — его тоже подключат. А некоторые смартфоны — и вовсе настоящий клад для метеоролога. В Galaxy S4, например, есть барометр и даже гигрометр (измеритель влажности). Разумеется, приложение не упускает этой информации.
С такой точностью климат в городах не определяли никогда. Сейчас стартап пытается найти наиболее эффективный способ использования этих уникальных данных. В OpenSignal уже сотрудничают с Лабораторией климата Бирмингемского университета, предоставляют результаты измерений метеорологам из Вашингтонского университета и налаживают связи с британским эквивалентом российского Гидрометцентра.