Комплексное зонирование территории с использованием пространственных потенциалов (на примере города Нижнего Новгорода)
Гаврилов А.П., Безруков В.Б.,Тарарин А.М.
Доклад посвящен задаче комплексного зонирования территорий с нахождением областей, близких по совокупности параметров. Необходимость зонирования территории возникает при решении задач планирования развития территории, выполнения работ по кадастровой оценке и для иных задач управления территориями. Такое зонирование территорий представляет собой кластеризацию территорий, которую можно использовать как для классификации территорий, так и для задач массовой оценки, рассчитывая, например, параметры модели стоимости объекта в каждом кластере и “сшивая” ценовые поверхности на границах кластеров.
Приемы обработки и анализа большого количества коррелирующей информации за последние годы сложились и один из таких приемов – метод главных компонент, или в общем случае метод главных кривых.
Кластеризация территорий.
Традиционно при большом количестве разнообразной информации классификации и анализа можно использовать метод главных компонент, а для самой кластеризации, например, метод K-means. Эта задача хорошо решается для непространственных объектов, для неких перечней параметров, таблиц со множеством характеристик. Привязка алгоритмов кластеризации к территориям имеет свои особенности. В этой работе мы расскажем о результатах зонирования территории большого города с использованием большого перечня информации о территории.
Обработка большого количества коррелирующей информации при наличии статистических сборников о географических объектах, например, о районах области или города, с массой информационных - таблиц классика статистических методов . Но какая статистика может быть найдена для точки на территории города? Эту информацию нужно каким-то образом получить. Выход в построении функций потенциалов объектов влияния и вычислении значения этих потенциалов в точках. Это и есть та информация, которая заменит информацию из статистических сборников. Вопрос в том, что это за функции и позволят ли они нам определить связные области на карте.
Для процесса построения зон было использовано два варианта расчета характеристик поверхности территории:
Вариант 1. Используются предварительно рассчитанные для перечня точек территории интегральные значения потенциалов разной природы, являющиеся суммой потенциалов объектов от факторов влияния (имеющие явный аналитический вид). Главными требованиями к таким потенциалам является наличие высокой корреляции со стоимостью объектов и убывание при удалении от факторов влияния. Так как потенциалы имеют гладкие пространственные градиенты, мы получим хорошо интерпретируемые связанные области на карте. Таким образом при решении задачи кластеризации для каждой точки сетки готовятся вектора, являющиеся суммой рассчитанных потенциалов определенного фактора по всей территории.
Вариант 2. Используется описание влияния факторов для перечня точек на поверхности не в виде потенциалов определенной формы, а в виде неявно заданных потенциалов в табличном виде. Для каждой точки территории (сетки точек) рассчитывается сумма мер объектов от определенных факторов влияния, попадающих в кольца, находящихся на различных расстояниях от этих точек. Для точечных объектов это количество объектов в кольце, для линейных – длины участков объектов в кольце, для площадных – площади объектов в кольце. Производится отбор колец для каждого фактора с высокой корреляцией со стоимостью объектов. Для кластеризации территории в этом варианте для каждой точки сетки готовятся вектора, являющиеся количеством суммы меры определенного фактора на определенном интервале расстояний для данной точки.
Почему возможен вариант 2 – учет потенциалов влияния в точке без явно заданной его (потенциала) аналитической зависимости, а лишь количество факторов влияния на разных расстояниях от точки? Казалось бы, вариант 1 понятнее, суммируется влияние от всех факторов территории. Просматривается явная аналогия с физическими задачами, потенциал в точке получается от суммирования потенциалов на плоскости от источников различной формы и интенсивности. Но природа источника (фактора), влияющего на характеристики территории, сложнее источника тепла в задаче матфизики. И здесь необходимо небольшое пояснение. Кластеризация ведется на основе первых главных компонент, получаемых из первично рассчитанных факторов методом главных компонент (principal cojmponent analis) , и включающих в себя почти всю дисперсию изменяемости факторов по территории (>95%). Соответственно, есть блок приведения первичных переменных к единому масштабу. Поэтому, если в качестве первичных переменных берется значения потенциала в разных кольцах, их разница в относительной величине (например, что влияет больше на описание территории в данной точке – торговый центр на расстоянии 100м или 1000м), а значит и форма потенциала не влияет на результат расчета.
Отбирая факторы, коррелирующие с разными наблюдаемыми величинами, например, с демографическими, социальными, другими аспектами территории, мы получим зоны разной конфигурации, однородные для этих аспектов.
Последовательность этапов для выполнения задачи факторного анализа при построении ценовой поверхности территории.
Задачей ставилась реализация следующей схемы:
1. Вариант 1. Собрать как можно больше видов коррелирующей с ценой (в общем случае с анализируемым явлением) информации. Из различных источников информации выбираются факторы разной природы, имеющие территриальную привязку. Информация о факторах расставляется на поверхности города в виде векторов на узлах сетки (рис. 1). Информация представляется в виде разного вида потенциалов от объектов влияния, распределенных по поверхности населенного пункта. Эта задача похожа на расчет тепловых полей на плоскости. Рассчитывались следующие варианты потенциала с радиусом убывания на “0” на расстоянии 500, 1000, 2000, 4000, 8000 метров, логарифмический потенциал, ближайшее расстояние от фактора. Факторы есть точечные, линейные и площадные, для каждого свой алгоритм расчета потенциала, учитывающий геометрические размеры и конфигурацию объектов. Для расчета был использован алгоритм быстрого цифрового сглаживания поверхности (автор алгоритма Глухов Г.Н.)
Вариант 2. Информация представляется в виде количества меры факторов, находящихся на разных расстояниях от узла для множества факторов (рис 2).
2. Отобрать максимально значимые факторы по принципу максимального по модулю коэффициента корреляции с рассчитанной на какой то момент ценой (Табл.1).
3. Методом главных компонент (PCA) убрать корреляцию между разного рода информационных составляющих, снизив тем самым размерность задачи. В PCA мы переходим к новым переменным – компонентам, с расчетом изменяемости (дисперсии) каждой компоненты и упорядоченных по убыванию этих дисперсий. (рис 3, 4)
4. Произвести по первым нескольким компонентам (>95% общей дисперсии ) кластеризацию территории.
Кластеризация закончена. Зоны построены в виде имени кластера для каждой точки сетки. (рис. 5,6.7).
Далее, для каждого найденного кластера производим построение теоретической ценовой поверхности (рис.8), пользуясь информацией о сделках. (Реальная ценовая поверхность рис. 9)
Найденные параметры для главных компонент подставляются в объекты оценки для нахождения базовой стоимости 1 кв. метра жилой площади. Мы решаем задачу нахождения аналитической зависимости цены от значений главных компонент (являющимися интегральным показателем территории населенного пункта) и условиями сделки - характеристикам строения, характеристикам квартиры и получаем, таким образом, ценовую поверхность города.
Использование результатов факторного анализа для расчета ценовой поверхности города.
1. Используем эту модель для расчета ценовой поверхности в которой невелика информация о сделках, так как достаточно небольшого числа компонент (3-10) для описания территории и соответственно требуется небольшое количество сделок по территории города для нахождения аналитической зависимости.
2. Знание теоретической зависимости цены от координаты населенного пункта дает возможности проанализировать необъясняемые моделью ценовые скачки, тем самым уточнив модель.
Реализация идеи. Сложности реализации.
1. Долгий расчет потенциалов для каждого из 7 потенциалов в варианте 1 и 10 интервалов расстояний в варианте 2. Рассчитывать и площадные и линейные объекты очень трудоемко, так как мы разбиваем объекты на мелкие детали и занимаемся интегрированием пространственной информацию. Приходится выбирать компромиссный вариант между точностью и быстротой.
2. Для Нижнего Новгорода есть особенность деления города на 2 части. Верхняя, нижняя часть города, весь город – имеют разные наборы наилучших для расчета цены факторов. Наверху исторические территории, Кремль, множество охранных зон. В нижней части города метро, железная дорога. Выбран вариант факторного и кластерного анализа отдельно по нижней и по верхней части города.
3. Получаемые кластеры могут не иметь достаточного количества аналогов для расчета модели. Поэтому появляется дополнительная задача укрупнения кластеров.
4. Аналогов строений 10 % от общего числа строений и они распределены неравномерно.
Достигнутые результаты.
1. Разработана структура хранения информации. Принято решение промежуточную и конечную информацию о рассчитанных потенциалах хранить в узлах сетки, накинутой на город с узлами, соответствующими узлам тайлов космоснимков масштаба 18 (~85 м). Для каждого потенциала своя таблица. Для результата отдельная таблица. Такой подход позволит визуализировать стандартным способом, например при помощи API Google, результаты зонирования. Введение сетки вместо дислокации объектов оценки позволит оценить всю территорию целиком, независимо от застройки
2. Придуман и реализован алгоритм расчета потенциалов от примитивов: точка, линия, полигон. Для полигона и линии при расчете потенциала идет суммирования от мелких фрагментов (реализован принцип интегрирования). Расчет идет по списку объектов влияния, списку потенциалов, интервалов расстояния от узлов сетки в варианте 2. Это наиболее трудоемкий этап. От хорошей его реализации зависит как время расчета (несколько дней), так и качество результатов
3. Реализован расчет потенциала следующих типов для варианта 1: Логарифм расстояния, расстояние до ближайшего объекта, различные варианты потенциалов для быстрого цифрового сглаживания. На сегодня достаточно хорошо себя показали потенциал в виде логарифма, расстояние до ближайшего, быстрое цифровое сглаживание с характерным расстоянием 4000 – 8000 метров). Для варианта 2 реализован расчет меры объектов влияния по кольцам.
4. Реализован быстрый алгоритм отбора факторов по их корреляции с ценой (кадастровой или рыночной) объекта.
5. Реализован метод главных компонент для сжатия информации о потенциалах по точкам сетки. Для 50 000 точек сетки города и 50 групп объектов влияния. Время расчета менее 5 мин.
6. Реализована кластеризация методом К-means при ручном задании количества кластеров. Время расчета менее 5 мин. Кластеризация идет по первым 5 главным компонентам. Полученные результаты хорошо интерпретируются.
7. Реализован метод укрупнения (слияния) кластеров, для выполнения некоторого условия. Например требования минимального количества объектов аналогов или объектов оценки в кластере.
8. Реализован метод нахождения аналитических зависимостей цены от главных компонент в каждом кластере отдельно, и “сшивка” полученных аналитических зависимостей на границах кластеров.
9. Реализована программа визуализация как полученных результатов кластеризации, так и рассчитанных потенциалов.
Программная реализация на Delphi 6. Для хранилища данных использована СУБД MySQL.
Выводы.
Данные методы позволяют производить анализ территории с использованием большого количества разнородной информации. Чем больше информации, тем качественнее конечный результат.
Зонирование территории дает достаточно хороший результат без оценки этой территории.
Результат анализа территории без уточнения вида потенциала влияния от факторов дает более детализированную картину полученных главных компонент, кластеров, теоретической ценовой поверхности территории.
Таким образом, удалось реализовать интерпретируемое зонирование территорий с четким алгоритмом подготовки информации, расчета и получения результатов.