На сайте GIS-lab размещена статья о базе географических названий GeoNames. Приводим выдержки из нее. Полный текст доступен по ссылке: http://gis-lab.info/qa/geonames.html
GeoNames - свободно распространяемая географическая база данных имен объектов (топонимики). Лицензия - Creative Commons Attribution. На настоящий момент содержит более 260 тысяч точечных объектов по территории России и более чем 8 миллионов по всему миру. Все объекты разделены на 9 классов (однобуквенный код) или 645 подклассов (2-5 буквенный код):
- административное деление (A)
- гидросеть (H): каналы, заливы, озера, колодцы, моря
- территории (L): парки, поля, военные базы, охраняемые территории
- населенные пункты (P)
- дорожная сеть (R)
- точки (S): здания, банки, мосты, остановки транспорта, пересечения, фермы, заводы
- природные объекты (T): пляжи, цирки, пики, острова
- подводные объекты (U): каньоны, впадины, рифы
- леса (V): отдельные деревья, массивы, плантации, степные участки.
Получение данных
Данные доступны бесплатно для прямого скачивания в виде текстовых файлов, кодировка UTF-8, На момент написания данной статьи: размер запакованного файла 7.5 Мб, размер распакованого файла 31 Мб, генерируются из основной базы данных ежедневно.
Также возможно использование веб-сервисов GeoNames. GeoNames предоставляет целый ряд веб-сервисов, позволяющих работать с его данными и получать результаты в форматах XML и JSON. Каждый объект базы GeoNames имеет свой стабильный URI.
Помимо англоязычных названий, GeoNames собирает данные на разных языках, сведения о высоте, населении и т.п. из различных источников. Все координаты хранятся в WGS84 (World Geodetic System 1984). Пользователи могут редактировать и добавлять новые названия с использованием вики-интерфейса.
Данные на РФ
Срез данных на 21 марта 2009 г. содержит 263821 объекта на территории РФ. Из них:
- 160197 названий населенных пунктов (PPL)
- 34601 названий ручьев (STM)
- 11699 названий озер (LK)
- 6456 названий высот (MT)
- 4764 названий ЖД станций (RSTN)
- и т.д.
Из 160197 объектов типа населенный пункт, альтернативное (включая кириллическое, т.е. реально названий на кириллице меньше) название имеют 77995 (49%) объектов. Данные о населении имеют 4011 пунктов (3%).
Недостатки
Главным недостатком данных является использование в качестве источника топонимики картографической базы Google, что ведет к распространению копирайтов Google и на эти данные. В связи с этим данные не рекомендуется использовать в таких проектах, как OpenStreetMap.
К другим недостаткам можно отнести:
- отсутствия возможность отфильтровать альтернативный названия на латинице от кириллических
- большое количество ошибок и устаревшей информации