Журнал "Программная инженерия"
Теоретический и прикладной научно-технический журнал
ISSN 2220-3397

Номер 3 2018 год

DOI: 10.17587/prin.9.123-131
УДК: 004.75
Хранение и обработка данных спутниковых мульти- и гиперспектральных снимков на основе формата Apache Parquet
B. П. Потапов, д-р техн. наук, проф., зам. дир., e-mail: potapov@ict.sbras.ru, C. Е. Попов, ст. науч. сотр., e-mail: popov@ict.sbras.ru, А. Ю. Ощепков, аспирант, e-mail: aosivt@gmail.com, Федеральное государственное бюджетное учреждение науки Институт вычислительных технологий Сибирского отделения Российской академии наук, г. Новосибирск

Рассмотрены способы хранения и алгоритмы последующей обработки данных мульти- и гиперспектральных спутниковых снимков, которые реализуются механизмами распределенных вычислительных систем, входящих в экосистему Apache Hadoop. Отличительной особенностью представленных в работе решений является способ хранения данных дистанционного зондирования. Такой способ позволяет снизить объем хранимой информации за счет архивации посредством технологии Apache Parquet, а также дает возможность работы с данными с использованием запросов Spark SQL. Приведены решения конкретных задач на примере вычисления нормализованных вегетационных индексов спутниковых снимков космических аппаратов Ресурс-П и Sentinel-2A на базе фрэйворков Apache Spark и Apache Flink.

Ключевые слова: Apache Parquet, Apache Avro, Apache Spark, Apache Flink, Java, GDAL, распределенные информационные системы, сжатие данных, мульти- и гиперспектральные спутниковые снимки
Стр. 123–131