ETL: Обработка и трансформация данных в AW BI¶
Настоящая документация описывает принципы работы, архитектуру и функциональные возможности подсистемы обработки и трансформации данных в AW BI.
Источники данных¶
-
Базы данных
Подключение к популярным СУБД:
- PostgreSQL
- Greenplum
- MySQL
- Oracle
- Miscrosoft SQL Server
- Firebird
- MariaDB
- Clickhouse
- Vertica и др.
Возможность подключения СУБД через JDBC-драйвера.
-
Файловые источники
Поддержка основных форматов хранения данных в файлах:
- excel (xlsx, xlsb, xls, odf, ods)
- csv и tsv
- json и jsonl
- xml
- qcd
- parquet
Поддержка архивов:
- tar
- gz
- zip
- rar
- 7z.
Загрузка файлов в AW BI, а также подключение внешних файлов и папок по ссылкам:
- s3
- hdfs
- samba (общие папки в windows)
- sftp
- ftp(s)
- yandex disk
- webdav
-
OData источники + 1C
Подключение к системам, которые предоставляют доступ к данным по протоколу OData.
Поддержка подключения к 1С по автоматический REST-интерфейсу (OData) из коробки.
SQL запросы к OData источникам.
-
Пользовательские коннекторы
Открытый API для подключения пользовательских (кастомных) коннекторов.
Пример коннектора с открытым исходным кодом и тестер API кастомного коннектора.
Трансформация данных¶
-
ETL-скрипты
Кастомизация процесса обработки данных модели с помощью ETL-скриптов на языке Python.
-
ETL-блоки
Технологии¶
-
Python
Краткий справочник по языку Python
-
Spark
Основные операции в PySpark для кастомизации процесса трансформации данных модели