Перейти к содержанию

ETL: Обработка и трансформация данных в AW BI

Настоящая документация описывает принципы работы, архитектуру и функциональные возможности подсистемы обработки и трансформации данных в AW BI.

Источники данных

  • Базы данных

    Подключение к популярным СУБД:

    • PostgreSQL
    • Greenplum
    • MySQL
    • Oracle
    • Miscrosoft SQL Server
    • Firebird
    • MariaDB
    • Clickhouse
    • Vertica и др.

    Возможность подключения СУБД через JDBC-драйвера.

  • Файловые источники

    Поддержка основных форматов хранения данных в файлах:

    • excel (xlsx, xlsb, xls, odf, ods)
    • csv и tsv
    • json и jsonl
    • xml
    • qcd
    • parquet

    Поддержка архивов:

    • tar
    • gz
    • zip
    • rar
    • 7z.

    Загрузка файлов в AW BI, а также подключение внешних файлов и папок по ссылкам:

    • s3
    • hdfs
    • samba (общие папки в windows)
    • sftp
    • ftp(s)
    • yandex disk
    • webdav
  • OData источники + 1C

    Подключение к системам, которые предоставляют доступ к данным по протоколу OData.

    Поддержка подключения к 1С по автоматический REST-интерфейсу (OData) из коробки.

    SQL запросы к OData источникам.

  • Пользовательские коннекторы

    Открытый API для подключения пользовательских (кастомных) коннекторов.

    Пример коннектора с открытым исходным кодом и тестер API кастомного коннектора.

Трансформация данных

Технологии

  • Python

    Краткий справочник по языку Python

  • Spark

    Основные операции в PySpark для кастомизации процесса трансформации данных модели