Перейти к содержанию

Настройка рабочего места для разработки etl-блоков

Для разработки etl-блоков необходимо:

  • Установить Python;
  • Установить Java;
  • Настроить виртуальное окружение для использования в вашей IDE.

Установка Python

Скачайте и установите Python последней версии. Если у вас уже есть установленный Python, то убедитесь, что его версия не ниже версии 3.8.

При установке Python обязательно установите флажок "Add python.exe to PATH".

Возможная несовместимость Windows-версий Python

Если вы установили самую последнюю версию Python, и при запуске тестов у вас возникает ошибка org.apache.spark.SparkException: Python worker exited unexpectedly (crashed), то попробуйте установить Python версии пониже. Например, 3.11.

Убедитесь, что вместе с Python у вас установлен пакет python-venv (или python3-venv). Он понадобится для ручного создания виртуального окружения. Например, в Ubuntu установка выполняется так:

$ sudo apt install python3-venv

Установка Java

Для работы Spark на вашем компьютере необходимо установить Java.

Скачайте и установите Java с официального сайта https://java.com/download

После установки Java зайдите в "Панель управления" -> "Система" - > "Дополнительные параметры системы" и добавьте переменную среды PYSPARK_PYTHON=python

В всех популярных дистрибутивах Linux, пакеты Java JRE уже есть в официальных репозиториях и могут быть установлены с помошью стандартного пакетного менеджера операционной системы. Например, в Ubuntu установка выполняется командой

$ sudo apt install default-jre

Виртуальное окружение

Для создания виртуального окружения выполните команду

$ python3 -m venv .venv

В текущей папке появится подпапка .venv с файлами виртуального окружения.

Далее, нужно активировать окружение и обновить pip

$ . .venv/bin/activate
(.venv) $ pip install --upgrade pip

И далее при активированном виртуальном окружении выполнить установку клиентской библиотеки Analytic Workspace

(.venv) $ pip install "analytic-workspace-client[dev]~=1.29.*"

Для разработки рекомендуется использовать IDE Visual Studio Code (vscode), в которой все операции с настройки виртуального окружения максимально упрощены. Ниже приведена последовательность действий по настройке vscode.

Настройка Visual Studio Code

Для настройки виртуального окружения и дальнейшей разработки блоков рекомендуется воспользоваться Visual Studio Code.

После установки vscode, запустите его и откройте папку с вашим блоком (или папку репозитория ваших блоков).

Далее, откройте в редакторе любой .py файл из открытой папки. Vscode предложит установить необходимые работы python-проектов расширение.

После установки расширения кликните в правом нижнем углу окна vscode на выбранную по умолчанию версию Python.

В появившемся окне выберите "Create Virtual Environment...".

В следующем окне выберите тип виртуального окружения "Venv".

И далее выберите версию Python, которая будет использоваться в виртуальном окружении.

После успешного создания окружения, в открытой папке появится подпапка .venv.

И в правом нижнем углу будет указано, что vscode для открытой папки исспользует только что созданное окружение.

Осталось установить в виртуальное окружение клиентскую библиотеку Analytic Workspace. Для этого откройте терминал (меню Terminal -> New Terminal) и выполните там команду

$ pip install analytic-workspace-client[dev]