Airflow в стиральной машине это
Однако с увеличением данных и усложнением аналитических задач увеличивается и количество ETL-процессов, которые необходимо планировать, отслеживать и перезапускать в случае сбоев — возникает необходимость в оркестраторе.
В статье расскажем об эффективном Open-Source инструменте Apache Airflow, который помогает в управлении сложными ETL-процессами и отлично сочетается с принципами Cloud-Native приложений.
Основные сущности AirFlow
Процессы обработки данных, или пайплайны, в Airflow описываются при помощи DAG (Directed Acyclic Graph). Это смысловое объединение задач, которые необходимо выполнить в строго определенной последовательности согласно указанному расписанию. Визуально DAG выглядит как направленный ациклический граф, то есть граф, не имеющий циклических зависимостей.
В качестве узлов DAG выступают задачи (Task). Это непосредственно операции, применяемые к данным, например: загрузка данных из различных источников, их агрегирование, индексирование, очистка от дубликатов, сохранение полученных результатов и прочие ETL-процессы. На уровне кода задачи могут представлять собой Python-функции или Bash-скрипты.
За реализацию задач чаще всего отвечают операторы (Operator). Если задачи описывают, какие действия выполнять с данными, то операторы — как эти действия выполнять. По сути, это шаблон для выполнения задач.
Особую группу операторов составляют сенсоры (Sensor), которые позволяют прописывать реакцию на определенное событие. В качестве триггера может выступать наступление конкретного времени, получение некоторого файла или строки с данными, другой DAG/Task и так далее.
В AirFlow богатый выбор встроенных операторов. Кроме этого, доступно множество специальных операторов — путем установки пакетов поставщиков, поддерживаемых сообществом. Также возможно добавление пользовательских операторов — за счет расширения базового класса BaseOperator. Когда в проекте возникает часто используемый код, построенный на стандартных операторах, рекомендуется его преобразование в собственный оператор.
Примеры операторов приведены ниже.
Наряду с операторами в последних версиях AirFlow появилась возможность оформления задач в виде TaskFlow — путем объединения задач в цепочки для передачи выходных данных вышестоящим задачам и операторам.
DAG для этого примера может состоять из трех узлов:
Каждому из них будет соответствовать задача, а за ее выполнение, в свою очередь, будет отвечать оператор. Перечень задач и возможных операторов для их реализации отражает таблица ниже.
Имя (task_id) | Задача (Task) | Возможный оператор (Operator) |
check_mysql_for_raw | Python-функция для проверки данных в БД MySQL | SqlSensor |
load_to_hive | Python-функция для выполнения агрегации данных и их сохранения в БД Apache Hive | HiveOperator |
send_email | Python-функция для отправки электронного письма | EmailOperator |
Еще одна важная концепция, лежащая в основе AirFlow — это хранение информации о каждом запуске DAG в соответствии с указанным расписанием. Так, если в нашем примере указать, что DAG должен запускаться начиная с 07.05.2021 00:00:00 раз в сутки — AirFlow будет хранить информацию о запуске экземпляров DAG для следующих временных отметок: 07.05.2021 00:00:00, 08.05.2021 00:00:00, 09.05.2021 00:00:00 и так далее. Временные отметки при этом называются execution_date, соответствующие им экземпляры DAG — DAG Run, а связанные с конкретными DAG Run экземпляры задач — Task Instance.
Концепция execution_date очень важна для соблюдения идемпотентности: запуск или перезапуск задачи за какую-то дату в прошлом никак не зависит от времени фактического выполнения. Это позволяет точно воспроизводить результаты, полученные ранее. Кроме этого, возможен одновременный запуск задач одного DAG за различные временные отметки (нескольких Dag Run).
Архитектура AirFlow и принципы его работы
Основу архитектуры AirFlow составляют следующие компоненты:
- Web Server — отвечает за пользовательский интерфейс, где предоставляется возможность настраивать DAG и их расписание, отслеживать статус их выполнения и так далее.
- Metadata DB (база метаданных) — собственный репозиторий метаданных на базе библиотеки SqlAlchemy для хранения глобальных переменных, настроек соединений с источниками данных, статусов выполнения Task Instance, DAG Run и так далее. Требует установки совместимой с SqlAlchemy базы данных, например, MySQL или PostgreSQL.
- Scheduler (планировщик) — служба, отвечающая за планирование в Airflow. Отслеживая все созданные Task и DAG, планировщик инициализирует Task Instance — по мере выполнения необходимых для их запуска условий. По умолчанию раз в минуту планировщик анализирует результаты парсинга DAG и проверяет, нет ли задач, готовых к запуску. Для выполнения активных задач планировщик использует указанный в настройках Executor.
Плюсы и минусы AirFlow
Чаще всего выделяют следующие преимущества AirFlow:
Разумеется, есть и недостатки, но связаны они по большей части с довольно высоким порогом входа и необходимостью учитывать различные нюансы при работе с AirFlow:
- При проектировании задач важно соблюдать идемпотентность: задачи должны быть написаны так, чтобы независимо от количества их запусков, для одних и тех же входных параметров возвращался одинаковый результат.
- Необходимо разобраться в механизмах обработки execution_date. Важно понимать, что корректировки кода задач будут отражаться на всех их запусках за предыдущее время. Это исключает воспроизводимость результатов, но, с другой стороны, позволяет получить результаты работы новых алгоритмов за прошлые периоды.
- Нет возможности спроектировать DAG в графическом виде, как это, например, доступно в Apache NiFi. Многие видят в этом, напротив, плюс, так как ревью кода проводится легче, чем ревью схем.
- Некоторые пользователи отмечают незначительные временные задержки в запуске задач из-за нюансов работы планировщика, связанных с накладными расходами на постановку задач в очередь и их приоритезацию. Однако в версии Airflow 2 подобные задержки были сведены к минимуму, а также появилась возможность запуска нескольких планировщиков для достижения максимальной производительности.
AirFlow и Cloud-Native подход
Использование локальной инфраструктуры для работы с Big Data часто оказывается дорогим и неэффективным: под задачи, занимающие всего несколько часов в неделю, требуются огромные вычислительные мощности, которые необходимо оплачивать, настраивать и поддерживать. Поэтому многие компании переносят обработку больших данных в облако, где за считаные минуты можно получить полностью настроенный и оптимизированный кластер обработки данных с посекундной оплатой — за фактически используемые ресурсы.
Еще одна причина, по которой работать с BigData предпочтительнее в облаке — возможность использования Kubernetes aaS. Главные преимущества работы с Big Data в Kubernetes — это гибкое масштабирование и изоляция сред. Первое позволяет автоматически изменять выделяемые в облаке ресурсы в зависимости от меняющихся нагрузок, второе — обеспечивает совместимость различных версий библиотек и приложений в кластере за счет контейнеризации.
Так как AirFlow предназначен для оркестровки ETL-процессов в области Big Data и Data Science — его запуск возможен и даже рекомендован в облаке. Также AirFlow отлично сочетается с Kubernetes. Способы запуска Airflow в Kubernetes кратко упоминались выше — опишем их подробнее:
- С помощью оператора KubernetesPodOperator — в этом случае в Kubernetes выносятся только некоторые Airflow-задачи, которым сопоставлен соответствующий оператор. На каждую задачу внутри Kubernetes будет создан отдельный под. В качестве Executor при этом может использоваться стандартный CeleryExecutor.
- С помощью исполнителя Kubernetes Executor — в этом случае на каждую Airflow-задачу будет создан отдельный Worker внутри Kubernetes, который при необходимости будет создавать новые поды. Если одновременно использовать KubernetesPodOperator и Kubernetes Executor, то сначала будет создан первый под — Worker, а затем он создаст следующий под и запустит на нем Airflow-задачу.
- Есть много небольших задач, которые могут быть выполнены в CeleryExecutor, но также есть ресурсоемкие задачи, требующие KubernetesExecutor.
- Относительно малое количество задач требует изолированной среды.
- Предполагаемые пиковые нагрузки значительно превышают возможности Kubernetes-кластера.
Кому подойдет AirFlow
Конечно, AirFlow — далеко не единственное подобное решение на IT-рынке. Существует множество других инструментов для планирования и мониторинга ETL-процессов — как платных, так и Open-Source. В самых простых случаях можно и вовсе обойтись стандартным планировщиком Cron, настраивая рабочие процессы через Crontab. Назовем ряд типовых сценариев, когда AirFlow может стать наилучшим выбором:
Как-то недавно попалась на глаза информация о новой стиральной машинке, которая стирает вещи с помощью ультразвука и геля. На вид она напоминала собой зеркало, внутрь которого помещается, скажем, рубашка или футболка и оставляются там на несколько минут. Затем вещь сушится, как обычно, и готова к использованию.
Air Wash — революционный способ стирки предметов одежды, для которого не нужно использовать воду и абсолютно НИКАКОГО моющего средства также не нужно! Экологичные черты дизайна, а также способность преобразовывать углекислый газ в его жидкую форму, у которой есть уникальная врожденная способность проникать и удалять различные следы загрязнений, не только сохраняют энергию и превосходно себя проявляют во время цикла стирки, но также и обеспечивают отсутствие потребности выжимать и сушить вещи внутри стиральной машины! Как только цикл мытья закончен, дверь автоматически открывается, и жидкая формула углекислого газа немедленно испаряется, оставляя одежду свежей и сухой.
Проще простого. Хотя, конечно, насчёт энергоёмкости данного варианта ещё можно поразмышлять. Так что, экологичность данного проекта пока что под вопросом. Хотя, учитывая, что есть стиральная машина-велотренажёр, можно решить и этот вопрос. Нужно только постараться соединить то, что казалось бы, не может быть единым по определению либо только в голове, которой управляет очень больная фантазия. Но всё же все гении в той или иной мере являются чокнутыми. Так что, ждём всё новых решений, как можно сделать наши вещи чистыми и свежими быстро и без затрат энергии и сил.
Что делает холодильник? Спросите об этом кого угодно, и получите простой ответ: ясное дело, охлаждает! Какие же системы охлаждения существуют в современных холодильниках? Надо сказать, что над этим вопросом покупатель задумывается не слишком часто, полагая, что существуют более важные — например, стоимость устройства, его габариты и ёмкость, способ размораживания.
Но система охлаждения — фактор не менее важный. Если выбрать её правильно, не нужно будет помнить, что к задней стенке лучше ничего не класть — примёрзнет, что на одной полке продукты остынут быстрее, чем на другой, и о прочих неприятных мелочах.
В обычных холодильниках контур охлаждения располагается за задней стенкой камеры. Пока работает компрессор, на этой холодной стенке оседает конденсат. Когда же воздух в камере достигает заданной температуры и компрессор выключается — конденсат оттаивает, стекает вниз и через дренажное отверстие попадает наружу, где и испаряется. Холодный воздух, как ему и полагается, при такой системе охлаждения опускается вниз: температура на верхних полках оказывается несколько выше, чем на нижних. Такой холодильник рискованно набивать продуктами — например, после поездки по магазинам: он слишком медленно их охлаждает. Такую систему принято называть статической.
Так почему бы не разгонять воздух принудительно, чтобы во всей камере была одинаковая температура? Именно этим вопросом задались разработчики, создавая динамическую систему охлаждения. В камере устанавливали вентилятор, а испаритель оставляли открытым. Воздух, который поступал к испарителю, охлаждался, на испарителе оседал конденсат, а вентилятор гнал холодный воздух дальше. Так появилась хорошо всем знакомая система No Frost.
Воздух в этой системе движется единым потоком. Так что следующим усовершенствованием стало разделение такого потока на несколько движущихся в разных направлениях. Эта технология получила название многопоточной системы охлаждения (по-английски Multi-flow System).
Холодный воздух принудительно разделяется на несколько струй, которые обдувают пространство камеры и лежащие на полках продукты со всех сторон. В таком холодильнике вы можете положить что угодно на любую полку — всему будет обеспечено равномерное охлаждение. Зелень не успеет завянуть, а масло — растаять: даже в полном холодильнике температура понизится быстро и во всей камере одновременно. Недаром в холодильниках с технологией Multi-flow — таких, как Vestfrost VF 473 EB — имеются функции супер-быстрого охлаждения и замораживания. И размораживать его не придется: капли стекут по задней стенке и испарятся в лотке, куда попадут через дренажное отверстие.
Со временем появились самые разные модификации многопоточной системы охлаждения, получившие свои собственные названия. Так, компания Горенье оснащает свои холодильники системой MultiFlow 360°: холодный воздух в ней нагнетается через 14 отверстий.
Поскольку воздух движется под действием вентиляции, то есть принудительно, регулировать температуру очень легко: сенсорные кнопки позволяют устанавливать ее с точностью до градуса. А если не застаивается воздух, то и неприятных запахов в холодильнике не будет.
В холодильниках Бош — например, Bosch KGN39VL17R или Bosch KGN36NL14R , — встречается сразу несколько технологий: охлаждение Multi-Airflow и размораживание No Frost в холодильной и морозильной камере. А модель Bosch KGN36NW2AR оснащена системой Multi-Airflow, автоматическим размораживанием холодильной камеры и No Frost — морозильной.
Надо сказать, что эта система применяется не только в немецкой бытовой технике. Японский концерн Мицубиши тоже взял её на вооружение, выпустив такие холодильники, как Mitsubishi Electric MR-FR62K-ST-R . Потоки воздуха в них, двигаясь по разнонаправленным траекториям, быстро понижают температуру в отсеках и поддерживают её на заданном уровне. Для контроля равномерного охлаждения используются специальные датчики. Функция ионизации Minus ION и антибактериальное покрытие в сочетании с многопоточным движением воздуха предохраняют продукты от болезнетворных бактерий.
Для того, чтобы понять необходимость оснащения холодильников системой Air-flow нужно знать причину возникновения наледи и снежной шубы. В простых холодильниках не осуществляется циркуляция воздуха и влага не выводится за пределы холодильной и морозильной камер. После заморозки холод "вытягивает" влагу из продуктов и она оседает на их стенках.
Как работает система Air-flow
Много лет назад инженеры компании Zerowatt разработали уникальную систему принудительной прокачки воздуха через испаритель. Он находится за пределами морозилки и позволяет практически исключить образование наледи в морозильной камере и снеговой шубы в камере холодильной. Множество других компаний со временем разработали аналогичные системы для своих холодильников, например ARDO оснащает свои устройства вентилируемой системой распределения холода AirFlow. Система оказалась настолько эффективной, что ее начали устанавливать и в холодильное отделение. Благодаря AirFlow заметно снижается время охлаждения продуктов, а также время их замораживания.
Что делать, если образуется наледь?
Иногда случается, что после многих лет использования в холодильниках с системой AirFlow начинает образовываться наледь или снеговая шуба. В таком случае необходимо обратиться к специалисту по ремонту холодильного оборудования. Причин для этого может быть несколько. Скорее всего виновата система оттайки, которая состоит из термоплавкого предохранителя, дефростера, таймера оттайки, а также нагревателя испарителя. В любом случае самостоятельный ремонт не рекомендуется.
Как правильно ухаживать за холодильником
Немногие знают, что можно продлить срок службы любого холодильника на 5-10 лет с помощью грамотного ухода. Главное - правильно расположить холодильник. В идеале он не должен стоять у окна и количество солнечного света, попадающего на него летом должно быть минимальным. Также важно не забивать холодильник до отказа. Необходимо, чтобы между продуктами было небольшое расстояние для циркуляции воздуха. Также необходимо минимум один раз в год мыть заднюю стенку холодильника (при выключенном устройстве), а также использовать специальные средства для ухода. Отдельно необходимо поговорить о резинках дверей холодильника. Чтобы они не потрескались и не деформировались необходимо раз в год смазывать их силиконовой смазкой по аналогии с автомобильными резинками.
Холодильник Candy CKBBS172F
Читайте также: