Oracle соединение типа звезда
Oracle Data Integration, Cloud, Spatial and Analytics (GoldenGate, ODI, Cloud, Spatial, Exadata)
Data mining это процесс извлечения полезной информации из массивов информации за счет обнаружения закономерностей и трендов. Data mining может быть использован, что решать различные бизнес-проблемы такие как :
В этой статье мы сфокусируемся на проблеме, которая решается классификационной моделью. В нашем примере компания ABC Company хочет обнаружить клиентов, которые наиболее вероятно купят страхование.
Создаем пользователя
Пользователю, работающему с data mining, необходимо выдать некоторые дополнительные привилегии. Привилегия create mining model необходима для тренировки модели. Кроме того пользователь должен иметь возможность создавать таблицы и представления (create table, create view), чтобы выполнеять необходимые операции с тренировкой моделей. В этой статье будут создаваться процедуры (create procedure) для генерации данных. Ну и конечно пользователь должен иметь привилегию для подключения к базе (create session) и квоту на пространство в табличном пространстве (или unlimited tablespace).
Ниже показан пример создания такого пользователя:
grant create session, create table, create view,
create mining model, create procedure,
unlimited tablespace
to dmuser identified by oracle;
Откроем Data Miner (Tools->Data Miner->Make Visible).
Для простоты в дальнейшем на пользователя data mining будем ссылаться как dmuser. Как только пользователь создан, запустим SQL Developer (я буду показывать все на версии 3.1 Early Adopter) и создадим соединение.
Анализ данных
Прежде чем приступать к построению модели имеет смысл ознакомиться с данными. Сделать это можно по-разному – для этого есть достаточно много инструментов, но Data Miner предоставляет некоторые уникальные возможности.
1. Создадим проект. Для этого кликнем правой кнопкой на соединении и выберем New Project.
2. Создадим Workflow. Для этого кликнем правой кнопкой на проекте и выберем New Workflow.
3. Откроется рабочее пространство Oracle Data Miner
Слева будет дерево, представляющее проект. Справа набор инструментов. В центре – рабочее пространство, где мы будем рисовать Workflow.
5. Для того, чтобы посмотреть на данные в этой таблице добавим инструмент Explore Data с той же закладки в таблице и соединим их с помощью инструмента link с закладки инструментов Linking Node:
Допустим, мы хотим сгруппировать данные при просмотре по столбцу BUY_INSURANCE. Для этого 2 раза кликнем на Explore Data и там выберем группировку по BUY_INSURANCE
Data Miner по каждому атрибуту предоставит различную информацию и все это с привязкой к атрибуту, выбранному в Group By. Среди этой информации есть: гистограмма значений, кол-во различных значений, среднее, минимальное и максимальное значение, отклонения от среднего, дисперсия, коэффициенты асимметрии и эксцесса.
Выбор любого атрибута показывает увеличенный вариант гистограммы.
Закроем окно Explore Data.
Создание классификационной модели
Как было сказано выше, классификационные модели могут быть использованы, чтобы спрогнозировать поведение. В рассматриваемом сценарии мы будет прогнозировать вероятность покупки страхования. По-умолчанию, ODM использует все поддерживаемые алгоритмы для классификационной модели.
Ниже рассмотрим создание такой модели:
1. Перетащим классификационную модель (Classification) из раздела Models палитры инструментов и подключим ее к источнику данных с помощью инструмента link:
2. В открывшемся диалоговом окне выберем в качестве целевого атрибута BUY_INSURANCE. А в качестве Case Id обычно выбирают первичный ключ, т.е. CUSTOMER_ID. Оставим активными все 4 доступных алгоритма.
3. Можно также нажать на кнопку Advanced… и произвести более тонкую настройку алгоритмов. Выберем алгоритм Support Vector Machine и на закладку Algorithm Settings изменим Kernel Function на Linear.
4. Закроем окна и выберем модель на диаграмме. Внизу появится редактор свойств модели%
5. Сохраним Workflow.
Построение или тренировка модели
Стандартной практикой является построение модели на одном наборе данных, а затем проверка этой модели на оставшихся данных. По-умолчанию ODM использует этот подход.
1. Перед началом построения модели перейдем на закладку Test в свойствах модели и укажем, что следует выделить 50% данных для теста.
2. Кликнем на модели правой кнопкой и запустим ее построение (Run). Дождемся ее завершения. Об этом просигнализирует появление зеленой галочки около пиктограммы Class Build и дополнительной информации в инспекторе свойств модели:
В результате построены 4 модели. Все они строились для прогнозирования целевого параметра BUY_INSURANCE. Исходные данные автоматически были разделены для построения и тестирования модели.
Сравнение моделей
Построенные модели различаются свой точностью – сравним результаты их тестирования.
1. Кликнем на модели правой кнопкой и выберем Compare Test Results. Откроется окно
Набор данных очень маленький, поэтому цифры у вас могут немного отличаться от полученных мной. Цвета также могут отличаться. Результаты сравнения моделей включают 5 закладок: Performance, Performance matrix, ROC, Lift, and Profit.
Закладка Performance показывает числовую и графическую информацию по следующим покателям: Predictive Confidence, Average Accuracy и Overall Accuracy.
Как можно видеть на этой закладке Decision Tree (DT) дает наилучшие показатели по всем параметрам.
2. Выберем закладку Lift
Закладка Lift tab дает графическое представление lift для каждой модели. Красная линия показывает результаты для модели со случайным выбором. Вертикальная синяя линии показывает порог.
В нашем примере:
3. Выберем закладку Performance Matrix
Можно видеть, что модели GLM и DT дают большее количество корректных прогнозов – около 80%.
4. Если выбрать поочередно GLM и DT, то можно увидеть, что DT лучше прогнозирует ответ “No”, а GLM – “Yes”:
5. Давайте закроем окно со сравнением моделей и более детально погрузимся в изучение построенной модели Decision Tree.
Просмотр конкретной модели
1. В Workflow правой кнопкой кликнем на Class Buid и выберем View Models->CLASS_DT_1_5
2. Откроется окно с деревом решений
3. Давайте выберем узел Node 2
- На каждом уровне в дереве решений будет представлена фраза IF/THEN, описывающая правило. На каждом следующем уровне будут добавлять новые условия в эту фразу IF/THEN
- Обычно это дерево решений будет гораздо глубже, поэтому имеет смысл сворачивать некоторые узлы.
4. Выберем узел Node 6:
- На нижнем уровне в дереве вводится разделение по атрибуту MONEY_MONTHLY_OVERDRAWN
- В этом узле видно, что если BANK_FUNDS>225.5, CHECKING_AMOUNT<157.5, CREDIT_BALANCE<=462, а MONEY_MONTHLY_OVERDRAWN>53.88, то вероятность покупки страхования – 96%
5. Закроем окно с моделью Decision Tree.
Применение модели
Для применения модели выполняются следующие шаги:
- Выбирается модели (или модели) в узле Class Build
- Добавляется новый источник данных
- Добавляет узел Apply в Workflow
- Связываем источник и узел Apply
1. В Workflow выбираем узел Class Build. На закладке Models выбираем только модель DT. Для этого кликаем на большую зеленую стрелку в столбце Output модели, чтобы она стала стрелкой с красным крестиком . И так для всех моделей кроме DT
2. Создаем новый источник данных на базе той же таблицы DMUSER.INSUR_CUST_LTV_SAMPLE. Затем переименуем источник в CUST_INSUR_LTV_APPLY.
3. Создадим узел Apply с помощью инструмента Apply из закладки Evaluate and Apply
4. Свяжем узел Apply с источником с узлом Class Build с помощью инструмента Link:
5. Перед запуском узла apply в workflow стоит глянуть список столбцов, которые появятся в результате
Можно видеть, что в результатах будет:
- Прогноз (Yes or No)
- Вероятность прогноза
- Стоимость
Для того, чтобы эта информация была полезна, в результаты следует включить CUSTOMER_ID. Для этого кликаем правой кнопкой на Apply Model и выбираем Edit
6. На закладке Data Columns добавим столбец CUSTOMER_ID
7. Применим модель. Для этого правой кнопкой на модель и выберем Run. Дождемся пока появится зеленая галочка, говорящая об успешном применении модели.
8. Чтобы посмотреть результат, можно щелкнуть правой кнопкой и выбрать View Data
Здесь же, на закладке SQL, можно забрать команду, которая используется для применения модели – очень полезная функция.
9. Результат работы алгоритма можно поместить в таблицу. Для этого используем инструмент Create Table or View. Соединим его с узлом Apply.
Интересно, что результатом может быть не таблица, а представление (можно поменять в настройках узла Create Table or View), что позволит каждый раз динамически вычислять результаты.
10. После добавления узла Create Table or View повторно запустим Workflow. В результате в базе данных появится таблица DT_PREDICTIONS, содержащая данные, которые мы видели ранее. Удобно, что не приходится делать различные мапинги – все формируется практически на автомате.
Содержимое таблицы (или представления) может быть использовано для вывода в Oracle Application Express, Oracle BI Answers, Oracle BI Dashboards и т.д.
Заключение
В этой статье мы рассмотрели Oracle Data Miner 11.2, который был переписан для интеграции в интерфейс SQL Developer, также один из алгоритмов Data mining – классификацию.
В целом, Oracle Data Miner мне понравился своей простотой и логичностью. Наличие встроенного Workflow дает возможность делает достаточно сложные процессы обработки и анализа данных.
Из недостатков могу отменить не очень гибкий инструментарий для преобразования входящих данных, но тут, в общем-то, я и не ожидал чего-то очень навороченного, поскольку эта область перекрывается с ETL и очисткой данных. В будущем, конечно, хотелось бы увидеть интеграцию Data Miner с Oracle Data Integrator и Enterprise Data Quality.
Выбор способа хранения данных зависит от объема и структуры детальных данных, требований к скорости выполнения запросов и частоты обновления OLAP -кубов. В настоящее время применяются три способа хранения данных :
MOLAP (Multidimensional OLAP)
Детальные и агрегированные данные хранятся в многомерной базе данных. Хранение данных в многомерных структурах позволяет манипулировать данными как многомерным массивом, благодаря чему скорость вычисления агрегатных значений одинакова для любого из измерений. Однако в этом случае многомерная база данных оказывается избыточной , так как многомерные данные полностью содержат детальные реляционные данные.
- Высокая производительность . Поиск и выборка данных осуществляется значительно быстрее, чем при многомерном концептуальном взгляде на реляционную базу данных .
- Структура и интерфейсы наилучшим образом соответствуют структуре аналитических запросов.
- Многомерные СУБД легко справляются с задачами включения в информационную модель разнообразных встроенных функций .
- MOLAP могут работать только со своими собственными многомерными БД и основываются на патентованных технологиях для многомерных СУБД , поэтому являются наиболее дорогими. Эти системы обеспечивают полный цикл OLAP -обработки и либо включают в себя, помимо серверного компонента, собственный интегрированный клиентский интерфейс, либо используют для связи с пользователем внешние программы работы с электронными таблицами.
- По сравнению с реляционными, очень неэффективно используют внешнюю память , обладают худшими по сравнению с реляционными БД механизмами транзакций .
- Отсутствуют единые стандарты на интерфейс, языки описания и манипулирования данными.
- Не поддерживают репликацию данных, часто используемую в качестве механизма загрузки.
ROLAP (Relational OLAP)
ROLAP -системы позволяют представлять данные, хранимые в классической реляционной базе, в многомерной форме или в плоских локальных таблицах на файл-сервере , обеспечивая преобразование информации в многомерную модель через промежуточный слой метаданных . Агрегаты хранятся в той же БД в специально созданных служебных таблицах. В этом случае гиперкуб эмулируется СУБД на логическом уровне.
- Реляционные СУБД имеют реальный опыт работы с очень большими БД и развитые средства администрирования . При использовании ROLAP размер хранилища не является таким критичным параметром, как в случае MOLAP .
- При оперативной аналитической обработке содержимого хранилища данных инструменты ROLAP позволяют производить анализ непосредственно над хранилищем (потому что в подавляющем большинстве случаев корпоративные хранилища данных реализуются средствами реляционных СУБД ).
- В случае переменной размерности задачи, когда изменения в структуру измерений приходится вносить достаточно часто, ROLAP системы с динамическим представлением размерности являются оптимальным решением, так как в них такие модификации не требуют физической реорганизации БД , как в случае MOLAP .
- Системы ROLAP могут функционировать на гораздо менее мощных клиентских станциях, чем системы MOLAP , поскольку основная вычислительная нагрузка в них ложится на сервер, где выполняются сложные аналитические SQL-запросы , формируемые системой.
- Реляционные СУБД обеспечивают значительно более высокий уровень защиты данных и хорошие возможности разграничения прав доступа.
- Ограниченные возможности с точки зрения расчета значений функционального типа.
- Меньшая производительность , чем у MOLAP . Для обеспечения сравнимой с MOLAP производительности реляционные системы требуют тщательной проработки схемы БД и специальной настройки индексов. Но в результате этих операций производительность хорошо настроенных реляционных систем при использовании схемы " звезда " сравнима с производительностью систем на основе многомерных БД .
HOLAP (Hybrid OLAP)
Детальные данные остаются в той же реляционной базе данных, где они изначально находились, а агрегатные данные хранятся в многомерной базе данных.
Моделирование многомерных кубов на реляционной модели данных
Схема звезда. Преимущества и недостатки
Схема типа звезды ( Star Schema ) - схема реляционной базы данных , служащая для поддержки многомерного представления содержащихся в ней данных.
*Особенности ROLAP -схемы типа " звезда "*
- Одна таблица фактов ( fact table ), которая сильно денормализована. Является центральной в схеме, может состоять из миллионов строк и содержит суммируемые или фактические данные, с помощью которых можно ответить на различные вопросы.
- Несколько денормализованных таблиц измерений ( dimensional table ). Имеют меньшее количество строк, чем таблицы фактов, и содержат описательную информацию. Эти таблицы позволяют пользователю быстро переходить от таблицы фактов к дополнительной информации.
- Таблица фактов и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы размерности мигрируют в таблицу фактов в качестве внешних ключей . Первичный ключ таблицы факта целиком состоит из первичных ключей всех таблиц размерности .
- Агрегированные данные хранятся совместно с исходными.
Преимущества
Благодаря денормализации таблиц измерений упрощается восприятие структуры данных пользователем и формулировка запросов, уменьшается количество операций соединения таблиц при обработке запросов. Некоторые промышленные СУБД и инструменты класса OLAP / Reporting умеют использовать преимущества схемы " звезда " для сокращения времени выполнения запросов.
Денормализация таблиц измерений вносит избыточность данных, возрастает требуемый для их хранения объем памяти. Если агрегаты хранятся совместно с исходными данными, то в измерениях необходимо использовать дополнительный параметр - уровень иерархии .
Схема снежинка. Преимущества и недостатки
Схема типа снежинки ( Snowflake Schema ) - схема реляционной базы данных , служащая для поддержки многомерного представления содержащихся в ней данных, является разновидностью схемы типа " звезда " ( Star Schema ).
*Особенности ROLAP -схемы типа "снежинка"*
- Одна таблица фактов ( fact table ), которая сильно денормализована. Является центральной в схеме, может состоять из миллионов строк и содержать суммируемые или фактические данные, с помощью которых можно ответить на различные вопросы.
- Несколько таблиц измерений ( dimensional table ), которые нормализованы в отличие от схемы " звезда ". Имеют меньшее количество строк, чем таблицы фактов, и содержат описательную информацию. Эти таблицы позволяют пользователю быстро переходить от таблицы фактов к дополнительной информации. Первичные ключи в них состоят из единственного атрибута (соответствуют единственному элементу измерения).
- Таблица фактов и таблицы размерности связаны идентифицирующими связями, при этом первичные ключи таблицы размерности мигрируют в таблицу фактов в качестве внешних ключей . Первичный ключ таблицы факта целиком состоит из первичных ключей всех таблиц размерности .
- В схеме "снежинка" агрегированные данные могут храниться отдельно от исходных.
Преимущества
Нормализация таблиц измерений в отличие от схемы " звезда " позволяет минимизировать избыточность данных и более эффективно выполнять запросы, связанные со структурой значений измерений.
За нормализацию таблиц измерений иногда приходится платить временем выполнения запросов.
Многомерная схема специально разработана для моделирования систем хранилищ данных. Схемы предназначены для удовлетворения уникальных потребностей очень больших баз данных, разработанных для аналитических целей (OLAP).
Типы схем хранилища данных:
Ниже приведены 3 основных типа многомерных схем, каждая из которых имеет свои уникальные преимущества.
- Схема звезды
- Снежинка Схема
- Галактика Схема
В этом уроке вы узнаете больше о
Что такое схема звезды?
В следующем примере таблица фактов находится в центре, которая содержит ключи для каждой таблицы измерений, такие как Dealer_ID, ID модели, Date_ID, Product_ID, Branch_ID и другие атрибуты, такие как проданные единицы и доход.
Характеристики схемы звезды:
- Каждое измерение в звездообразной схеме представлено единственной одномерной таблицей.
- Таблица измерений должна содержать набор атрибутов.
- Таблица измерений присоединяется к таблице фактов с помощью внешнего ключа
- Таблица измерений не соединена друг с другом
- Таблица фактов будет содержать ключ и меру
- Схема Star проста для понимания и обеспечивает оптимальное использование диска.
- Таблицы измерений не нормализованы . Например, на приведенном выше рисунке Country_ID не имеет таблицы поиска Country, как было бы в проекте OLTP.
- Схема широко поддерживается BI Tools
Что такое схема снежинка?
В следующем примере Страна далее нормализуется в отдельную таблицу.
Характеристики схемы «Снежинка»:
Схема «звезда против снежинки»: основные отличия
Схема звезды | Схема снежных хлопьев |
---|---|
Иерархии для измерений хранятся в таблице измерений. | Иерархии разделены на отдельные таблицы. |
Он содержит таблицу фактов, окруженную таблицами измерений. | Одна таблица фактов, окруженная таблицей измерений, которая в свою очередь окружена таблицей измерений |
В схеме типа «звезда» только одно соединение создает связь между таблицей фактов и любыми таблицами измерений. | Схема снежинки требует много соединений для извлечения данных. |
Простой дизайн БД. | Очень сложный дизайн БД. |
Денормализованная структура данных и запрос также выполняются быстрее. | Нормализованная структура данных. |
Высокий уровень избыточности данных | Очень низкоуровневая избыточность данных |
Таблица одного измерения содержит агрегированные данные. | Данные разбиты на разные таблицы измерений. |
Обработка куба происходит быстрее. | Обработка куба может быть медленной из-за сложного соединения. |
Предлагает более эффективные запросы, используя Star Join Query Optimization. Таблицы могут быть связаны с несколькими измерениями. | Схема снежных хлопьев представлена централизованной таблицей фактов, которая вряд ли связана с несколькими измерениями. |
Что такое схема Galaxy?
GALAXY SCHEMA содержит два факта таблицы , что таблицы измерений доли между ними. Это также называется Схема Созвездия Фактов. Схема рассматривается как набор звезд, отсюда и название Galaxy Schema.
Как вы можете видеть в приведенном выше примере, есть две таблицы фактов
В общих схемах Galaxy размеры измерений называются Conformed Dimensions.
Характеристики галактической схемы:
- Измерения в этой схеме разделены на отдельные измерения на основе различных уровней иерархии.
- Например, если география имеет четыре уровня иерархии, таких как регион, страна, штат и город, то схема Galaxy должна иметь четыре измерения.
- Более того, можно построить схему такого типа, разбив схему с одной звездой на несколько схем типа Star.
- Размеры в этой схеме велики, что необходимо для построения на основе уровней иерархии.
- Эта схема полезна для объединения таблиц фактов для лучшего понимания.
Что такое схема звездного кластера?
Схема снежинки содержит полностью расширенные иерархии. Однако это может усложнить схему и потребует дополнительных объединений. С другой стороны, схема «звезда» содержит полностью свернутые иерархии, что может привести к избыточности. Таким образом, лучшим решением может быть баланс между этими двумя схемами, который представляет собой проект STAR CLUSTER SCHEMA .
Перекрывающиеся измерения могут быть найдены в виде вилок в иерархиях. Разветвление происходит, когда сущность выступает в качестве родителя в двух разных иерархиях измерений. Объекты-вилки затем идентифицируются как классификация с отношениями один-ко-многим.
Объединения в Oracle используются для доступа к данным из нескольких таблиц. Объединение в oracle используется в месте, где нужно объединить более двух таблиц для сбора полезной информации в операторе Oracle SQL. Другими словами, запрос на соединение, используемый для получения строк из более чем двух таблиц или представлений, основывается на условиях соединения. Условие соединения может быть указано в предложении FROM или в предложении where. Условие соединения сравнивает столбцы разных таблиц и извлекает те строки, для которых условие соединения выполняется.
Типы соединений в Oracle
В Oracle есть десять различных типов соединений, как указано ниже:
- Внутренние соединения (также известные как простые соединения)
- Equi Joins
- Внешние соединения
- Левые внешние соединения (также называемые левыми соединениями)
- Правые внешние соединения (также называемые правыми соединениями)
- Полные внешние соединения (также называемые полными соединениями)
- Самостоятельно присоединяется
- Перекрестные соединения (также называемые декартовыми произведениями)
- Анти-Джоинс
- Полу-соединения
Далее, мы понимаем каждое соединение подробно с синтаксисом и примерами.
1. ВНУТРЕННЕЕ СОЕДИНЕНИЕ (также известное как Простое соединение)
Внутренние объединения объединяют несколько таблиц и возвращают те строки, для которых выполняется условие объединения. Внутреннее соединение является наиболее распространенным соединением среди типов объединения.
Синтаксис:
SELECT column (, column ) FROM t1
INNER JOIN t2
ON t1.column = t2.column;
На диаграмме ниже представлено визуальное представление внутреннего соединения, так как на диаграмме заштрихованная область возвращается в результате соединения Oracle INNER JOIN:
Oracle INNER JOIN возвращает в результате записи о пересечении t1 и t2.
Пример:
SELECT employee.employee _id, employee.employee_name, department. department_name
FROM employee
INNER JOIN department
ON employee.employee _id = department.employee _id;
Приведенный выше пример Oracle INNER JOIN вернет все строки из таблиц сотрудников и отделов, в которых значения _id сотрудника в таблицах сотрудников и отделов совпадают.
2. Equi Joins
Oracle Equi Joins извлекает совпадающие значения столбцов нескольких таблиц. Условие соединения или оператор сравнения присутствуют в предложении WHERE оператора select.
Синтаксис:
SELECT column (, column ) FROM t1, t2
where t1.column = t2.column;
На приведенной ниже диаграмме представлено визуальное представление эквиджоина, поскольку на диаграмме заштрихованная область возвращается в результате соединения Oracle Equi.
Oracle Equijoin возвращает в результате записи о пересечении t1 и t2.
Пример:
SELECT employee.employee _id, employee.employee_name, department. department_name
FROM employee, department
where employee.employee _id = department.employee _id;
Приведенный выше пример Oracle Equijoin вернет все строки из таблиц сотрудников и отделов, в которых значения _id сотрудника в таблицах сотрудников и отделов совпадают.
3. Внешние соединения
Другой тип объединений - это внешнее объединение, которое возвращает результат внутреннего объединения плюс все строки из одной таблицы, для которых условие соединения не выполняется.
Синтаксис:
SELECT column (, column ) FROM t1
LEFT | RIGHT | FULL (OUTER) JOIN t2
ON t1.column = t2.column;
Ниже приведены три типа внешнего соединения:
- Левые внешние соединения (также называемые левыми соединениями)
- Правые внешние соединения (также называемые правыми соединениями)
- Полные внешние соединения (также называемые полными соединениями)
4. Левое внешнее соединение
Возвращения Left Outer Join содержат все строки из таблицы LEFT (согласно указанному в условии ON), а из другой таблицы - только те строки, в которых условие соединения имеет значение true.
Синтаксис:
SELECT column (, column ) FROM t1
LEFT (OUTER) JOIN t2
ON t1.column = t2.column;
Ключевое слово LEFT OUTER JOIN, используйте LEFT JOIN в некоторых других базах данных.
Приведенная ниже диаграмма представляет визуальное представление LEFT OUTER JOIN, так как на диаграмме заштрихованная область возвращается как результат Oracle LEFT OUTER JOIN:
Oracle LEFT OUTER JOIN возвращает все записи из t1 и пересекающиеся записи из t1 и t2 в результате.
Пример:
SELECT employee.employee _id, employee.employee_name, department.department_name
FROM employee
LEFT OUTER JOIN department
ON employee.employee _id = department.employee _id;
Приведенный выше пример Oracle LEFT OUTER JOIN вернет все строки из таблицы сотрудников и из таблицы отделов только те строки, для которых выполняется условие соединения. Таблицы отделов, в которых значения _id сотрудника в таблицах сотрудников и отделов совпадают.
Если значение _id сотрудника в таблице сотрудников совпадает в таблице отделов, то в результате поля таблицы отделов будут нулевыми.
5. Правильное внешнее соединение
Возвращения RIGHT OUTER JOIN содержат все строки из таблицы RIGHT (согласно указанному в условии ON), а из другой таблицы - только те строки, для которых условие соединения является истинным.
Синтаксис:
SELECT column (, column ) FROM t1
RIGHT (OUTER) JOIN t2
ON t1.column = t2.column;
Ключевое слово RIGHT OUTER JOIN, используется как RIGHT JOIN в некоторых других базах данных.
На приведенной ниже диаграмме представлено визуальное представление правого внешнего соединения, так как на диаграмме заштрихованная область возвращается в результате Oracle RIGHT OUTER JOIN.
Oracle RIGHT OUTER JOIN возвращает все записи из t2 и пересекающиеся записи из t1 и t2 в результате.
Пример:
SELECT employee.employee _id, employee.employee_name, department.department_name
FROM employee
RIGHT OUTER JOIN department
ON employee.employee _id = department.employee _id;
Приведенный выше пример Oracle LEFT OUTER JOIN вернет все строки из таблицы отдела, а из таблицы сотрудника - только те строки, для которых условие соединения выполнено. Таблицы сотрудников, в которых значения _id сотрудника в таблицах сотрудников и отделов совпадают.
Если значение _id сотрудника в таблице сотрудников совпадает в таблице отделов, то в результате поля таблицы сотрудников будут нулевыми.
6. Полное внешнее соединение
Возвраты Full Outer Join содержат все строки из таблицы LEFT и RIGHT с нулевым значением в полях, где условие соединения не соответствует действительности.
Синтаксис:
SELECT column (, column ) FROM t1
FULL (OUTER) JOIN t2
ON t1.column = t2.column;
Ключевое слово FULL OUTER JOIN, используется как FULL JOIN в некоторых других базах данных.
На приведенной ниже диаграмме представлено визуальное представление FULL OUTER JOIN, так как на диаграмме заштрихованная область возвращается в результате Oracle FULL OUTER JOIN.
Oracle FULL OUTER JOIN возвращает в результате все записи из таблиц t1 и t2.
Пример:
SELECT employee.employee _id, employee.employee_name, department.department_name
FROM employee
FULL OUTER JOIN department
ON employee.employee _id = department.employee _id;
Приведенный выше пример Oracle FULL OUTER JOIN вернет все строки из таблицы сотрудников и таблицы отделов со значениями NULL, если условие соединения не соответствует действительности.
7. Oracle Self Joins
При самостоятельном объединении таблица дважды используется в предложении FROM с помощью псевдонимов таблицы name. Другими словами, само присоединяется, присоединяется к самому столу. Oracle Self Join объединяет и возвращает строки таблицы, где условие соединения выполняется.
Пример:
Этот приведенный выше пример Oracle self JOIN вернет все строки из таблицы employee, где условие соединения имеет значение true.
8. Кросс-соединения Oracle (также называемые декартовыми произведениями)
Перекрестное объединение применяется, когда две таблицы не имеют условия соединения. Перекрестное объединение возвращает декартово произведение двух таблиц, декартово произведение, где каждая строка одной таблицы объединяется с каждой строкой другой таблицы. Предположим, что table1 содержит 100 строк, а table2 содержит 10 строк, тогда результат объединения будет содержать 1000 строк.
Пример;
SELECT employee.employee _id, employee.employee_name, department.department_name
FROM employee
CROSS JOIN department
В приведенном выше примере перекрестного соединения возвращаются все строки таблицы сотрудников, объединенные со всеми строками таблицы отделов.
9. Oracle Anti Joins
Возврат против соединения содержит строки из таблицы LEFT (согласно указанному в условии ON), где объединенное условие имеет значение true.
Пример:
Приведенный выше пример Oracle ANTI JOIN вернет строки из таблицы employee, где условие соединения имеет значение true.
10. Полу-соединения Oracle
Возвращения в полусоединении содержат уникальные строки из таблицы LEFT (в соответствии с заданным условием ON), где соответствие подзапроса EXISTS равно true.
Пример:
Этот пример Oracle SEMI JOIN вернет строки из таблицы employee, если EXISTS вернет true.
Вывод
Он используется для доступа к данным из нескольких таблиц. В Oracle существует семь различных типов соединений.
Рекомендуемые статьи
Это руководство по соединениям в Oracle. Здесь мы обсуждаем введение в соединения в Oracle и его 10 различных типов в соединениях в Oracle. Вы также можете просмотреть другие наши статьи, чтобы узнать больше -
Соединение вложенными циклами это самый простой алгоритм соединения таблиц. В качестве таблиц могут выступать как физические таблицы, так и результаты предыдущих операций соединения и фильтрации. Наименьшая таблица выступает ведущей, вторая ведомой. Алгоритм последовательно, одну за одной перебирает все строки в ведущей таблице. Для каждой из них выполняется поиск строк, удовлетворяющих условию соединения, при этом могут использоваться индексы.
На псевдокоде это можно записать так:
Промышленные реализации алгоритма по возможности объединяют операции в пакеты и обрабатывают несколько строк сразу.
- Самый простой и универсальный алгоритм, есть практически в любой СУБД.
- Поддерживает любые условия соединения.
- Обеспечивает самое быстрое получение первых нескольких строк результата.
- Уступает по скорости работы другим алгоритмам соединения.
Hash join
При соединении хешированием меньшая из таблиц выступает в качестве ведущей, а большая в качестве ведомой. Ведущая таблица вычитывается целиком. Столбцы, входящие в условие соединения, преобразуется в хеш-таблицу. После этого для каждой строки ведущей таблицы ищется соответствие в хеш-таблице.
Промышленные реализации обычно пытаются уменьшить потребление памяти, деля таблицы на части. Также в них может использоваться фильтр Блума (Bloom filter) для уменьшения количества обращений к хеш-таблице.
- На больших объемах данных выдает полный результат быстрее соединения вложенными циклами.
- Выполняется только по условию равенства.
- Хеш-таблица должна быть сформирована полностью перед тем, как искать соответствие. Поэтому первые строки возвращаются медленнее, чем при соединении вложенными циклами.
- Для хранения хеш-таблицы используется память или место на диске. При больших размерах таблиц это может стать проблемой.
Merge sort join
Соединение слиянием это достаточно экзотический алгоритм. Оно требует, чтобы обе таблицы уже были отсортированы. Дальше для каждой строки в ведущей таблице выполняется поиск строк, удовлетворяющих условию соединения, в ведомой таблице без возврата назад от текущего положения в ней. Таким образом алгоритм отрабатывает за один проход по каждой из таблиц.
На псевдокоде это можно записать так:
- На больших объемах данных работает быстрее соединения вложенными циклами.
- Если данные уже отсортированы, например, есть индекс по столбцам, участвующим в соединении, может работать быстрее соединения хешированием.
- Может быть эффективнее соединения хешированием если данные не помещаются в память целиком.
- Выполняется только по условию равенства (Некоторые СУБД, например Oracle, могут выполнять merge sort join по условию неравенства, например <, > <=, >=).
- Требует сортировки обоих наборов данных.
Cartesian join
Декартово произведение это соединение каждой строки одной таблицы, с каждой строкой другой таблицы. Обычно оно выполняется, когда условие не задано или планировщик запросов считает, что его более эффективным, чем остальные алгоритмы. Например, если две маленькие таблицы, соединяются с одной и той же большой таблицей.
Заключение
На практике обычно встречаются nested loops и hash join. Остальные типы соединений как правило, это либо экзотические запросы, либо ошибки, человека или оптимизатора.
Читайте также: