Диаграмма рассеивания в excel как построить
Сайт для тех, кто хочет сделать свой бизнес современным и совершенным
«СЕМЬ ОСНОВНЫХ ИНСТРУМЕНТОВ КОНТРОЛЯ КАЧЕСТВА»
Что такое диаграмма рассеяния?
Очень часто в производственной, маркетинговой и иных видах деятельности необходимо понять, связаны ли между собой какие-либо явления, и если связаны, то насколько тесно.
Если вы, например, заметили увеличение объёма брака в какую-либо смену, вы вправе предположить, что это связано с трудовой деятельностью того или иного работника. Но как понять, так ли это на самом деле? Или вы считаете, что на тот или иной показатель качества выпускаемого изделия влияет некая технологическая операция, но хотите убедиться в этом и понять, насколько сильно данная операция оказывает влияние на интересующий вас показатель качества. А ваш маркетолог хочет выявить наличие и силу взаимосвязи между типом упаковки и её привлекательностью для потребителя. Директор же по информационным технологиям желает убедиться в том, что переход вашего предприятия на облачные технологии напрямую повлиял на снижение затрат в сфере ИТ, для чего хотел бы выявить связь между таким переходом и затратами, а также силу этой связи.
Практически любую такую связь или, более научно, корреляцию позволяет установить диаграмма рассеяния (другие названия – диаграмма разброса, диаграмма рассеивания, поле корреляции).
Типичный вид диаграммы рассеяния представлен на рисунке 1.
Рис. 1. Типичный вид диаграммы рассеяния
– инструмент, позволяющий определить вид и тесноту связи между парами соответствующих переменных.
В зависимости от наличия или отсутствия предполагаемых причинно-следственных связей при помощи диаграммы рассеяния можно анализировать зависимость:
- между влияющим фактором (причиной) и характеристикой (следствием);
- между двумя характеристиками;
- между двумя факторами.
Влияющий фактор (причину) иногда называют также факторным признаком, а характеристику (следствие) – результативным признаком.
Если говорить конкретно о качестве, то такие пары переменных чаще всего относятся [1, с. 144; 2, с. 125]:
- к характеристике качества и влияющему на неё фактору;
- к двум различным характеристикам качества;
- к двум факторам, влияющим на одну характеристику качества.
Все три категории анализа крайне важны, поскольку [4]:
- в первом случае, при наличии корреляционной зависимости, причинный фактор оказывает значительное влияние на характеристику качества, а потому если причинный фактор удерживать под контролем, то можно, во-первых, достичь стабильности характеристики качества, а во-вторых, определить уровень контроля, необходимый для требуемого показателя качества;
- во втором случае, при наличии корреляционной зависимости между двумя различными характеристиками качества, можно, например, осуществлять контроль только одной из них;
- в третьем случае наличие корреляционной зависимости между отдельными факторами значительно облегчает контроль процесса с технологической, временнóй и экономической точек зрения.
Если между сопоставляемыми парами переменных предполагается наличие причинно-следственной связи, то при построении диаграммы рассеяния причинные факторы, как правило, обозначаются переменной х и откладываются по горизонтальной оси (оси абсцисс); характеристики же, как правило, обозначаются переменной y и откладываются по вертикальной оси (оси ординат).
Построение диаграммы выполняется в следующей последовательности [1, с. 145–146; 2, с. 126]:
- Собираются парные данные (х, у), между которыми мы хотим исследовать зависимость, и заполняется таблица. Желательно собрать не менее 25–30 пар данных.
- Определяются максимальные и минимальные значения для х и y. Исходя из разницы между их максимальными и минимальными значениями устанавливаются размеры и шкалы осей, причём их лучше делать примерно одинаковыми, чтобы диаграмма легче читалась.
- Строится график, на который наносятся данные. Если на одну и ту же точку графика попадает несколько одинаковых значений, то соответствующие точки обозначаются при помощи концентрических кругов (точка в круге, в двух, трёх кругах) либо рядом с первой точкой наносится вторая, третья точка.
- На график наносятся все необходимые обозначения: название диаграммы, её составитель, дата, интервал времени, число пар данных, единицы измерения для каждой оси и т.д.
В зависимости от значений x и y графики могут иметь различный вид, при этом построенные графики надо уметь читать. Посмотрим, как это делается.
Ниже, на рисунке 2, представлены различные виды графиков. График позволяет нам воочию увидеть характер и тесноту связи между соответствующими переменными x и y. Ниже мы также научимся определять степень этой тесноты, называемую коэффициентом корреляции.
Знак «плюс» или «минус» говорит о направлении связи – прямой или обратной: при плюсе значение y возрастает с возрастанием значения х; при минусе, наоборот, уменьшается.
Что касается оценки тесноты связи, то в разных источниках встречаются разные классификации (градации). Например, в источнике [3, с. 105] даётся следующая классификация:
- от ±0,81 до ±1,0 – сильная сила связи;
- от ±0,61 до ±0,8 – умеренная сила связи;
- от ±0,41 до ±0,6 – слабая сила связи;
- от ±0,21 до ±0,4 – очень слабая сила связи;
- от 0 до ±0,2 – связь отсутствует.
А теперь посмотрим на рисунок 2, на котором представлены различные виды диаграммы рассеяния, при этом сверху указаны соответствующие значения коэффициента корреляции r.
Рис. 2. Различные виды диаграммы рассеяния в зависимости от тесноты связи
При отсутствии связи (корреляции) между исследуемыми параметрами точки на диаграмме расположены хаотично. Практически ту же самую картину мы видим и при слабой силе связи. Умеренная сила связи характеризуется большей степенью упорядоченности и достаточно равномерной удалённостью нанесённых точек от воображаемой средней линии. Сильная связь в большей степени стремится к такой воображаемой линии, а при r=1 график, собственно говоря, и представляет собой линию.
В случаях, представленных на рис. 2, корреляция носит линейный характер (воображаемая средняя линия – прямая), но в реальной жизни график может иметь иную, нелинейную (криволинейную) форму, например такую, как представлена на рис. 3.
Рис. 3. Условный пример нелинейной корреляции
Далее мы научимся рассчитывать коэффициент корреляции. Проще всего его рассчитать в программе MS Excel, и ниже мы покажем, как это делается, но прежде представим математическую формулу расчёта коэффициента корреляции и научимся рассчитывать его самостоятельно – без MS Excel или иной аналогичной программы. Все соответствующие расчёты делаются в рамках так называемого корреляционного анализа.
Корреляционный анализ
Коэффициент корреляции вычисляется по формуле:
Допустим, мы собрали 25 (n=25) пар данных x и y и хотим определить коэффициент корреляции между ними. Разместим их в таблице и для удобства расчётов сразу определим значения x 2 , у 2 и xy, чтобы затем просто подставить их в формулу:
Подставляем значения в указанную выше формулу и получаем коэффициент корреляции:
Диаграмма рассеяния, соответствующая этому массиву пар данных, была представлена выше – на рисунке 1.
Воспользуемся программой MS Excel
Всё сказанное выше, по сути, было теорией, призванной объяснить, что такое диаграмма рассеяния, как её читать и как рассчитать коэффициент корреляции.
В реальной жизни коэффициент корреляции рассчитывается, а диаграмма рассеяния – строится значительно проще и быстрее. Для наглядности будем использовать те же самые значения, что и выше.
Шаг 1 – Составление таблицы и расчёт коэффициента корреляции
В программе Excel составляем таблицу и в любой удобной нам ячейке за пределами таблицы вводим формулу расчёта коэффициента корреляции (Формулы => Другие функции => Статистические => КОРРЕЛ):
При нажатии на «КОРРЕЛ» в открывающемся окне в качестве значений «Массив1» и «Массив2» через двоеточие ставим верхнюю и нижнюю ячейки соответствующих колонок х и y (в нашем случае – B2:B26 и C2:C26) и нажимаем на ОК:
Итак, коэффициент корреляции рассчитан! Как и при расчётах выше, он равен 0,716. (Если необходимо, измените числовой формат в соответствующей ячейке, а иначе коэффициент может быть округлён до единицы.)
В принципе, коль скоро коэффициент корреляции нам уже известен, диаграмма рассеяния не очень-то и нужна. И всё же её иногда полезно построить, чтобы воочию увидеть, как соответствующие точки располагаются.
Шаг 2 – Построение диаграммы рассеяния
Чтобы построить диаграмму рассеяния, открываем вкладку «Вставка», выделяем мышкой ячейки от B2 до С26 в нашем случае (т.е. от верхней ячейки столбца x до нижней столбца y) и нажимаем на значок «Точечная» в разделе «Диаграммы»:
Далее, при нажатии на верхний левый значок в выпадающем окне, мы получаем необходимую нам диаграмму рассеяния:
Если необходимо, мышкой выравниваем диаграмму (меняем размеры её сторон), перемещаем в нужное нам место на листе и вставляем название диаграммы:
Итак, коэффициент корреляции определён, диаграмма рассеяния построена. Поставленная задача нами выполнена.
Что ещё важно знать
Следует учесть, что данный инструмент (диаграмма рассеяния и расчёт коэффициента корреляции) не является стопроцентной гарантией того, что две переменные, имеющие высокий коэффициент корреляции, действительно связаны между собой: существуют так называемые ложные корреляции, при которых расчётное значение коэффициента корреляции высоко, но при этом зависимости одного признака от другого нет. Причины возникновения ложных корреляций могут быть самыми разнообразными, например наличие какого-либо другого, скрытого от нас признака, который влияет одновременно на оба исследуемых нами признака. Так, цена продуктов питания и стоимость жилья могут показывать высокий коэффициент корреляции, но на самом деле эти величины связаны не между собой, а с инфляцией или с ростом стоимости производства. Подобные ситуации – ловушка для исследователей [2, с. 128].
Возможны и обратные ситуации: связь реально существует, но установить её данным инструментом не удалось. Причины этого опять-таки могут быть самыми разными – от недостаточного числа собранных данных до чрезмерно большой ошибки измерения [2, с. 128–129].
Но это не значит, что данным инструментом нельзя пользоваться! Наоборот, это достаточно простое, но эффективное средство статистического анализа. Необходимо всего лишь учитывать, что, во-первых, правильно диаграмму рассеяния и коэффициент корреляции могут оценить только те, кто хорошо знаком с исследуемым процессом; во-вторых, полученный таким образом коэффициент корреляции – это величина случайная и физической константой не является [2, с. 129].
Иными словами, применение данного инструмента требует известной доли осторожности, внимания к деталям и знания сути вопроса.
А что дальше?
Ещё одним важным моментом является то, что коэффициент корреляции позволяет оценить степень тесноты связи между результативным признаком (y) и воздействующим на него фактором (х), но не даёт ответа на вопрос: на сколько единиц изменится результативный признак при изменении фактора на одну единицу? [3, с. 108].
Ответ на этот вопрос можно получить при помощи другого инструмента – регрессионного анализа. Объяснение сути данного анализа выходит за рамки настоящей темы, но с ней можно самостоятельно ознакомиться по различным источникам, например по источнику [3, с. 108].
Вместе с тем один сугубо практический совет на этот счёт мы дадим.
В любой диаграмме рассеяния, построенной в последних версиях программы Excel, можно мгновенно, путём нажатия мышкой на соответствующее поле, как показано на рисунке ниже, построить «линию тренда», т.е. ту самую воображаемую среднюю линию, о который мы говорили выше. Она и даст нам общее представление о характере и величине изменения результативного признака y при изменении воздействующего на него фактора х:
Описание представленного инструмента контроля качества мы постарались изложить в максимально простой и доступной форме – в расчёте на то, что его будут читать и, надеемся, применять в работе в том числе и далёкие от математики люди.
Если вы считаете, что при публикации настоящего материала нарушены ваши авторские права, напишите нам. If you believe that the publication of this material infringes your copyright, please let us know. Сайт «Инновации и Бизнес», 2018–2019Цитирование, перепечатка и иное распространение материалов сайта приветствуются, но с обязательной ссылкой на сайт «Инновации и Бизнес»
Читайте специальную методику комплексного совершенствования деятельности предприятий
В окружающем мире очень много взаимосвязей между объектами, предметами, событиями, отношениями и т.д. Например, между количеством заключенных контрактов и трудовыми затратами, между сбытом и доходами населения, между образованием и уровнем заработной платы, вмешательством государства и состоянием экономики. Каждое из измерений в этих парах можно изучать по отдельности. Как одномерную совокупность. Но реальный результат получается лишь при изучении обоих измерений, взаимосвязи между ними.
При работе с двумерными данными обычно рисуют диаграммы рассеяния. Другие названия – «диаграммы разброса», «точечные диаграммы». Подобные графики показывают значения двух переменных в виде точек. Если в двумерных данных содержатся какие-либо проблемы (выбросы), то их легко будет обнаружить с помощью соответствующей диаграммы разброса.
Что показывает диаграмма рассеяния
Диаграмма рассеяния – один из инструментов статистического контроля, анализа. С ее помощью выявляется зависимость и характер связи между двумя разными параметрами экономического явления, производственного процесса. Диаграмма разброса показывает вид и тесноту взаимосвязи между парами данных. К примеру, между:
- качеством продукта и влияющим фактором;
- двумя разными характеристиками качества;
- двумя обстоятельствами, влияющими на качество, и т.п.
Диаграммы рассеяния применяются для обнаружения корреляции между данными. Если корреляционная зависимость присутствует, то установить контроль над наблюдаемым явлением значительно проще.
Построение диаграммы рассеяния в Excel
Диаграмма разброса представляет наблюдаемое явление в пространстве двух измерений. Если одну величину рассматривать как «причину», влияющую на другую величину, то ей будет соответствовать ось Х (горизонтальная ось). Реагирующей на это влияние величине соответствует ось Y (вертикальная ось). Когда четко классифицировать переменные невозможно, распределение производится пользователем.
Построим диаграмму рассеяния для небольшой двумерной совокупности данных:
Предположим, что затраченные усилия каждого менеджера повлияли на результат его работы (так принято считать). Следовательно, число контактов необходимо показать на горизонтальной оси, а продажи (результат затраченных усилий) – на вертикальной.
Для построения диаграммы рассеяния в Excel выделим столбцы «Контакты», «Объем продаж» (включая заголовки). Перейдем на вкладку «Вставка» в группу «Диаграммы». Использование данного инструмента анализа возможно с помощью точечных диаграмм:
По умолчанию программа построила диаграмму разброса такого вида:
Изменим параметры горизонтальной и вертикальной оси, чтобы четыре пары показателей расположились более равномерно в области построения. Щелкнем сначала правой кнопкой мыши по вертикальной оси. Выберем «Формат оси»:
На вкладке «Параметры оси» установим минимальное значение 100 000, а максимальное – 200 000. Показатели объема продаж находятся в этих пределах:
Минимальное значение для горизонтальной оси Х – 100, т.к. ниже этого показателя данных в таблице нет.
Любую информацию легче воспринимать, если она представлена наглядно. Это особенно актуально, когда мы имеем дело с числовыми данными. Их необходимо сопоставить, сравнить. Оптимальный вариант представления – диаграммы. Будем работать в программе Excel.
Так же мы научимся создавать динамические диаграммы и графики, которые автоматически обновляют свои показатели в зависимости от изменения данных. По ссылке в конце статьи можно скачать шаблон-образец в качестве примера.
Как построить диаграмму по таблице в Excel?
- Создаем таблицу с данными.
- Выделяем область значений A1:B5, которые необходимо презентовать в виде диаграммы. На вкладке «Вставка» выбираем тип диаграммы.
- Нажимаем «Гистограмма» (для примера, может быть и другой тип). Выбираем из предложенных вариантов гистограмм.
- После выбора определенного вида гистограммы автоматически получаем результат.
- Такой вариант нас не совсем устраивает – внесем изменения. Дважды щелкаем по названию гистограммы – вводим «Итоговые суммы».
- Сделаем подпись для вертикальной оси. Вкладка «Макет» - «Подписи» - «Названия осей». Выбираем вертикальную ось и вид названия для нее.
- Вводим «Сумма».
- Конкретизируем суммы, подписав столбики показателей. На вкладке «Макет» выбираем «Подписи данных» и место их размещения.
- Уберем легенду (запись справа). Для нашего примера она не нужна, т.к. мало данных. Выделяем ее и жмем клавишу DELETE.
- Изменим цвет и стиль.
Выберем другой стиль диаграммы (вкладка «Конструктор» - «Стили диаграмм»).
Как добавить данные в диаграмму в Excel?
- Добавляем в таблицу новые значения - План.
- Выделяем диапазон новых данных вместе с названием. Копируем его в буфер обмена (одновременное нажатие Ctrl+C). Выделяем существующую диаграмму и вставляем скопированный фрагмент (одновременное нажатие Ctrl+V).
- Так как не совсем понятно происхождение цифр в нашей гистограмме, оформим легенду. Вкладка «Макет» - «Легенда» - «Добавить легенду справа» (внизу, слева и т.д.). Получаем:
Есть более сложный путь добавления новых данных в существующую диаграмму – с помощью меню «Выбор источника данных» (открывается правой кнопкой мыши – «Выбрать данные»).
Когда нажмете «Добавить» (элементы легенды), откроется строка для выбора диапазона данных.
Как поменять местами оси в диаграмме Excel?
- Щелкаем по диаграмме правой кнопкой мыши – «Выбрать данные».
- В открывшемся меню нажимаем кнопку «Строка/столбец».
- Значения для рядов и категорий поменяются местами автоматически.
Как закрепить элементы управления на диаграмме Excel?
Если очень часто приходится добавлять в гистограмму новые данные, каждый раз менять диапазон неудобно. Оптимальный вариант – сделать динамическую диаграмму, которая будет обновляться автоматически. А чтобы закрепить элементы управления, область данных преобразуем в «умную таблицу».
- Выделяем диапазон значений A1:C5 и на «Главной» нажимаем «Форматировать как таблицу».
- В открывшемся меню выбираем любой стиль. Программа предлагает выбрать диапазон для таблицы – соглашаемся с его вариантом. Получаем следующий вид значений для диаграммы:
- Как только мы начнем вводить новую информацию в таблицу, будет меняться и диаграмма. Она стала динамической:
Мы рассмотрели, как создать «умную таблицу» на основе имеющихся данных. Если перед нами чистый лист, то значения сразу заносим в таблицу: «Вставка» - «Таблица».
Как сделать диаграмму в процентах в Excel?
Представлять информацию в процентах лучше всего с помощью круговых диаграмм.
Исходные данные для примера:
- Выделяем данные A1:B8. «Вставка» - «Круговая» - «Объемная круговая».
- Вкладка «Конструктор» - «Макеты диаграммы». Среди предлагаемых вариантов есть стили с процентами.
- Выбираем подходящий.
- Очень плохо просматриваются сектора с маленькими процентами. Чтобы их выделить, создадим вторичную диаграмму. Выделяем диаграмму. На вкладке «Конструктор» - «Изменить тип диаграммы». Выбираем круговую с вторичной.
- Автоматически созданный вариант не решает нашу задачу. Щелкаем правой кнопкой мыши по любому сектору. Должны появиться точки-границы. Меню «Формат ряда данных».
- Задаем следующие параметры ряда:
- Получаем нужный вариант:
Диаграмма Ганта в Excel
Диаграмма Ганта – это способ представления информации в виде столбиков для иллюстрации многоэтапного мероприятия. Красивый и несложный прием.
- У нас есть таблица (учебная) со сроками сдачи отчетов.
- Для диаграммы вставляем столбец, где будет указано количество дней. Заполняем его с помощью формул Excel.
- Выделяем диапазон, где будет находиться диаграмма Ганта. То есть ячейки будут залиты определенным цветом между датами начала и конца установленных сроков.
- Открываем меню «Условное форматирование» (на «Главной»). Выбираем задачу «Создать правило» - «Использовать формулу для определения форматируемых ячеек».
- Вводим формулу вида: =И(E$2>=$B3;E$2 Готовые примеры графиков и диаграмм в Excel скачать:
Пример создания динамического синхронного еженедельного графика вместе с ежедневным. Синхронное отображение двух таймфреймов на одном графике.
В программе Excel специально разрабатывались диаграммы и графики для реализации визуализации данных.
Диаграмма рассеяния ( scatter plot ) используется для отображения возможной взаимосвязи между двумя переменными. Диаграмма рассеяния незаменима при проведении корреляционного и регрессионного анализа.
Возьмем 2 переменные Х и Y и, соответственно, выборку состоящую из нескольких пар значений (Х i ; Y i ). Для наглядности зададим различные типы зависимости между переменными: линейную, квадратичную и затухающую синусоидальную. Для этого сгенерируем соответствующие тренды и настроим случайный разброс переменной Y (по нормальному закону ).
Сначала рассмотрим линейный тренд Y = aX + b (см. Файл примера, лист Линейный ). Параметры тренда (прямой линии) a и b зададим в отдельной табличке, там же зададим параметры отвечающие за величину дисперсии переменной Y.
Величину постоянного разброса (отвечающую за гомоскедастичность модели) будем задавать в % от среднего значения Y. Иногда, дисперсия переменной Y не постоянна (имеется неоднородность наблюдений - гетероскедастичность ). Поэтому, при построении формул учтем и такую возможность.
Для построения диаграммы рассеяния в файле примера использована диаграмма График , т.к. шаг по Х у нас задан постоянным. В случае реальных данных (переменная Х является случайной величиной, а не жестко заданной, как в нашем примере) используйте диаграмму типа Точечная. В файле примера реализовано оба варианта.
Примечание : Подробнее о построении диаграмм см. статьи Основы построения диаграмм и Основные типы диаграмм .
Отображение информации о 3-х переменных на двухмерной диаграмме
Предположим, что у нас имеются результаты измерения производительности некого непрерывного производственного процесса. Измерения проводились при различных рабочих температурах протекания процесса и в двух режимах.
Нам требуется построить двумерную диаграмму рассеяния (на плоскости), хотя у нас имеется 3 переменных: производительность, температура и режим .
Обратим внимание, что третья переменная Режим является категориальной (принимает только значения из ограниченного набора значений). В нашем случае переменная Режим принимает 2 значения: Режим №1 и Режим №2 (значения 1 и 2 присвоены номинально).
Пары значений ( производительность; температура ), относящиеся к Режиму №1 будем на диаграмме рассеяния выводить красным цветом, а относящиеся к Режиму №2 будем выводить синим ( файл примера лист 3-переменных ).
Такой же подход можно использовать для дискретных переменных , когда они принимают небольшое количество значений: 2-5.
Категоризованные диаграммы
Если третья переменная – непрерывная величина, то для отображения данных можно использовать так называемые категоризованные диаграммы (coplot = conditioning plot).
Теперь вместо категориальной переменной Режим у нас имеется непрерывная переменная Давление , которая принимает значения от 10 до 20. Предположим, что значение переменной Давление = 15, является неким пороговым и протекание процесса значительно отличается, если оно протекает при давлении от 10 до 15 и от 15 до 20. Используя этот факт строят 2 диаграммы:
- Пары значений ( производительность; температура ) при давлении от 10 до 15:
- Пары значений ( производительность; температура ) при давлении от 15 до 20.
Если пороговых значений 2, то понадобится 3 диаграммы и т.д. Эти диаграммы строятся аналогично диаграммам из предыдущего раздела.
Матрица диаграмм рассеивания
Для множественной регрессии, когда имеется 3 или более переменных, часто строят Матрицу диаграмм рассеивания (Matrix Scatter Plot, Scatter Plot Matrix - SPM).
Если имеется 3 переменных (x 1 , x 2 , y), то строятся 3 обычные диаграммы рассеяния отображающие парные взаимосвязи переменных: (x 1 , x 2 ); (x 1 , y); (x 2 , y).
Примечание : Чтобы найти количество диаграмм рассеяния в матрице, необходимо вычислить число сочетаний из n по 2, где n – число переменных. Например, для 4-х переменных число диаграмм равно ЧИСЛКОМБ(4;2) =6.
Иногда строят не только диаграмму (x 1 , x 2 ), но и (x 2 , x 1 ). В этом случае матрица будет содержать в 2 раза больше диаграмм рассеяния (см. файл примера лист Matrix ).
Примечание : Чтобы найти количество диаграмм рассеяния в такой (полной) матрице, необходимо вычислить число перестановок из n по 2, где n – число переменных. Например, для 4-х переменных число диаграмм равно ПЕРЕСТ(4;2) =12.
Читайте также: