Как сделать средневзвешенное значение
Взвешенное среднее арифметическое аналогична обычной среднее арифметическое (наиболее распространенный тип в среднем ), за исключением того, что вместо каждой из точек данных , способствующих в равной степени к финалу среднем, некоторые точки данных способствуют больше , чем другие. Понятие взвешенного среднего играет роль в описательной статистике, а также встречается в более общей форме в некоторых других областях математики.
Если все веса равны, то средневзвешенное значение совпадает со средним арифметическим . Хотя взвешенные средние обычно ведут себя аналогично средним арифметическим, у них действительно есть несколько нелогичных свойств, как, например, зафиксировано в парадоксе Симпсона .
СОДЕРЖАНИЕ
Учитывая два школьных класса, один с 20 учениками и один с 30 учениками, оценки в каждом классе по тесту были:
Утреннее занятие = 62, 67, 71, 74, 76, 77, 78, 79, 79, 80, 80, 81, 81, 82, 83, 84, 86, 89, 93, 98 Дневной класс = 81, 82, 83, 84, 85, 86, 87, 87, 88, 88, 89, 89, 89, 90, 90, 90, 90, 91, 91, 91, 92, 92, 93, 93 , 94, 95, 96, 97, 98, 99
Среднее значение для утреннего класса составляет 80, а для дневного класса - 90. Невзвешенное среднее значение двух средних составляет 85. Однако это не учитывает разницу в количестве учеников в каждом классе (20 против 30); следовательно, значение 85 не отражает среднюю оценку учащегося (независимо от класса). Среднюю оценку студента можно получить путем усреднения всех оценок без учета классов (сложите все оценки и разделите на общее количество студентов):
Таким образом, взвешенное среднее позволяет найти среднюю среднюю оценку учащегося, не зная оценки каждого учащегося. Требуются только средства класса и количество учеников в каждом классе.
Поскольку важны только относительные веса, любое средневзвешенное значение может быть выражено с помощью коэффициентов, сумма которых равна единице. Такая линейная комбинация называется выпуклой комбинацией .
Используя предыдущий пример, мы получили бы следующие веса:
Затем примените такие веса:
который расширяется до:
Следовательно, элементы данных с большим весом вносят больший вклад в средневзвешенное значение, чем элементы с низким весом. Вес не может быть отрицательным. Некоторые из них могут быть равны нулю, но не все (так как деление на ноль недопустимо).
Формулы упрощаются, если веса нормализованы таким образом, что они в сумме составляют , то есть: 1
Тогда для таких нормированных весов средневзвешенное значение будет:
Обратите внимание, что всегда можно нормализовать веса, сделав следующее преобразование исходных весов:
Использование нормализованного веса дает те же результаты, что и при использовании исходных весов:
Обычный средний частный случай взвешенного среднего , где все данные имеют равные веса. 1 n ∑ i = 1 n x i >\sum _^>>
Стандартная ошибка среднего взвешенного (блок ввода отклонений) , можно показать с помощью распространения неопределенности быть: σ x ¯ >>
Взвешенное значение выборки, само по себе является случайной величиной. Его ожидаемое значение и стандартное отклонение связаны с ожидаемыми значениями и стандартными отклонениями наблюдений следующим образом. Для простоты мы предполагаем нормализованные веса (веса, суммирующие единицу). x ¯ >>
Если наблюдения имеют ожидаемые значения
тогда средневзвешенное значение выборки имеет ожидание
В частности, если средние равны, то математическое ожидание средневзвешенного выборочного среднего будет этим значением, μ i = μ =\mu >
Для некоррелированных наблюдений с дисперсиями дисперсия средневзвешенного значения выборки [ необходима ссылка ] σ i 2 ^>
квадратный корень которого можно назвать стандартной ошибкой средневзвешенного значения (общий случай) . [ необходима цитата ] σ x ¯ >>
Следовательно, если все наблюдения имеют одинаковую дисперсию, средневзвешенное значение выборки будет иметь дисперсию σ i 2 = σ 0 2 ^=\sigma _^>
где . Дисперсия достигает максимального значения, когда все веса, кроме одного, равны нулю. Его минимальное значение находится, когда все веса равны (т. Е. Невзвешенное среднее), и в этом случае мы имеем , т. Е. Оно вырождается в стандартную ошибку среднего , возведенного в квадрат. 1 / n ≤ ∑ i = 1 n w i ′ 2 ≤ 1 ^'^>\leq 1> σ 0 2 ^> σ x ¯ = σ 0 / n >=\sigma _/<\sqrt >>
Обратите внимание, что, поскольку ненормализованные веса всегда можно преобразовать в нормализованные веса, все формулы в этом разделе можно адаптировать к ненормализованным весам, заменив all . w i ′ = w i ∑ i = 1 n w i '=>^>>>>
Для средневзвешенного значения списка данных, для которого каждый элемент потенциально происходит из другого распределения вероятностей с известной дисперсией , один из возможных вариантов весов задается обратной величиной дисперсии: x i > σ i 2 ^>
Средневзвешенное значение в этом случае:
а стандартная ошибка средневзвешенного значения (с весами дисперсии) составляет:
Обратите внимание, что это сводится к тому, когда все . Это частный случай общей формулы из предыдущего раздела, σ x ¯ 2 = σ 0 2 / n >^=\sigma _^/n> σ i = σ 0 =\sigma _>
Приведенные выше уравнения можно объединить, чтобы получить:
Значение этого выбора состоит в том, что это взвешенное среднее является оценкой максимального правдоподобия среднего значения распределений вероятностей в предположении, что они независимы и нормально распределены с одним и тем же средним значением.
Взвешенные средние обычно используются для нахождения средневзвешенного значения исторических данных, а не теоретически сгенерированных данных. В этом случае будет некоторая ошибка в дисперсии каждой точки данных. Обычно экспериментальные ошибки могут быть недооценены из-за того, что экспериментатор не принимает во внимание все источники ошибок при вычислении дисперсии каждой точки данных. В этом случае необходимо скорректировать дисперсию средневзвешенного значения, чтобы учесть тот факт, что оно слишком велико. Исправление, которое необходимо сделать, это χ 2 >
где это уменьшенный хи-квадрат : χ ν 2 ^>
Квадратный корень можно назвать стандартной ошибкой взвешенного среднего (веса дисперсии, скорректированный масштаб) . σ ^ x ¯ >_>>
Когда все дисперсии данных равны, они компенсируются средневзвешенной дисперсией, которая снова сводится к стандартной ошибке среднего (в квадрате) , сформулированной в терминах стандартного отклонения выборки (в квадрате), σ i = σ 0 =\sigma _> σ x ¯ 2 >^> σ x ¯ 2 = σ 2 / n >^=\sigma ^/n>
Методами начальной загрузки было показано, что следующая точная оценка квадрата стандартной ошибки среднего (общий случай): [1]
где . Дальнейшее упрощение приводит к w s = ∑ w i =\sum w_>
Обычно при вычислении среднего значения важно знать дисперсию и стандартное отклонение этого среднего значения. Когда используется взвешенное среднее , дисперсия взвешенной выборки отличается от дисперсии невзвешенной выборки. μ ∗ >
Смещен взвешенная дисперсия выборки определяются аналогично обычной необъективной выборочной дисперсия : σ ^ w 2 >_ <\mathrm
где , что соответствует нормированным весам. Если веса являются частотными весами (и, следовательно, являются случайными величинами), можно показать, что это оценка максимального правдоподобия для iid гауссовских наблюдений. V 1 = ∑ i = 1 N w i =\sum _^w_> 1 σ ^ w 2 >_ <\mathrm
Для небольших выборок обычно используется несмещенная оценка дисперсии генеральной совокупности. В нормальных невзвешенных выборках N в знаменателе (соответствующем размеру выборки) изменяется на N - 1 (см. Поправку Бесселя ). В настройке с взвешиванием на самом деле есть два разных несмещенных оценщика, один для случая частотных весов, а другой - для случая весов надежности .
Если веса являются частотными весами (где вес равен количеству вхождений), то несмещенная оценка:
Это эффективно применяет поправку Бесселя для частотных весов.
Например, если значения взяты из одного и того же распределения, то мы можем рассматривать этот набор как невзвешенную выборку или мы можем рассматривать его как взвешенную выборку с соответствующими весами , и в любом случае мы получим тот же результат. < 2 , 2 , 4 , 5 , 5 , 5 >> < 2 , 4 , 5 >> < 2 , 1 , 3 >>
Если частотные веса нормализованы к 1, то правильное выражение после поправки Бесселя станет < w i >\>>
где общее количество образцов равно (не ). В любом случае информация об общем количестве отсчетов необходима для получения несмещенной поправки, даже если она имеет иное значение, чем частотный вес. V 1 > N w i >
Обратите внимание, что оценщик может быть несмещенным только в том случае, если веса не стандартизированы и не нормализованы , эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потере базовой скорости (подсчет населения, который является требованием для коррекции Бесселя).
Если веса не случайны ( веса надежности [ необходимо определение ] ), мы можем определить поправочный коэффициент, чтобы получить несмещенную оценку. Предполагая, что каждая случайная переменная выбирается из одного и того же распределения со средней и фактической дисперсией , принимая наши ожидания, μ σ actual 2 >^>
где . Следовательно, смещение в нашей оценке аналогично смещению в невзвешенной оценке (также обратите внимание, что это эффективный размер выборки ). Это означает, что для получения несмещенной оценки нам необходимо предварительно разделить на , гарантируя, что ожидаемое значение оцененной дисперсии равно фактической дисперсии выборочного распределения. V 2 = ∑ i = 1 N w i 2 =\sum _^w_^> ( 1 − V 2 V 1 2 ) <\displaystyle \left(1-<\frac
Окончательная объективная оценка дисперсии выборки:
Степени свободы взвешенной несмещенной дисперсии выборки соответственно изменяются от N - 1 до 0.
Стандартное отклонение - это просто квадратный корень из приведенной выше дисперсии.
В качестве примечания, были описаны другие подходы для вычисления взвешенной дисперсии выборки. [3]
Во взвешенной выборке каждому вектору-строке (каждому набору отдельных наблюдений по каждой из K случайных величин) присваивается вес . x i >_> w i ≥ 0 \geq 0>
Тогда вектор взвешенного среднего определяется как μ ∗ > >
Матрица взвешенной ковариации имеет следующий вид: [4]
Как и в случае взвешенной выборочной дисперсии, существуют две разные несмещенные оценки в зависимости от типа весов.
Если веса являются частотными весами , несмещенная взвешенная оценка ковариационной матрицы с поправкой Бесселя дается следующим образом: [4] C >
Обратите внимание, что эта оценка может быть несмещенной только в том случае, если веса не стандартизированы и не нормализованы , эти процессы изменяют среднее значение и дисперсию данных и, таким образом, приводят к потере базовой скорости (подсчет населения, который является требованием для поправки Бесселя).
В случае весов надежности , гири нормированы :
(Если это не так, разделите веса на их сумму для нормализации перед вычислением : V 1 >
Тогда вектор взвешенного среднего можно упростить до μ ∗ > >
а несмещенная взвешенная оценка ковариационной матрицы : [5] C >
Рассуждения здесь те же, что и в предыдущем разделе.
Поскольку мы предполагаем, что веса нормализованы, это сводится к следующему: V 1 = 1 =1>
Если все веса одинаковы, т. Е. Тогда взвешенное среднее и ковариация сводятся к невзвешенному выборочному среднему и ковариации, указанным выше. w i / V 1 = 1 / N /V_=1/N>
Сказанное легко обобщается на случай усреднения векторных оценок. Например, оценки местоположения на плоскости могут иметь меньшую уверенность в одном направлении, чем в другом. Как и в скалярном случае, средневзвешенное значение нескольких оценок может обеспечить оценку максимального правдоподобия . Мы просто заменить дисперсию со стороны матрицей ковариации и арифметическими обратным по матрице , обратной (оба обозначены таким же образом, с помощью надиндексов); матрица весов будет выглядеть так: [6] σ 2 > C >
Средневзвешенное значение в этом случае:
(где порядок произведения матрица-вектор не коммутативен ) в терминах ковариации взвешенного среднего:
Например, рассмотрим средневзвешенное значение точки [1 0] с высокой дисперсией во втором компоненте и [0 1] с высокой дисперсией в первом компоненте. потом
тогда средневзвешенное значение:
что имеет смысл: оценка [1 0] "совместима" во втором компоненте, а оценка [0 1] согласована в первом компоненте, поэтому взвешенное среднее почти равно [1 1].
В общем случае предположим, что , - это ковариационная матрица, связывающая количества , - это общее среднее значение, которое необходимо оценить, и это матрица плана, равная вектору единиц (длины ). Теорема Гаусса – Маркова утверждает, что оценка среднего с минимальной дисперсией определяется по формуле: X = [ x 1 , … , x n ] T =[x_,\dots ,x_]^> C > x i > x ¯ >> J > [ 1 , . . . , 1 ] T <\displaystyle [1. 1]^> n
Рассмотрим временной ряд независимой переменной и зависимой переменной с выборкой наблюдений в дискретные моменты времени . Во многих распространенных ситуациях значение во времени зависит не только от его прошлых значений, но и от него. Обычно сила этой зависимости уменьшается с увеличением разнесения наблюдений во времени. Чтобы смоделировать эту ситуацию, можно заменить независимую переменную ее скользящим средним для размера окна . x y n t i > y t i > x i > z m
В сценарии, описанном в предыдущем разделе, чаще всего уменьшение силы взаимодействия подчиняется отрицательному экспоненциальному закону. Если наблюдения производятся через эквидистантные моменты времени, то экспоненциальное уменьшение эквивалентно уменьшению на постоянную долю на каждом временном шаге. Установив, мы можем определить нормализованные веса с помощью 0 Δ 1 m
где - сумма ненормированных весов. В этом случае просто V 1 > V 1 >
подходит для больших значений . V 1 = 1 / ( 1 − w ) =1/(1-w)> m
Константа затухания должна соответствовать фактическому снижению силы взаимодействия. Если это не может быть определено из теоретических соображений, то следующие свойства экспоненциально убывающих весов полезны для принятия подходящего выбора: на шаге вес приблизительно равен , площадь хвоста - значение , площадь головы . Хвостовая зона у шага есть . Если в первую очередь важны самые близкие наблюдения, а влияние остальных наблюдений можно безопасно игнорировать, тогда выбирайте так , чтобы площадь хвоста была достаточно маленькой. w ( 1 − w ) − 1 > e − 1 ( 1 − w ) = 0.39 ( 1 − w ) >(1-w)=0.39(1-w)> e − 1 > 1 − e − 1 = 0.61 >=0.61> n ≤ e − n ( 1 − w ) >> n w
Понятие средневзвешенного значения можно распространить на функции. [7] Средневзвешенные функции играют важную роль в системах взвешенного дифференциального и интегрального исчисления. [8]
Читайте также: