Эмпирические распределения. Гистограммы. Полигоны частот
Гистограмма
Первичная обработка выборочных данных состоит обычно в отыскании максимального — xmax и минимального xmin значений выборки, а также размаха варьирования R = xmax – xmin.
Следующий этап первичной обработки выборки — группировка и ее графическое представление. Группировка выборки объема n состоит в следующем. Промежуток [xmin, xmax] разбивают на m интервалов группировки (чаще всего одинаковой длины и обычно 7£ m £20) и подсчитывают количество nj выборочных значений, которые попали в j-й интервал. Каждый интервал группировки Dj = (aj, bj) представлен своими левой aj и правой bj границами и числом nj элементов выборки, ему принадлежащих. Удобнее каждый интервал представлять не двумя границами, а одним числом — срединным значением.
Наиболее наглядная форма графического представления группировки — гистограмма.
Если d1, d2, …, dm — длины интервалов группировки, hj = nj /n — относительные частоты попадания наблюдений в j-й интервал группировки, а ¾
— их середины, то можно построить график ступенчатой функции
,
,
.
Этот график называется гистограммой.
Очевидно, что величина интервала группировки существенно влияет на вид гистограммы. При малой их ширине в каждый интервал попадает незначительное число наблюдений, или даже не попадает ни одного, гистограмма становится сильно «изрезанной» и плохо передает основные особенности изучаемого распределения.
Несколько общих правил:
- Перед началом группировки упорядочить выборочные значения по возрастанию (такая, упорядоченная по возрастанию выборка называется вариационным рядом).
- При выборе числа интервалов группировки ориентироваться на 10-20 интервалов.
- Использовать не перекрывающиеся открытые интервалы одинаковой длины, охватывающие всю область данных.
Пример 1
Видео
Пример 1. Для заданной выборки объёма n = 50 выполним первичную обработку (максимум, минимум, размах) и построим гистограмму.
На приведенном ниже рисунке изображён фрагмент листа Excel с выборочными значениями и результатами первичной обработки выборки.

Другая форма графического представления группированных данных — полигон частот.

Полигон частот — это ломаная линия, соединяющая точки с координатами , т.е. точек с абсциссами, равными серединам интервалов группировки и ординатами, равными соответствующим частотам.
Можно также построить полигон накопленных частот — график ломаной, соединяющей точки с координатами
или
— точек с абсциссами, равными правым границам интервалов группировки и ординатами, равными соответствующим накопленным частотам или относительным накопленным частотам.
Пример 2
Видео
Пример 2. Для заданной выборки объёма n = 50 построим полигон частот и полигон накопленных частот.
На приведенном ниже рисунке изображён фрагмент листа Excel с выборочными значениями и графиками – полигоном частот и полигоном накопленных частот.
Тема 2. Статистическое оценивание параметров распределений
Эмпирические распределения. Гистограммы. Полигоны частот
Инструменты Excel для построения гистограмм, полигонов
Процедура «Гистограмма» пакета «Анализ данных. Вычисление частот и накопленных частот. Построение гистограмм.
В процедуре автоматически выполняются следующие вычисления:
выбирается число m интервалов группировки (7 £ m £ 20);
вычисляются середины интервалов группировки
,
,
;
для каждого интервала вычисляются частоты nj — количество выборочных значений, которые попали в j -й интервал;

для каждого интервала вычисляются накопленные частоты — количество выборочных значений, не превышающих верхней границы j -го интервала;
Строится гистограмма – график ступенчатой функции
,
,
, D j = ( aj , bj ) ,
.
Для того чтобы вычислять накопленные частоты и отобразить гистограмму в листе в листе Excel , в окне процедуры следует пометить соответствующие поля.

Результаты вычислений процедуры представлены в виде таблицы (ниже приведены две таблицы, первая – когда поле «Интегральный процент» не помечено, вторая – когда помечено)
Как сделать полигон частот в Excel

Частотный полигон — это тип диаграммы, которая помогает нам визуализировать распределение значений.

В этом руководстве объясняется, как создать полигон частот в Excel.
Пример: полигон частот в Excel
Используйте следующие шаги для создания полигона частот.
Шаг 1: Введите данные для таблицы частот.
Введите следующие данные для таблицы частоты, которая показывает количество студентов, получивших определенный балл на экзамене:

Шаг 2: Найдите среднюю точку каждого класса.
Затем используйте функцию = СРЗНАЧ() в Excel, чтобы найти среднюю точку каждого класса, которая представляет среднее число в каждом классе:

Шаг 3: Создайте полигон частот.
Далее мы создадим полигон частот. Выделите значения частоты в столбце C:

Затем перейдите в группу « Диаграммы » на вкладке « Вставка » и щелкните первый тип диаграммы в « Вставить линию или диаграмму с областями» :

Автоматически появится полигон частот:

Чтобы изменить метки оси X, щелкните правой кнопкой мыши в любом месте диаграммы и выберите « Выбрать данные ». Появится новое окно. В разделе « Метки горизонтальной (категории) оси » нажмите « Изменить » и введите диапазон ячеек, содержащий значения средней точки. Нажмите OK , и новые метки осей появятся автоматически:

Не стесняйтесь изменять заголовок диаграммы, добавлять метки осей и изменять цвет графика, чтобы сделать его более эстетичным.

Из полигона частот легко увидеть, что большинство учащихся набрали 70-е и 80-е баллы, несколько — 60-е и еще меньше — 50-е и 90-е.
Постройка полигона и гистограммы частот
Для наглядного представления ряда распределения используют полигон и гистограмму частот.
Определение
Полигон частот – это ломаная, соединяющая точки (x1, n1), (x2, n2). (xk, nk), где xi – это варианты или наблюдаемые значения, а ni – частота вариантов.
Существует также полигон относительных частот, представляющий собой ломаную, которая образуется при соединении точек (x1, W1), (x2, W2). (xk, Wk). Величина W является отношением частоты данного варианта к объему выборочной совокупности и имеет вид:
Осторожно! Если преподаватель обнаружит плагиат в работе, не избежать крупных проблем (вплоть до отчисления). Если нет возможности написать самому, закажите тут.
где n – это объем выборки.
Гистограмму используют в случае непрерывного признака.
Определение
Гистограмма частот – это фигура в виде ступеней – прямоугольников, в основании которых лежат частичные интервалы длины h, а высотами служат Wi.
Для гистограммы относительных частот основанием прямоугольников ступенчатой фигуры служат частичные интервалы длины h, а высотами – отношение Wi/h.
Как построить полигон частот
Полигон частот строится следующим образом. На оси абсцисс отмечают наблюдения значения x, на оси ординат откладывают соответствующие xi частоты ni. Точки с координатами (xi, ni), соединенные прямыми отрезками, составляют ломаную – полигон частот.
Пример
Полигон частот для выборки со следующими значениями:
xi 92, 94, 95, 96, 97, 98.

Как построить гистограмму частот
Алгоритм построения гистограммы частот такой: на оси OX отмечаются частичные интервалы h, затем над отложенными значениями проводятся отрезки, параллельные оси OY, на расстоянии отношения плотности частоты ni/h.
Пример гистограммы частот при частичном интервале h, равном 3.
Сумма частот вариант h: 2–5, 5–8, 8–11, 11–14.
Плотность частоты ni/h: 3,3; 8,3.
![]()
Чему равна площадь гистограммы частот
Площадь отдельного прямоугольника гистограммы равна сумме частот интервала i и имеет вид:
Площадь всей гистограммы складывается из всех частот, значит, она равна объему выборки.
Примеры создания полигона и гистограммы в задачах
Задача 1
Успеваемость студентов по дисциплине «Высшая математика» представлена в виде баллов:
Баллы, x: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12.
Количество студентов, n: 1, 1, 2, 3, 4, 4, 6, 5, 3, 3, 2, 1.
Нужно построить полигон частот по этим данным.
Решение
На основе представленной информации строим точки и соединяем их отрезками прямой. Следует заметить, что точки с координатами (0; 0) и (13; 0), которые располагаются на оси OX, имеют своими абсциссами числа на 1 меньшее и большее, чем абсциссы наиболее левой и наиболее правой точек соответственно. Полигон частот выглядит так:
![]()
Задача 2
По итогам контрольной работы по биологии среди учеников 9-го класса получена информация о доступности вопросов тестирования (отношение количества учеников, верно ответивших на вопросы, к общему числу учащихся, написавших данную работу). Результаты:
Доступность вопросов, x (%): 25–35, 35–45, 45–55, 55–65, 75–85, 85–95.
Количество вопросов, n: 1, 1, 5, 7, 7, 3, 1.
Всего в контрольной работе было 25 вопросов.
Необходимо построить гистограмму по этому ряду распределения.
Решение
Отмечаем на оси абсцисс 7 отрезков длиной 10. Эти отрезки будут основанием прямоугольников с высотами 1, 1, 5, 7, 7, 3, 1. Ступенчатая фигура, полученная в результате перечисленных действий, является искомой гистограммой.