Полигон распределения частот. Группировка данных и построение ряда распределения. Создаем полигональный логотип в программе CorelDraw

Решение.

Строим точки основываясь на данных из таблицы. Полученные точки соединяем отрезками прямой. Обратите внимание на точки (0; 0) и (13; 0), расположенные на оси абсцисс и имеющие своими абсциссами числа, на 1 меньшее и большее, чем соответственно абсциссы самой левой и самой правой точек. Полигон частот изображен на рисунке.

Если полигон строят по данным интервального ряда, то в качестве абсцисс точек берут середины соответствующих интервалов. Крайние левую и правую точки соединяют с точками оси абсцисс - серединами ближайших интервалов, частоты которых равны нулю. Конечно, в этом случае полигон лишь приближенно отображает зависимость частот от значений аргумента.

Кумулята служит для графического изображения кумулятивного вариационного ряда. Для ее построения на оси абсцисс откладывают значения аргумента, а на оси ординат - накопленные частоты или накопленные относительные частоты. Масштаб на каждой оси выбирают произвольно. Далее строят точки, абсциссы которых равны вариантам (в случае дискретных рядов) или верхним границам интервалов (в случае интервальных рядов), а ординаты - соответствующим частотам (накопленным частотам). Эти точки соединяют отрезками прямой. Полученная ломаная и является кумулятой.

Пример построения кумуляты

По данным таблицы составить кумулятивный вариационный ряд, для которого построить кумуляту.

Решение.

Cоставим кумулятивный вариационный ряд (см. таблицу ниже), для которого построим кумуляту.

Гистограмму используют для изображения интервальных рядов. Для построения гистограммы по данным вариационного ряда с равными интервалами, как и для построения полигона, на оси абсцисс откладывают значения аргумента, а на оси ординат - значения частот или относительных частот. Далее строят прямоугольники, основаниями которых служат отрезки оси абсцисс, длины которых равны длинам интервалов, а высотами - отрезки, длины которых пропорциональны частотам или относительным частотам соответствующих интервалов.

В результате получают ступенчатую фигуру в виде сдвинутых друг к другу прямоугольников, площади которых пропорциональны частотам (или относительным частотам).

Если интервалы неравные, то на оси ординат следует откладывать в произвольно выбранном масштабе значения плотности распределения (абсолютной или относительной). Таким образом, высоты прямоугольников, которые мы строим, должны равняться плотностям соответствующих интервалов.



При графическом изображении вариационного ряда с помощью гистограммы плотность изображается так, как если бы она оставалась постоянной внутри каждого интервала. На самом деле, как правило, это не так. Если построить распределение по частям интервалов, то можно убедиться в том, что плотность распределения на различных участках интервала не остается постоянной. Плотность, полученная ранее, представляла лишь некоторую среднюю плотность. Итак, гистограмма изображает не фактическое изменение плотности распределения, а лишь средние плотности распределения на каждом интервале.

Если построена гистограмма интервального распределения, то полигон того же распределения можно получить, если соединить прямолинейными отрезками середины верхних оснований прямоугольников.

Пример построения гистограммы

По результатам тестирования по математике учащихся 7-го класса получены данные о доступности заданий теста (отношение числа учащихся, правильно выполнивших задания, к числу тестировавшихся учащихся), предствленные ниже, в таблице.
Тест содержал 25 заданий. Построить гистограмму.

Решение.

Откладываем на оси абсцисс 7 отрезков длиной 10. На них, как на основаниях, строим прямоугольники, высоты которых соответственно равны 1, 1, 5, 7, 7, 3, 1. Полученная ступенчатая фигура и является искомой гистограммой.

Пример построения гистограммы

Данные, приведенные в предыдущем примере представим более подробно (см. таблицу ниже.). Построить гистограмму.

Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось п 1 раз, х 2 - п 2 раз, х к - п к раз и - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом .

Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой .

Определение. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант и соответствующих им частот п i или относительных частот .

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

(сумма всех относительных частот равна единице ).

Пример 1 . При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72,74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.

Решение. 1) Статистический ряд распределения частот:

Контроль: 0,1 + 0,2 + 0,4 + 0,1 + 0,2 = 1.

Полигоном частот называют ломаную, отрезки, которой соединяют точки Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат - соответствующие им частоты п i . Точки соединяют отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки соединяют отрезками и получают полигон относительных частот

Пример 2. Постройте полигон частот и полигон относительных частот по данным примера 1.

Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:


2. Статистический интервальный ряд распределения. Гистограмма .

Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интерисующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.


Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

1. R(размах) = X max -X min

2. k- число групп

3. (формула Стерджеса)

4. a = x min , b = x max

Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:

Интервалы группировки ...
Частоты ...

Аналогическую таблицу можно образовать, заменяя частоты n i относительными частотами.

Полигон частот

Пусть нам дан ряд распределения, записанный с помощью таблицы:

Рисунок 1.

Определение 1

Полигон частот -- ломанная, которая соединяет точки $(x_m,n_m)$ ($m=1,2,\dots ,m)$.

То есть, для построения полигона частот необходимо на оси абсцисс откладывают значения вариант, а по оси ординат соответствующие частоты. Полученные точки соединяют ломанной:

Рисунок 2. Полигон частот.

Помимо обычной частоты существует еще понятие относительной частоты.

Получаем следующую таблицу распределения относительных частот:

Рисунок 3.

Определение 2

Полигон относительных частот -- ломанная, которая соединяет точки $(x_m,W_m)$ ($m=1,2,\dots ,m)$.

То есть, для построения полигона частот необходимо на оси абсцисс откладывают значения вариант, а по оси ординат соответствующие относительные частоты. Полученные точки соединяют ломанной:

Рисунок 4. Полигон относительных частот.

Гистограмма частот

Помимо понятия полинома для непрерывных значений существует понятие гистограммы.

Заметим, что площадь одного такого прямоугольника $\frac{n_ih}{h}=n_i$. Следовательно, площадь всей фигуры равна $\sum{n_i}=n$, то есть равна объему выборки.

Определение 4

Гистограмма относительных частот -- ступенчатая фигура, состоящая из прямоугольников с основанием -- частичными интервалами длины $h$ и высотами $\frac{W_i}{h}$:

Рисунок 6. Гистограмма относительных частот.

Заметим, что площадь одного такого прямоугольника $\frac{W_ih}{h}=W_i$. Следовательно, площадь всей фигуры равна $\sum{W_i}=W=1$.

Примеры задачи на построение полигона и гистограммы

Пример 1

Пусть распределение частот имеет вид:

Рисунок 7.

Построить полигон относительных частот.

Построим сначала ряд распределения относительных частот по формуле $W_i=\frac{n_i}{n}$

Для выполнения этого задания проделайте следующие пункты.

  1. Перейдите на новый рабочий лист. Введите данные представленные в примере в ячейки А1:А36.

2. Сначала получите распределение выборки по частотам и относительным частотам (частостям) в виде:

w i w 1 w 2 w k

Для этого в ячейку С1 введите «x i », в ячейку С2 введем «n i » в ячейку С3 ввести w i .

  1. Далее необходимо заполнить ячейки D1:W1 значениями ряда данных от минимального 0 до максимального 19. Для этого можно использовать маркер заполнения.

4. Затем с помощью функции СЧЁТЕСЛИ подсчитайте, сколько раз наблюдается то или иное значение. Для этого установите курсор в ячейку D2. Вызовите функцию СЧЁТЕСЛИ в строку Диапазон введите абсолютную ссылку на диапазон ячеек $А$1:$А$36 (ссылка на диапазон ячеек должна быть абсолютной!). В строке Критерий введите адрес ячейки D1, в которой находится первая варианта 0 и щелкните ОК. В результате в ячейке появится число 1.

  1. Теперь с помощью маркера заполнения скопируйте функцию, находящиеся в ячейке D2, в ячейки Е2: W2. В результате получим распределение выборки по частотам:
x i
n i

6. Далее вычислите относительные частоты. Для выполнения этого задания необходимо сначала вычислить объем выборки. Для этого в ячейку Х2 поставьте курсор, нажмите значок автосуммы , а затем на Enter. В результате в этой ячейке появится сумма всех частот 36 (сумма чисел диапазона D2: W2).

7. Вычислите относительные частоты. Для этого поместите курсор в ячейку D3 и наберите в ней формулу: =D2/$Х$2 (ссылка на объем выборки должна быть абсолютной!). Выделите эту ячейку и скопируйте набранную формулу с помощью Маркера заполнения в ячейки D3: W3.



8. Теперь постройте полигон частот. Его можно быстро построить с помощью обычного Мастера диаграмм . Для этого выделите диапазон ячеек D1:W2 и вызовите Мастер диаграмм .

9. В появившемся диалоговом окне Мастера диаграмм (шаг 1 из 4): тип диаграммы выберите Диаграмма XY , а затем вариант Линии и точки . Нажмите кнопку Далее .

10. В следующем окне Мастера диаграмм (шаг 2 из 4 ): диапазон данных отметьте Ряды в строках , и нажмите Далее .

11. В следующем окне Мастера диаграмм (шаг 3 из 4 ): ряд данных ничегоменять не нужно, нажмите сразу Далее

12. В последнем окне Мастера диаграмм (шаг 4 из 4 ): элементы диаграмм

· в поле Заголовок наберите: «Полигон частот »;

· в поле Ось Х (категорий ): название оси X: «Варианты »;

· в поле Ось Y (значений ): название оси Y: «Частоты »;

13. В области Отображать Сетку снимите галочку с переключателя Ось Y (значений ).

14. В правой области снимите галочку с переключателя Показать легенду и нажмите на кнопку Готово .

16. В результате у Вас должен следующий полигон частот.

17. Теперь постройте полигон относительных частот. Для этого выделите интервал ячеек с вариантами D1:W1, а затем удерживая клавишу Ctrl мышью выделите интервал ячеек с относительными частотами D3:W3.

18. Вызовите Мастер диаграмм и проделайте все те же действия, что и при построении полигона частот, за исключением, подписей. В окне Мастер диаграмм (шаг 4 из 4 ): элементы диаграмм в поле Заголовок наберите: «Полигон относительных частот ». Здесь же необходимо набрать другое название оси Y: «Относительные частоты », название оси Х остается такое же, как и в полигоне частот.

20. После всех выполненных по форматированию этой диаграммы действий обратите внимание на то, что числа на оси Y имеют различное количество знаков после запятой. Чтобы количество знаков после запятой в подписях оси было одинаковым, следует:

  • щелкнуть дважды мышью по этой оси;
  • в появившемся диалоговом окне Ось Y выбрать вкладку Число ;
  • в группе Категория выбрать Числовой и установить Число дробных знаков : 2.
  • нажать ОК .

Готовый полигон относительных частот должен иметь вид:

Контрольные вопросы.

1. Для чего предназначена функция СРЗНАЧ?

2. С помощью каких характеристик оценивают разброс статистических данных? Какие функции в Excel их вычисляют? В чем отличие функции оценки разброса данных для генеральной и выборочной совокупности?

3. В чем отличие функций СЧЕТ и СЧЕТЗ?

4. Что такое мода и какая функция ее вычисляет?

5. Что такое медиана и какая функция ее вычисляет?

6. Как вычислить размах варьирования?

7. С помощью каких характеристик оценивают отклонение случайного распределения от нормального? Какой смысл этих характеристик и какие функции в Excel их вычисляют?

8. Что такое Инструменты Анализа ? Как загрузить Пакет Анализа в Excel ?

9. Опишите последовательность действий, которые необходимо совершить для генерации случайных чисел распределенных нормально.

10. Как построить гистограмму?

11. Для чего предназначен инструмент Описательная статистика ?

12. Что называется полигоном частот и полигоном относительных частот?

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Пример №1 . По данным таблицы 2 постройте ряды распределения по 40 коммерческим банкам РФ. По полученным рядам распределения определите: прибыль в среднем на один коммерческий банк, кредитные вложения в среднем на один коммерческий банк, модальное и медианное значение прибыли; квартили, децили, размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, коэффициент вариации.

Решение :
В разделе «Вид статистического ряда» выбираем Дискретный ряд. Нажимаем Вставить из Excel . Количество групп: по формуле Стэрджесса

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.

Пример №3 . В результате 5%-ной собственно-случайной выборки получено следующее распределение изделий по содержанию влаги. Рассчитайте: 1) средний процент влажности; 2) показатели, характеризующие вариацию влажности.
Решение получено с помощью калькулятора : Пример №1

Построить вариационный ряд. По найденному ряду построить полигон распределения, гистограмму, кумуляту. Определить моду и медиану.
Скачать решение

Пример . По результатам выборочного наблюдения (выборка А приложение):
а) составьте вариационный ряд;
б) вычислите относительные частоты и накопленные относительные частоты;
в) постройте полигон;
г) составьте эмпирическую функцию распределения;
д) постройте график эмпирической функции распределения;
е) вычислите числовые характеристики: среднее арифметическое, дисперсию, среднее квадратическое отклонение. Решение

На основе данных, приведенных в Таблице 4 (Приложение 1) и соответствующих Вашему варианту, выполнить:

  1. На основе структурной группировки построить вариационный частотный и кумулятивный ряды распределения, используя равные закрытые интервалы, приняв число групп равным 6. Результаты представить в виде таблицы и изобразить графически.
  2. Проанализировать вариационный ряд распределения, вычислив:
    • среднее арифметическое значение признака;
    • моду, медиану, 1-ый квартиль, 1-ый и 9-тый дециль;
    • среднее квадратичное отклонение;
    • коэффициент вариации.
  3. Сделать выводы.

Требуется: ранжировать ряд, построить интервальный ряд распределения, вычислить среднее значение, колеблемость среднего значения, моду и медиану для ранжированного и интервального рядов.

На основе исходных данных построить дискретный вариационный ряд ; представить его в виде статистической таблицы и статистических графиков. 2). На основе исходных данных построить интервальный вариационный ряд с равными интервалами. Число интервалов выбрать самостоятельно и объяснить этот выбор. Представить полученный вариационный ряд в виде статистической таблицы и статистических графиков. Указать виды примененных таблиц и графиков.

С целью определения средней продолжительности обслуживания клиентов в пенсионном фонде, число клиентов которого очень велико, по схеме собственно-случайной бесповторной выборки проведено обследование 100 клиентов. Результаты обследования представлены в таблице. Найти:
а) границы, в которых с вероятностью 0.9946 заключено среднее время обслуживания всех клиентов пенсионного фонда;
б) вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине);
в) объем повторной выборки, при котором с вероятностью 0.9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).
2. По данным задачи 1, используя X 2 критерий Пирсона, на уровне значимости α = 0,05 проверить гипотезу о том, что случайная величина Х – время обслуживания клиентов – распределена по нормальному закону. Построить на одном чертеже гистограмму эмпирического распределения и соответствующую нормальную кривую.
Скачать решение

Дана выборка из 100 элементов. Необходимо:

  1. Построить ранжированный вариационный ряд;
  2. Найти максимальный и минимальный члены ряда;
  3. Найти размах вариации и количество оптимальных промежутков для построения интервального ряда. Найти длину промежутка интервального ряда;
  4. Построить интервальный ряд. Найти частоты попадания элементов выборки в составленные промежутки. Найти средние точки каждого промежутка;
  5. Построить гистограмму и полигон частот. Сравнить с нормальным распределением (аналитически и графически);
  6. Построить график эмпирической функции распределения;
  7. Рассчитать выборочные числовые характеристики: выборочное среднее и центральный выборочный момент;
  8. Рассчитать приближенные значения среднего квадратического отклонения, асимметрии и эксцесса (пользуясь пакетом анализа MS Excel). Сравнить приближенные расчетные значения с точными (рассчитанные по формулам MS Excel);
  9. Сравнить выборочные графические характеристики с соответствующими теоретическими.
Скачать решение

Имеются следующие выборочные данные (выборка 10%-ная, механическая) о выпуске продукции и сумме прибыли, млн. руб. По исходным данным:
Задание 13.1.
13.1.1. Постройте статистический ряд распределения предприятий по сумме прибыли, образовав пять групп с равными интервалами. Постройте графики ряда распределения.
13.1.2. Рассчитайте числовые характеристики ряда распределения предприятий по сумме прибыли: среднюю арифметическую, среднее квадратическое отклонение, дисперсию, коэффициент вариации V. Сделайте выводы.
Задание 13.2.
13.2.1. Определите границы, в которых с вероятностью 0.997 заключена сумма прибыли одного предприятия в генеральной совокупности.
13.2.2. Используя x2-критерий Пирсона , при уровне значимости α проверить гипотезу о том, что случайная величина X – сумма прибыли – распределена по нормальному закону.
Задание 13.3.
13.3.1. Определите коэффициенты выборочного уравнения регрессии.
13.3.2. Установите наличие и характер корреляционной связи между стоимостью произведённой продукции (X) и суммой прибыли на одно предприятие (Y). Постройте диаграмму рассеяния и линию регрессии.
13.3.3. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами X и Y, используя шкалу Чеддока .
Методические рекомендации . Задание 13.3 выполняется с помощью этого сервиса .
Скачать решение

Задача . Следующие данные представляют собой затраты времени клиентов на заключение договоров. Построить интервальный вариационный ряд представленных данных, гистограмму, найти несмещенную оценку математического ожидания, смещенную и несмещенную оценку дисперсии.

Пример . По данным таблицы 2:
1) Постройте ряды распределения по 40 коммерческим банкам РФ:
А) по величине прибыли;
Б) по величине кредитных вложений.
2) По полученным рядам распределения определите:
А) прибыль в среднем на один коммерческий банк;
Б) кредитные вложения в среднем на один коммерческий банк;
В) модальное и медианное значение прибыли; квартили, децили;
Г) модальное и медианное значение кредитных вложений.
3) По полученным в п. 1 рядам распределения рассчитайте:
а) размах вариации;
б) среднее линейное отклонение;
в) среднее квадратическое отклонение;
г) коэффициент вариации.
Необходимые расчеты оформите в табличной форме. Результаты проанализируйте. Сделайте выводы.
Постройте графики полученных рядов распределения. Графически определите моду и медиану.

Решение:
Для построения группировка с равными интервалами воспользуемся сервисом Группировка статистических данных .

Рисунок 1 – Ввод параметров

Описание параметров
Количество строк : количество исходных данных. Если размерность ряда небольшая, укажите его количество. Если выборка достаточно объемная, то нажмите кнопку Вставить из Excel .
Количество групп : 0 – число групп будет определяться по формуле Стэрджесса.
Если задано конкретное число групп, укажите его (например, 5).
Вид ряда : Дискретный ряд.
Уровень значимости : например, 0.954 . Этот параметр задается для определения доверительного интервала среднего значения.
Выборка : Например, проведена 10% -ная механическая выборка. Указываем число 10 . Для наших данных указываем 100 .