воскресенье, 8 сентября 2013 г.

Почему нужно изучить статистику?

Статистика – это наука, изучающая величину, количественную сторону массовых общественных явлений в неразрывной связи с качественной стороной этих явлений, с их социально-экономическим содержанием. В отличии от математики, которая изучает также количественные отношения, но в отвлеченной форме, независимо от того, об отношениях каких предметов или явлений идет речь, статистика имеет дело с числами, выражающими размеры определенных общественных явлений. В то же время имеются специфические задачи, для решений которых традиционные математические методы мало пригодны. Поэтому и возникла в качестве самостоятельной дисциплины - математическая статистика. Отдельные ее разделы включает в себя общая теория статистики. Приведем некоторые   примеры, обусловливающие статистики как науки со своими специфическими методами и категориями. 


ПРИМЕР 1
Из кипы хлопка наугад вытащены пучки и измерены длины попавших  в них волокон. Результаты первых 28 замеров (в см.) оказались следующими: 
2,10; 2,23; 2,16; 2,56; 2,05; 2,20; 2,34; 2,18; 1,95; 2,21; 2,46; 2,28; 1,95; 2,21; 2,46; 2,28; 1,95; 2,54; 2,12; 2,05; 2,15; 2,18; 2,21; 2,34; 2,28; 2,34; 2,20; 2,42; 2,55; 2,12; 2,27. Запись результатов наблюдений в таком виде мало наглядна, занимает много места, и из нее трудно делать выводы. Обычно стремятся данные  наблюдений сделать более удобными для восприятия и для последующей обработки. Это особенно важно, когда число наблюдений велико и достигает многих сотен, а то и тысяч. Для этого результаты наблюдений сводят в таблицы. Весь интервал возможных знаний разбивают на части (как правило, равной длины) и подсчитывают число наблюдений, попавших в каждый из отрезков. 

ПРИМЕР 2
В следующей таблице приведены данные о надое 100 коров. Надой указан в тысячи литров: величина промежутка разбиения – 600л. Уже беглый взгляд на таблицу показывает, что мало и коров с малым удоем, и коров-рекордисток.

Группы по надою, тыс.л.
Число коров
1,6 -2,2
4
2,2 -2,8
14
2,8 -3,4
17
3,4 - 4,0
37
4,0 - 4,6
15
4,6 - 5,2
6
5,2 - 5,8
4
5,8 - 6,2
3


Из этой таблицы видно, что наибольшее число коров оказывается в средней части таблицы.

ПРИМЕР 3
На этом примере мы будем изучать промежутки между временами прибытия судов в морской порт. За некоторый срок прибыло 185 судов. Данные сведены в следующей таблице.
 
Промежутки
между прибытиями, мин
0-4
4-8
8-12
12-16
16-20
20-24
24-28
28-32
Число случаев
67
43
30
18
11
7
5
4
  
Наблюдения показывают, что как правило, основная масса судов прибывает через небольшие промежутки времени. 

 Таблицы и их роль в представлении статистических данных
Таблицы дают возможность представить статистических данных в  более удобной форме  для восприятия. На самом деле таблицы позволяют получить большее: выявить закономерности, свойственные табличным данным.
      Итак, таблицы позволяют для того, чтобы установить закономерности появления различных  возможных значений наблюдаемой величины: для проверки неизменяемости условий испытаний; для оценки правильности тех или иных статистических гипотез; для оценки наличия так называемых корреляционных зависимостей между переменными, которые наблюдаются на опыте. В наши дни результаты наблюдений используют  для статистической оценки качества изготовленной продукции и для управления качеством в процессе производства.
Сказанное нуждается в пояснениях.
 Для решения первой задачи строят гистограмму. По оси абсцисс откладывают значения наблюдаемой величины, а по оси ординат- ее частоты в каждом из промежутков, т.е. отношение числа наблюдений, попавших в данный промежуток времени, к числу всех наблюдений, деленные на длину промежутков. В результате получаем ступенчатую линию. Заметим, что площадь, заключенная под всеми прямоугольниками для любой гистограммы, равна 1. Гистограмму нашего примера хорошо приближает функция у=1/8,32е-х/8,32, площадь под которой (в положительной части оси абсцисс) также равна 1.

Статистические гипотезы
И на производстве, и в научных экспериментах бывает очень важно проверить, насколько неизменны условия наблюдения. Так, например, на технической линии была изменена какая-то операция. Спрашивается, не оказалось ли эта замена на качестве продукции. Или представим себе, что производится наблюдение за интенсивностью космического излучения в двух точках земной поверхности на одной широте и на одинаковой высоте от земной поверхности, но из  разной долготе. Необходимо выяснить, одинакова ли интенсивность излучения. Для проверки производятся две серии наблюдений (в одних и других условиях) и сравниваются полученные гистограммы. Близость гистограмм будет подтверждать нашу гипотезу: интенсивность солнечного излучения не зависит от долготы.
Статистические гипотезы могут быть самыми разнообразными, например: лекарство А не оказывает положительного воздействия на больных болезнью В; сорт пшеницы А урожайнее орта В и т. д. Математическая статистика уделяет большое внимание разработке методов, позволяющих решать  вопросы о правильности или ложности статистических гипотез.  
Статистика приводит к более общим зависимостям переменных, чем те, которые даются посредством функций. Приведем примеры.
 ПРИМЕР 4
Изучается зависимость высоты сосен от их диаметра.
Если мы начнем сравнивать две эти характеристики, то найдем множество сосен одной и той же высоты, но разного диаметра или же одного диаметра, но разной высоты. Функциональной зависимости между высотой и диаметром нет, однако общая тенденция такова, что с увеличением высоты в среднем увеличивается и диаметр. 

В следующей таблице приведены результаты замеров высоты и диаметра 250 сосен. 
Диаметр(см), у
Высота (м), х
18
19
20
21
22
23
24
25
26
27
15

1
6
4
3





20
1
3
15
29
8





25

1
8
18
49
20
6
1


30


1
4
5
12
8
5


35




1
3
6
4
1

40






1
3
3

45









1
 
 
 
По горизонтали отмечается высота в метрах, причем отмечается среднее значение высоты разных деревьев. Например, 18 означает, что под этой цифрой указывается число сосен, имеющих высоту от 17.5 до 18.5 м. По вертикали указывается диаметр в сантиметрах, причем в центре интервала группирования находятся как раз указанные числа. Например, 30 означает интервал группировки от 27.5 до 32.5см. В клеточках таблицы указано число деревьев заданной высоты и диаметра. Так, например, на пересечении столбца 22 по вертикали и строки 25 по горизонтали стоит число 49. Это означает, что наблюдалось 49 деревьев высотой от 21.5 до 22.5 м  и диаметром от 22.5 до 27.5см.
   В статистике для изучения связи между высотой дерева и его диаметром поступают следующим образом.  Для каждого значения х вычисляют по таблице среднее арифметическое наблюденных значений у и для каждого у среднее значение наблюденных х.  Нанесем теперь на плоскость полученные две группы точек и проведем вблизи от точек  каждой группы близкие плавные кривые. Это будут линии регрессии у по х и х по у. Они дают приближенные представления об изменении средних значений у при изменении х и средних значений х при изменении у. Во многих случаях такое недостаточно полное значение оказывается очень полезным.

 ПРИМЕР 5
Предположим,  нам известно, как изменяется вес зерна в колосе в зависимости о роста стебля. Это неточная зависимость,  а такая, о которой мы только что говорили. Однако даже такое приблизительное значение позволяет нам судить, какой процент зерна будет теряться, если установить нож комбайна на той или иной высоте. Только что описанные зависимости называются корреляционными зависимостями.


ФУНКЦИЯ КОББА-ДУГЛАСА

В экономических моделях хорошо известна производственная функция Кобба-Дугласа:
a – некоторый констант. Здесь Y - индекс производства,  K - индекс капитала, L - индекс труда.
Как известно, этот закон доказан статистическим путем математиком Коббом и экономистом Дугласом используя данные по американской обрабатывающей промышленности за период с 1899 по 1922 г. Эта функция, несмотря на наличие ряда недостатков, и поныне является своего рода «чемпионом» среди производственных функций.


ПРИМЕР 6

Рассмотрим еще один пример, показывающий  как можно успешно использовать  статистику в бизнесе.
Для закупки и последующей реализации мужских курток фирмой было проведено выборочное обследование мужского населения города в возрасте от 18 до 65 лет в целях определения его среднего роста. В результате было установлено, что средний рост 176 см, стандартное отклонение 6 см. Необходимо определить, какой процент общего числа закупаемых курток должны составлять куртки пятого роста (182-186 см).
 
При многократных измерениях какой-либо величины у одного объекта из-за случайных ошибок или при измерении одного показателя у многочисленных однородных объектов результаты измерения могут принимать разные значения. Если переменная величина может принимать разные значения, которые заранее нельзя указывать, то она называется случайной величиной.
Рассматриваемые в статистике случайные величины представляют собой некоторый ряд распределения, состоящий из вариантов и частот. Закономерность зависимости между вариантами и частотами графически представляют в виде гистограммы. Если ряд распределения состоит из небольшого числа групп, то гистограмма получается  «крупноступенчатая». При уменьшении интервалов и, следовательно, увеличении числа групп «ступеньки» становятся все меньше и меньше, что в пределе позволяет получить характеристику исследуемого распределения в виде некоторой кривой линии.
Полученная кривая представляет собой математическую функцию, характеризующую исследуемый ряд распределения.
Среди многообразия математических функций особого внимания заслуживает так называемый нормальный  закон  распределения, который графически может быть представлен кривой  Гаусса. Нормальный закон распределения и кривая Гаусса играют исключительно важную роль в статистической теории и практике.
Графически закономерность распределения случайных величин представляет собой кривую симметричной колоколообразной формы, которую иначе называют нормальным  распределением.


Вернемся к нашему примеру по закупке и реализации мужских курток . По утверждению Кетле рост мужчин одной нации  подчиняется нормальному закону распределения. С помощью  статистической функции  EXCEL  легко определяется какой процент общего числа закупаемых курток должны составлять куртки пятого роста (182-186 см). Вычисления показывают, что требуемое количество курток пятого роста примерно должно составлять 11% общего числа закупаемых курток.
А кривая Гауса в данном случае будет выглядеть следующим образом
 
Выборочный метод статистики
  В связи с развитием массового производства, когда изделия изготавливаются в сотнях и тысячах штук, возникает серьезная экономическая задача: оценить качество всей партии, сделав небольшую выборку из нее. Так приходится поступать в силу двух причин. Во-первых, проверка качества всей партии требует значительных затрат времени и средств. А во-вторых, нередко испытание приводит к непоправимой порчи изделия, например фотопленка или фотобумага после проверки ее качества станет полностью непригодной. В результате приходится проверять только часть всех изделий и по этим неполным данным высказывать суждение о качестве всей партии. Такие методы в настоящее время применяются в промышленности и носят наименование статистических методов контроля. Они приносят огромную экономию, исчисляемую миллиардами рублей.
      Статистическими методами пользуются для выявления закономерностей наблюдений и для проверки соответствия построенных теорий реальных явлений с их фактическим протеканием.

Отзывы на данную статью Вы можете послать на
E-mail:  aga_mehdi@mail.ru
С новым подходом к изучению статистики с помощью программы EXCEL Вы можете познакомиться в блоге:
 http://www.statistical-functions-aga.blogspot.com
Для улучшения содержание этого блога Вы можете  прислать мне новые материалы для опубликования в этом блоге с соответствующими ссылками.