Теория статистического вывода

Основы статистического вывода

Теория статистического вывода

Статистический вывод – это область статистической науки, позволяющая делать выводы о неизвестных характеристиках и свойствах генеральной совокупности на основании результатов выборочного исследования.

??? Основные задачи:

1. Оценивание неизвестных параметров генеральной совокупности.

2. статистическая проверка гипотез по генеральной совокупности.

Основой статистического вывода является применение случайного отбора (т.е. используются выборки, построенные случайным образом).

Все формулы в рамках данного курса строятся на предположении об использовании простой случайной выборки.

Параметрами генеральной совокупности являются все её количественные характеристики. Аналогичные характеристики выборки называются выборочными статистиками.

В некоторых случаях параметры и выборочные характеристики, измеряющие одно и то же, имеют разные названия и обозначения.

Простая случайная выборка — это выборка, построенная по следящим правилам:

1. Используется полный список генеральной совокупности.

2. к этому списку применяется одна из процедур простого случайного отбора:

a. лотерея

b. таблица случайных чисел (применяется, когда генеральная совокупность велика для лотереи).

c. Компьютерные датчики случайных чисел.

! Основной недостаток простого случайного отбора – неодинаковая доступность элементов для исследования.

Простой случайный отбор – самый сложный вид выборки для извлечения и использования (однако математические формулы проще).

Основные понятия теории вероятности.

Теория вероятности является методологической основой математической и прикладной статистки. Применяется, когда необходимо описать бесконечную генеральную совокупность.

Понятия:

1. Случайная величина.

2. Выборочное пространство.

3. Случайное событие.

4. Вероятность случайного события.

5. Аддетивность вероятности.

Случайная величина – это функция, которая служит для измерения какого-либо качества у элементов генеральной совокупности, и принимает на каждом элементе совокупности некоторое значение. (X,Y,Z).

! Существенное отличие от переменных (характеризующих выборку): случайные величины бывают только количественными.

! случайные величины бывают дискретными и непрерывными.

Выборочное пространство – это множество всех возможных значений случайной величины. (S).

Пример:

IQ S= {40, 41, 42, …, …, 160}

Рост S= {140; 220}

Для дискретных величин – это набор значений, для непрерывных – интервал.

Случайное событие – это любое подмножество выборочного пространства (!!! для непрерывных случайных величин событие может быть только интервалом). (E).

Для удобства математических манипуляций используют две абстракции:

1. полное случайное событие (которое совпадает с выборочным пространством).

2. пустое случайное событие {Ø} (никаких значений случайной величины).

Для непрерывной случайной величины отдельное значение не является событием. В данном случае событием могут быть только интервалы:

E1≠ {170};

E1= (140; 141);

E2= (141; 142).

! В данном случае форма скобки не имеет принципиального значения, потому что отдельное значение (тут 141) событием не является.

Пересечение интервалов непрерывной СВ считается пустым, т.к. отдельное значении такой СВ – не событие:

E1= [140; 150]

E2= [150; 160]

! В данном случае 150 – не пересечение, т.к. не является событием.

Вероятность случайного события – это относительная частота объектов из генеральной совокупности, относящихся к данному событию. (P).

! Для непрерывных случайных величин вероятность для отдельного значения не вычисляется.

Аддитивность вероятности – это свойство вероятности быть складываемой при определенных условиях: при непересекающихся случайных событиях.

!!!! Если случайные события не пересекаются, вероятность отнесения объекта к одному из них равна сумме вероятностей данных событий:

(E1∩E2 = Ø) & (E2∩E3 = Ø) & (E1∩E3 = Ø) =>

=>

Предельный случай аддитивности вероятности: если случайные события не пересекаются и перекрывают всё выборочное пространство , то сумма вероятностей этих событий равна

(E1∩E2 = Ø) & (E2∩E3 = Ø) & (E1∩E3 = Ø) … … …

E1 U E2 U U … … U Ek = S => =1

Распределение случайной величины.

– это инструмент описания генеральной совокупности с точки зрения вероятности непересекающихся событий, перекрывающих всё выборочное пространство.

Распределение дискретной СВ задается перечислением её значений и соответствующих вероятностей.

X X1 X2 X3 Xk
P1 P2 P3 Pk

Для решения задачи с P(x

X относится к нормальному распределению с произвольными параметрами N(µ,σ), а z – к стандартному распределению Z(0;1).

При использовании формул квантили нормального распределения переходят в квантили стандартного нормального распределения и наоборот.

Рассмотрим на примерах:

У нас есть нормально распределение N с параметрами µ=-1 и σ=3.

1) P (x

Источник: https://studopedia.su/10_49957_osnovi-statisticheskogo-vivoda.html

Статистический вывод

Теория статистического вывода

Вывод является видом логического анализа, направленного на по­лучение общих заключений о всей совокупности на основе наблюдений за малой группой единиц данной совокупности.

Выводы делаются на основе анализа малого числа фактов. Напри­мер, если два ваших товарища, имеющих одну и ту же марку автомобиля, жалуются на его качество, то вы можете сделать вывод о низком качестве данной марки автомобиля в целом.

Статистический же вывод основан на статистическом анализе ре­зультатов выборочных исследований и направлен на оценку параметров совокупности в целом. В данном случае результаты выборочных исследо­ваний являются только отправной точкой для получения общих выводов.

Например, автомобилестроительная компания провела два незави­симых исследования с целью определения степени удовлетворенности потребителей своими автомобилями.

Первая выборка включала 100 по­требителей, купивших данную модель в течение последних шести меся­цев. Вторая выборка включала 1000 потребителей.

В ходе телефонного интервьюирования респонденты отвечали на вопрос: «Удовлетворены вы или не удовлетворены купленной вами моделью автомобиля?» Первый опрос выявил 30% неудовлетворенных, второй — 35%.

Поскольку существуют ошибки выборки и в первом и во втором случаях, то можно сделать следующий вывод. Для первого случая: около 30% опрошенных выразили неудовлетворенность купленной моделью автомобиля.

Для второго случая около 35% опрошенных выразили не­удовлетворенность купленной моделью автомобиля. Какой же общий вывод можно сделать в данном случае? Как избавиться от термина «около»? Для этого введем показатель ошибки: 30% ± х% и 35% ± у% и сравним х и у.

Используя логический анализ, можно сделать вывод, что большая выборка содержит меньшую ошибку и что на ее основе можно сделать более правильные выводы о мнении всей совокупности потреби­телей. Видно, что решающим фактором для получения правильных выво­дов является размер выборки.

Данный показатель присутствует во всех формулах, определяющих содержание различных методов статистиче­ского вывода.

При проведении маркетинговых исследований чаще всего исполь­зуются следующие методы статистического вывода: оценка параметров и проверка гипотез.

Оценка параметров генеральной совокупности представляет из себя процесс определения, исходя из данных о выборке, интервала, в котором находится один из параметров генеральной совокупности, например среднее значение. Для этого используют следующие статистические пока­затели: средние величины, среднюю квадратическую ошибку и желаемый уровень доверительности (обычно 95% или 99%).

Ниже пойдет разговор об их роли при проведении оценки пара­метров.

Средняя квадратическая ошибка является, как отмечалось выше, мерой вариации выборочного распределения при теоретическом предпо­ложении, что исследовалось множество независимых выборок одной и той же генеральной совокупности.

Она определяется по следующей формуле:

где sx средняя квадратическая ошибка выборочной средней;

s — среднее квадратическое отклонение от средней величины в вы­борке;

n — объем выборки.

Если используются процентные меры, выражающие альтернатив­ную изменчивость качественных признаков, то

где s — средняя квадратическая ошибка выборочной средней при использовании процентных мер;

р — процент респондентов в выборке, поддержавших первую альтернативу;

q = (100 — q) — процент респондентов в выборке, поддержавших

вторую альтернативу;

n — объем выборки.

Видно, что средняя ошибка выборки тем больше, чем больше ва­риация, и тем меньше, чем больше объем выборки.

Поскольку всегда существует выборочная ошибка, то необходимо оценить разброс значений изучаемого параметра генеральной совокупно­сти. Предположим, исследователь выбрал уровень доверительности, рав­ный 99%. Из свойств нормальной кривой распределения вытекает, что ему соответствует параметр Z = ± 2,58. Средняя для генеральной сово­купности в целом вычисляется по формуле

Если используются процентные меры, то

Это означает, что если вы хотите, чтобы при 99%-ном уровне до­верительности диапазон оценок включал истинную для генеральной со­вокупности оценку, то необходимо умножить среднюю квадратическую ошибку на 2,58 и добавить полученный результат к процентному значе­нию р (верхняя предельная оценка). Если же произвести вычитание дан­ного произведения, то найдем нижнюю предельную оценку.

Как эти формулы связаны со статистическим выводом?

Поскольку производится оценка параметра генеральной совокуп­ности, то здесь указывается диапазон, в который попадает истинное зна­чение параметра генеральной совокупности.

С этой целью для выборки берутся статистическая мера центральной тенденции, величина диспер­сии и объем выборки.

Далее делается предположение об уровне довери­тельности и рассчитывается диапазон разброса параметра для генераль­ной совокупности.

Например, для членов выборки (100 читателей какой-то газеты) было установлено, что среднее время чтения газеты составляет 45 минут при средней квадратической ошибке в 20 минут. При уровне доверитель­ности, равном 95%-ном, получим

При 99%-ном уровне доверительности получим

Видно, что доверительный интервал шире для 99% по сравнению с 95%-ным уровнем доверительности.

Если используются проценты и оказалось, что из выборки в 100 человек 50% опрошенных по утрам пьет кофе, то при уровне доверитель­ности в 99% получим следующий диапазон оценок:

Таким образом, логика статистического вывода направлена на по­лучение конечных заключений об изучаемом параметре генеральной со­вокупности на основе выборочного исследования, осуществленного по законам математической статистики. Если используется простое заклю­чение, не основанное на статистических измерениях, то конечные выво­ды носят субъективный характер и на основе одних и тех же фактов раз­ные специалисты могут сделать разные выводы.

При использовании статистического вывода используются форму­лы, носящие объективный характер, в основе которых лежат общепри­знанные статистические концепции. В результате конечные выводы но­сят намного более объективный характер.

В ряде случаев делаются суждения относительно какого-то пара­метра генеральной совокупности (величине средней, дисперсии, характе­ре распределения, форме и тесноте связи между переменными) исходя только из некоторых предположений, размышлений, интуиции, непол­ных знаний. Такие суждения называются гипотезами.

Статистической гипотезой называется предположение о свойстве генеральной совокупности, которое можно проверить, опираясь на дан­ные выборки.

Подпроверкой гипотезы понимается статистическая процедура, применяемая для подтверждения или отклонения гипотезы, основанной на результатах выборочных исследований.

Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипотетическими. Если расхождение между сравниваемыми величинами не выходит за пределы случайных ошибок, гипотезу принимают.

При этом не делается никаких заключений о правильности самой гипотезы, речь идет лишь о согласованности сравниваемых данных.

Проверка гипотезы проводится в пять этапов:

1. Делается некоторое предположение относительно какой-то ха­рактеристики генеральной совокупности, например о средней величине определенного параметра.

2. Формируется случайная выборка, проводится выборочное иссле­дование и определяются статистические показатели выборки.

3. Сравниваются гипотетическое и статистическое значения иссле­дуемой характеристики.

4. Определяется, соответствуют или нет результаты выборочного исследования принятой гипотезе.

5. Если результаты выборочного исследования не подтверждают ги­потезу, последняя пересматривается — она должна соответствовать дан­ным выборочного исследования.

Вследствие вариации результатов выборочных исследований не­возможно сделать абсолютно точный вывод о достоверности гипотезы, проводя простое арифметическое сравнение величин характеристик.

По­этому статистическая проверка гипотезы включает использование: выбо­рочного значения характеристики, среднего квадратического отклонения, желательного уровня доверительности и гипотетитеского значения харак­теристики для генеральной совокупности в целом.

Для проверки гипотез о средних величинах применяется следую­щая формула:

Например, готовя рекламу учебной программы по подготовке тор­говых агентов в колледже, руководитель программы считал, что выпуск­ники программы получают в среднем 1750 долларов в месяц. Таким обра­зом, гипотетическая средняя для генеральной совокупности равна 1750 долларам. Для проверки данной гипотезы было проведено телефонное обследование торговых агентов разных фирм.

Выборка составила 100 человек, средняя для выборки равнялась 1800 долларам и среднее квадратическое отклонение составляло 350 дол­ларов. Возникает вопрос, является ли большой разница (50 долларов) между гипотетической зарплатой и ее средним значением для выборки. Проводим расчеты по формуле (4.2):

Видно, что средняя квадратическая ошибка средней величины бы­ла равна 35 долларам, а частное от деления 50 на 45 составляет 1,43 (нор­мированное отклонение), что меньше ±1,96 — величины, характеризую­щей уровень доверительности 95%. В данном случае выдвинутую гипотезу можно признать достоверной.

При использовании процентной меры испытание гипотезы осуще­ствляется следующим образом.

Предположим, что, исходя из собствен­ного опыта, один из автолюбителей выдвинул гипотезу, согласно которой только 10% автолюбителей используют ремни безопасности.

Однако на­циональные выборочные исследования 1000 автолюбителей показали, что 80% из них используют ремни безопасности. Расчеты в данном случае проводятся следующим образом:

где р — процент из выборочных исследований;

πH — процент из гипотезы;

sp — средняя квадратическая ошибка при расчетах в процентах.

Видно, что первоначальная гипотеза отличалась от найденных 80% на величину 55,3, умноженную на среднеквадратическую ошибку, т.е. не может быть признана достоверной.

В ряде случаев целесообразно использовать направленные гипоте­зы. Направленные гипотезы определяет направления возможных значе­ний какого-то параметра генеральной совокупности. Например, заработ­ная плата составляет больше 1750 долларов. В данном случае использует­ся только одна сторона кривой распределения, что находит отражение в применении знаков «+» и «-» в расчетных формулах.

Более детальную информацию по данной проблеме можно полу­чить из [25].

Здесь, правда, возникает вопрос. Если можно провести выбороч­ные исследования, то зачем выдвигать гипотезы? Обработка результатов выборочных исследований дает возможность получить средние величины и их статистические характеристики, не выдвигая никаких гипотез.

По­этому проверка гипотез скорее применяется в случаях, когда невозможно или чрезвычайно трудоемко проводить полномасштабные исследования и когда требуется сравнивать результаты нескольких исследований (для разных групп респондентов или проведенных в разное время).

Такого рода задачи, как правило, возникают в социальной статистике. Трудоем­кость статистико-социологических исследований приводит к тому, что почти все они строятся на несплошном учете.

Поэтому проблема доказа­тельности выводов в социальной статистике стоит особенно остро.

Применяя процедуру проверки гипотез, следует помнить, что она может гарантировать результаты с определенной вероятностью лишь по «беспристрастным» выборкам, на основе объективных данных.

Не нашли то, что искали? Воспользуйтесь поиском:

Источник: https://studopedia.ru/4_104672_statisticheskiy-vivod.html

Статистические выводы

Теория статистического вывода

Вышла книга автора сайта! Теоретическая валидизация в социологическом исследовании: Методология и методы Вот то, чем мы гордимся — наши выводы, никогда не лишенные вероятности ошибки! Пусть последнее тебя не пугает, обычно вероятность ошибиться ничтожно мала. 0 Нажми, если пригодилось =ъ
Дембицкий С. Виды статистических методов: статистические выводы [Электронный ресурс].

— Режим доступа: http://www.soc-research.info/quantitative/7.html
Как было сказано ранее, статистические выводы используются для обобщения данных из выборки в отношении всей генеральной совокупности. Случайные ошибки, характерные для выборочного исследования, могут привести к тому, что выборка не будет [достаточно точной] моделью генеральной совокупности.

В действительности выборка никогда не является моделью генеральной совокупности на все 100%, а лишь ее более или менее искаженным вариантом. Для того, чтобы оценить такие искажения и, следовательно, сделать более точные выводы о генеральной совокупности и используются статистические выводы.

Прежде всего, они позволяют оценить вероятность того, что выявленные в выборке взаимосвязи, различия, величины и т.д. характерны исключительно для выборки, но не для генеральной совокупности.

Логика здесь следующая: если такая вероятность высока, то принимается решение, согласно которому параметры выборки не характерны для генеральной совокупности и наоборот – если такая вероятность низка, то принято считать, что соответствующие параметры выборки говорят о параметрах генеральной совокупности.

Важно помнить – достижение 100% гарантии того, что результаты, полученные в исследовании, характерны для генеральной совокупности, возможно лишь в том случае, когда проведено сплошное исследование, т.е. опрос всех представителей генеральной совокупности. Но это уже не выборочное исследование и оно не предполагает использование статистических выводов.

В самом общем виде статистические выводы можно разделить на две группы: 1) интервальное оценивание (построение интервала, в который с заданной вероятностью должно попасть среднее значение либо пропорция генеральной совокупности); 2) проверка статистических гипотез (вероятностный вывод о том, что определенные параметры выборочной совокупности отображают (или же нет) параметры генеральной совокупности).

Для того, чтобы рассмотреть каждую из групп, нажмите на соответствующую кнопку ниже.

Интервальное оцениваниеВо многих случаях бывает необходимо на основе единичного параментра выборки (среднее значение или пропорция) оценить соответствующий параметр генеральной совокупности. Если выборка достаточна большая (100 и более наблюдений), используя свойства кривой нормального распределения, а также центральную придельную теорему, можно построить интервал, в который с заданной вероятностью попадет истинное значение.Как вы помните из второй главы, распределение выборочных средних имеет нормальный вид. Соответственно вероятность получения выборки со средним близким к среднему значению генеральной совокупности весьма высока. Но даже в тех случаях, когда среднее для выборки будет достаточно сильно отличаться от среднего генеральной совокупности, доверительный интервал [в подавляющем большинстве случаев] будет включать истинное значение. И лишь в очень редких случаях будут получены выборки с настолько сильно отличающимися параметрами выборки и генеральной совокупности, что истинное значение не попадет в доверительный интервал.Мы не станем детальнее углубляться в соответствующие доказательства и примеры, а просто рассмотрим технику построения доверительных интервалов.

Доверительные интервалы для средних значений

где Z — стандартизированное значение, определяемое уровнем альфа или p-значением (вероятностью того, что истинное значение не попадет в доверительный интервал);s — стандартное отклонение по выборке;n — размер выборки.

Очевидно что s и n известны нам из самого исследования. В свою очередь, Z определяется с помощью таблицы стандартизированных значений:

Доверительный уровень говорит о том, с какой вероятностью истинное значение попадет в построенный интервал.
Рассмотрим пример. Допустим из выборки (n = 300) известно, что среднее значение для месячного заработка киевлян составляет 4000 грн., а стандартное отклонение — 75 грн. Если нас удовлетворит вероятность ошибки равная 5% (альфа — 0,05), то Z = ±1,96. Таким образом, истинное значение для киевлян с вероятностью 95% должно попасть в интервал от 3991,5 грн. до 4008,5 грн.
Доверительные интервалы для пропорций По сравнению с предыдущей, в данной формуле остался размер выборки и Z-значение. Последнее определяется оно также с помощью приведенной выше таблицы.Другие составляющие следующие:Ps — значение пропорции для выборки;Pu — значение пропорции для генеральной совокупности.

У наиболее внимательных из вас мог возникнуть вопрос: откуда мы возьмем Pu, если мы хотим использовать Ps для его оценки? Или: если нам известно Pu, то зачем нам Ps? Действительно, Ps нам только и нужно для того, чтобы оценить неизвестное Pu.

Выход из этой ситуации достаточно простой — за Pu принимают такую величину (как вы помните для пропорций оно может варьироваться от 0 до 1), которая бы дала нам наибольшее значение выражения Pu(1-Pu). В таком случае и сам доверительный интервал примет наибольшее значение (при прочих равных условиях).

Фактически исследователь должен пойти на заведомое увеличение интервала, ведь больший интервал с большей вероятностью будет включать искомую истинную величину для генеральной совокупности. Таким значением является 0,5:

0,5(1-0,5) = 0,5*0,5 = 0,25

Теперь рассмотрим пример. Пусть, согласно результатам предвыборного опроса, за оппозиционную партию готово проать 17% населения (Ps = 0,17), размер выборки составляет 1200 человек, а уровень альфа — 0,01. Тогда:

Следовательно с вероятностью в 99% за оппозиционную партию проголосует от 15% до 19% населения.

  • default_titleХили Дж. Статистика. Социологические и маркетинговые исследования. — К.: ООО «ДиаСофтЮП»; СПб.: Питер, 2005. — 638 с.
  • default_titleМалхотра Н. Маркетинговые исследования. — М: Вильямс, 2007. — 1200 с.
  • default_titleField A. Discovering statistics using SPSS. — London, Thousand Oaks, New Delhi: Sage, 2009. — 822 p.
  • Show More

Проверка статистических гипотез.
В процессе проверки статистических гипотез исследователь на основании полученных данных проверяет гипотезу, согласно которой все выявленные взаимосвязи между явлениями или различия между группами являются результатом случайных ошибок.

Проверка статистических гипотез состоит из следующих этапов: 1) Проверка допущений. 2) Формулировка статистических гипотез. 3) Определение уровня альфа (p-значения). 4) Расчет эмпирического значения критерия и количества степеней свободы.

5) Использование теоретического распределения: определение критического значения и его сопоставление с эмпирическим значением.Рассмотрим основы проверки статистических гипотез на примере критерия независимости хи-квадрат. Этот критерий позволяет на основании данных таблицы сопряженности проверить есть ли взаимосвязь между двумя переменными.

Он является непараметрическим, т.е. таким критерием, который не требует проверки допущений о форме распределения выборочных статистик.

Этап 1. Для использования критерия хи-квадрат, данные должны удовлетворять всего двум допущениям: а) Используются независимые случайные выборки. Независимые выборки имеют место в том случае, когда отбор респондентов в одну выборку никак не влияет на отбор респондентов в другую.

Во-первых, эти данные должны быть получены от студентов, отобранных случайным образом (например, с помощью случайного отбора из общего списка студентов того или иного вуза).

В таком случае, выборки будут также и независимыми — не важно, кто был отобран последним, далее может быть отобран любой парень или девушка, еще не попавшие в выборку.

б) Переменные относятся к номинальной шкалы.

А поскольку номинальные шкалы являются наиболее «слабыми», использование порядковых и метрических переменных также возможно (после того, как количество их категорий будет уменьшино до необходимого количества).

Для примера обратимся к представленной ниже таблице, с помощью которой проверяется влияние пола студентов на успешность их обучения:

Успешность
Были тройки
Четыре-пять
На отлично
Вместе

Зеленым цветом обозначены маргинальные частоты по строкам и столбцам.

Они понадобятся в дальнейшем для расчета ожидаемых частот.Этап 2. Статистические гипотезы делятся на два вида — нулевую и альтернативную. В зависимости от статистического метода, нулевая гипотеза утверждает либо отсутствие различий между группами (при сравнении средних значений или пропорций), либо отстуствие связи между переменными.

В свою очередь, альтернативная гипотеза утверждает обратное нулевой — наличие различий или наличие связи.Все эти утверждения имеют отношение именно к генеральной совокупности, так как выявленные в выборке связи между переменными или различия между группами могут быть вызваны случайными ошибками и не иметь отношения к генеральной совокупности.

В нашем случае нулевая гипотеза будет утверждать отсутствие связи между полом студентов и их успешностью, альтернативная — наличие таковой.
Этап 3. Обычно величина альфа должна быть 0,05 или менее. Тогда наш вывод, основанный на примененении статистического критерия, будет верным с вероятностью 95% или выше.
Этап 4.

Эмпирическое значение статистического критерия — это специальное значение, вычисленное на основании имеющихся данных с использованием того или иного теоретического распределения. Эмпирическое значение позволяет оценить вероятность того, что выборочные данные были получены в результате случайных ошибок.

Для подавляющего большинства методов проверки статистических гипотез большие эмпирические значения с большей вероятностью указывают именно на существование связей или различий (т.е. на слабое влияние случайных ошибок выборки).

В случае хи-квадрат, прежде чем перейти к расчету эмпирического значения, необходимо рассчитать ожидаемые частоты (fe) в ячейках, характерные для ситуации полного отстуствия связи между переменными, а потом сравнить их с имеющимися частотами (fo).

Для этого по каждой ячейке необходимо умножить маргинальную частоту по столбцу на маргинальную частосту по строке и разделить на общее количество наблюдений: где MFR — маргинальная частота по строке, MFC — маргинальная частота по столбцу, N — общее количество наблюдений.

Для нашего примера расчет ожидаемых частот будет иметь следующий вид: Соответственно таблица с теоретическим распределением, для которого характерно полное отсутствие связи между переменными будет выглядеть так:

Успешность
Были тройки
Четыре-пять
На отлично
Вместе

Если различия между этими частотами и частотами, полученными в процессе исследования, достаточно велики, будет принята альтернативная гипотеза, если же нет — нулевая.
Определение величины различий осуществляется с помощью специального показателя, который и является эмпирическим (или же экспериментальным) значением критерия: Для нашего случая эмпирическое значение критерия будет равно: Кроме эмпирического значения большинство методов проверки статистических гипотез предполагает расчет количества степеней свободы (df), которое используется при определении критического значения, то есть той величины, с которой необходимо сравнить эмпирическое значение. Именно такое сравнение позволяет оценить достаточно ли велико эмпирическое значение (оно должно превышать критическое) для того, чтобы отказаться от нулевой гипотезы и принять альтернативную.Для хи-квадрат df = (r-1)(c-1), где r — количество строк в таблице, а c — количество столбцов. Соответственно, в нашем случае df = (3-1)(2-1) = 2.
Этап 5. Все методы проверки статистических гипотез предполагают использование тех или иных распределений выборочных статистик, позволяющих определять критическое значение в каждом конкретном исследовании. Критическое значение, как и эмпирическое, является специальной величиной, которая задает некоторую границу, превышение которой говорит о том, что имеющиеся результаты с очень низкой вероятностью (эта вероятность равна величине альфа) могли быть получены вследствие случайных ошибок.Распределение хи-квадрат, используемое для анализа таблиц сопряженности, меняет свой вид в зависимости от количества степеней свободы. Соответственно меняется и распределение критических значений (на рисунке df обозначается как k): Само критическое значение в каждом конкретном случае определяются с помощью таблиц критических значений. В случае хи-квадрат такая таблица имеет два параметра — количество степеней свободы и уровень альфа.После определения критического значения, его необходимо сравнить с эмпирическим — если критическое значение больше, принимается нулевая гипотеза (т.к. вероятность получения результата вследствие случайных ошибок слишком велика), если же эмпирическое значение больше, принимается альтернативная гипотеза.Для нашего примера, альфа равное 0,05 и df равное 2, дают критическое значение равное 5,99. С учетом того, что эмпирическое значение больше критического (8,9 > 5,99), можно принять альтернативную гипотезу. При этом вероятность ошибочности такого решения составляет 5%.

Всегда важно помнить, что делая статистический вывод исследователь рискует сделать ошибку вне зависимости от того какую гипотезу он принял — нулевую или альтернативную. Такие ошибки называются статистическими и делятся на две группы — первого и второго рода. При ошибках первого рода на основании данных выборки принимается альтернативная гипотеза, в то время как для генеральной совокупности верна нулевая. Соответственно, при ошибке второго рода на основании данных выборки принимается нулевая гипотеза, в то время как для генеральной совокупности верна альтернативная.

  • default_titleХили Дж. Статистика. Социологические и маркетинговые исследования. — К.: ООО «ДиаСофтЮП»; СПб.: Питер, 2005. — 638 с.
  • default_titleМалхотра Н. Маркетинговые исследования. — М: Вильямс, 2007. — 1200 с.
  • default_titleField A. Discovering statistics using SPSS. — London, Thousand Oaks, New Delhi: Sage, 2009. — 822 p.
  • Show More

© 2011-2016 Сергей Дембицкий

Источник: http://soc-research.info/quantitative/7.html

Сущность статистического вывода

Теория статистического вывода

Nbsp;                               Частное образовательное учреждение высшего образования «САМАРСКАЯ ГУМАНИТАРНАЯ АКАДЕМИЯ» Факультет психологии Кафедра общей и социальной психологии    

Контрольная работа

По дисциплине

«Математические методы»

    Выполнила студентка 2 курса

    С-БП321группы

    _______________ Г.А.Фатерова

             Проверила

             пр.

             _______________ С.Л. Расинская

                                                                  Работа зачтена «__» _______ 2018г.

                                                  Самара 2018г.

СОДЕРЖАНИЕ

1.Понятие случайной величины……………………………………………..3

2. Типы шкал в психологии………………………………………………….4

3. Сущность статистического вывода……………………………………….5

4. Параметрические и непараметрические критерии различий……………6

5. Корреляционный анализ: понятие и сущность…………………………..7

6. Регрессионный анализ: понятие и сущность…………………………….10

7. Дисперсионный анализ: сущность и задачи……………………………..10

8. Практическая часть контрольной работы…………………………………12

9. Список использованных источников………….…………………………18

                            1.Понятие случайной величины

Случайной называется величина, которая в результате испытаний принимает то или иное (но при этом только одно) возможное значение, заранее неизвестное, меняющееся от испытания к испытанию и зависящее от случайных обстоятельств.

В отличие от случайного события, являющегося качественной характеристикой случайного результата испытания, случайная величина характеризует результат испытания количественно. Примерами случайной величины могут служить размер обрабатываемой детали, погрешность результата измерения какого-либо параметра изделия или среды.

Среди случайных величин, с которыми приходится встречаться на практике, можно выделить два основных типа: дискретные и непрерывные.

Дискретной называется случайная величина, принимающая конечное или бесконечное счетное множество значений.

Например: частота попаданий при трех выстрелах; число бракованных изделий в партии изnштук; число вызовов, поступающих на телефонную станцию в течение суток; число отказов элементов прибора за определенный промежуток времени при испытании его на надежность; число выстрелов до первого попадания в цель и т. д.

Непрерывной называется случайная величина, которая может принимать любые значения из некоторого конечного или бесконечного интервала.

Очевидно, что число возможных значений непрерывной случайной величины бесконечно.

Например: ошибка при измерении дальности радиолокатора; время безотказной работы микросхемы; погрешность изготовления деталей; концентрация соли в морской воде и т. д.

Случайные величины обычно обозначают буквами X, Y и т. д., а их возможные значения —x, y и т. д. Для задания случайной величины недостаточно перечислить все ее возможные значения.

Необходимо также знать, как часто могут появиться те или иные ее значения в результате испытаний при одних и тех же условиях, т. е. нужно задать вероятности их появления.

Совокупность всех возможных значений случайной величины и соответствующих им вероятностей составляет распределение случайной величины.

Типы шкал в психологии

Измерительная шкала— основное понятие, введенное в психологию в 1950г. С. С. Стивенсом; его трактовка шкалы и сегодня используется в научной литературе. Различают несколько типов шкал.

Операции, а именно — способы измерения объектов, задают тип шкалы. Шкала в свою очередь характеризуется видом преобразований, которые могут быть отнесены к результатам измерения.

Тип шкалы однозначно определяет совокупность статистических методов, которые могут быть применены для обработки данных измерения.

Шкала наименований получается путем присвоения «имен» объектам. При этом нужно разделить множество объектов на непересекающиеся подмножества.

Иными словами, объекты сравниваются друг с другом и определяется их эквивалентность—неэквивалентность. Психологи очень часто применяют шкалу наименований в исследованиях.

«Объективные» измерительные процедуры при диагностике личности приводят к типологизации: отнесению конкретной личности к тому или иному типа.

Шкала порядка образуется, если на множестве реализовано одно бинарное отношение — порядок (отношения «не больше» и «меньше»). Построение шкалы порядка — процедура более сложная, чем создание шкалы наименований. Классическим примером использования порядковых шкал является тестирование личностных черт, а также способностей.

Шкала интерваловопределяет величину различий между объектами в проявлении свойства. С помощью шкалы интервалов можно сравнивать два объекта. При этом выясняют, насколько более или менее выражено определенное свойство у одного объекта, чем у другого. Классическим примером применения этой шкалы в физике является измерение температуры по Цельсию.

Шкала отношений — наиболее часто используемая в физике шкала. По крайней мере, идеалом измерительной процедуры является получение таких данных о выраженности свойств объектов, когда можно сказать, во сколько раз один объект больше или меньше другого. Шкала отношений отличается от шкалы интервалов тем, что на ней определено положение «естественного нуля».

Сущность статистического вывода

Этот раздел включает систему методов получения выводов о больших группах (фактически, генеральных совокупностях) на основе наблюдений, проведенных в группах меньшего размера, называемых выборками. В психологии статистический вывод служит двум главным целям:

1) оценить параметры генеральной совокупности по выборочным статистикам;

2) оценить шансы получения определенного паттерна результатов исследования при заданных характеристиках выборочных данных.

Среднее является наиболее часто оцениваемым параметром генеральной совокупности.

В силу самого способа вычисления стандартной ошибки, выборки большего объема обычно дают меньшие стандартные ошибки, что делает статистики, вычисленные по большим выборкам, несколько более точными оценками параметров генеральной совокупности.

Пользуясь стандартной ошибкой среднего и нормированными (стандартизованными) распределениями вероятностей (такими как t-распределение), можно построить доверительные интервалы — области значений с известными шансами попадания в них истинного генерального среднего.

Теорию статистического вывода можно использовать для оценки вероятности того, что частные выборки принадлежат известной генеральной совокупности.

Процесс статистического вывода начинается с формулирования нулевой гипотезы (H0), состоящей в предположении, что выборочные статистики получены из определенной совокупности. Нулевая гипотеза сохраняется или отвергается в зависимости от того, насколько вероятным является полученный результат.

Если наблюдаемые различия велики относительно величины изменчивости выборочных данных, исследователь обычно отвергает нулевую гипотезу и делает вывод о крайне малых шансах того, что наблюдаемые различия обязаны своим происхождением случаю: результат является статистически значимым.

Вычисляемые критериальные статистики с известными распределениями вероятностей выражают отношение между наблюдаемыми различиями и изменчивостью (вариабельностью).

Источник: https://studopedia.net/5_49330_sushchnost-statisticheskogo-vivoda.html

Теория статистического вывода

Теория статистического вывода

⇐ Предыдущая487488489490491492493494495496Следующая ⇒

Этот раздел С.

включает систему методов получения выводов о больших группах (фактически, генеральных совокупностях) на основе наблюдений, проведенных в группах меньшего размера, называемых выборками.

В психологии статистический вывод служит двум главным целям: 1) оценить параметры генеральной совокупности по выборочным статистикам; 2) оценить шансы получения определенного паттерна результатов исследования при заданных характеристиках выборочных данных.

Среднее является наиболее часто оцениваемым параметром генеральной совокупности.

В силу самого способа вычисления стандартной ошибки, выборки большего объема обычно дают меньшие стандартные ошибки, что делает статистики, вычисленные по большим выборкам, несколько более точными оценками параметров генеральной совокупности.

Пользуясь стандартной ошибкой среднего и нормированными (стандартизованными) распределениями вероятностей (такими как t-распределение), можно построить доверительные интервалы — области значений с известными шансами попадания в них истинного генерального среднего.

Оценивание результатов исследования.Теорию статистического вывода можно использовать для оценки вероятности того, что частные выборки принадлежат известной генеральной совокупности.

Процесс статистического вывода начинается с формулирования нулевой гипотезы (H0), состоящей в предположении, что выборочные статистики получены из определенной совокупности. Нулевая гипотеза сохраняется или отвергается в зависимости от того, насколько вероятным яв-ся полученный результат.

Если наблюдаемые различия велики относительно величины изменчивости выборочных данных, исследователь обычно отвергает нулевую гипотезу и делает вывод о крайне малых шансах того, что наблюдаемые различия обязаны своим происхождением случаю: результат является статистически значимым.

Вычисляемые критериальные статистики с известными распределениями вероятностей выражают отношение между наблюдаемыми различиями и изменчивостью (вариабельностью).

Параметрические статистики.Параметрические С. могут использоваться в тех случаях, когда удовлетворяются два требования: 1) в отношении изучаемой переменной известно или, по крайней мере, можно предположить, что она имеет нормальное распределение; 2) данные представляют собой интервальные измерения или измерения отношений.

Если среднее и стандартное отклонение генеральной совокупности известно (хотя бы предположительно), можно определить точное значение вероятности получения наблюдаемого различия между известным генеральным параметром и выборочной статистикой. Нормированное отклонение (z-оценку) можно найти путем сравнения со стандартизованной нормальной кривой (называемой также z-распределением).

Поскольку исследователи часто работают с малыми выборками и поскольку параметры генеральной совокупности редко известны, стандартизованные t-распределения Стьюдента обычно используются чаще нормального распределения. Точная форма t-распределения варьирует в зависимости от объема выборки (точнее, от числа степеней свободы,т.

е. числа значений, к-рые можно свободно изменять в данной выборке). Семейство t-распределений можно использовать для проверки нулевой гипотезы, состоящей в том, что две выборки были извлечены из одной и той же совокупности. Такая нулевая гипотеза типична для исследований с двумя группами испытуемых, напр. эксперим. и контрольной.

Когда в исслед. задействовано больше двух групп, можно применить дисперсионный анализ (F-критерий).

F — это универсальный критерий, оценивающий различия между всеми возможными парами исследуемых групп одновременно. При этом сравниваются величины дисперсии внутри групп и между группами.

Существует множество post hoc методик выявления парного источника значимости F-критерия.

Непараметрические статистики.Когда не удается соблюсти требования адекватного применения параметрических критериев или когда собираемые данные являются порядковыми (ранговыми) или номинальными (категориальными), используют непараметрические методы.

Эти методы параллельны параметрическим в том, что касается их применения и назначения. Непараметрические альтернативы t-критерию включают U-критерий Манна—Уитни, критерий Уилкоксона (W) и критерий с2для номинальных данных.

К непараметрическим альтернативам дисперсионного анализа относятся критерии Краскела — Уоллеса, Фридмана и с2.

Логика применения каждого непараметрического критерия остается той же самой: соответствующая нулевая гипотеза отвергается в том случае, если расчетное значение критериальной статистики выходит за пределы заданной критической области (т. е. оказывается менее вероятным, чем предполагалось).

Так как все статистические выводы основаны на оценках вероятности, возможны два ошибочных исхода: ошибки I рода, при к-рых отвергается истинная нулевая гипотеза, и ошибки II рода, при к-рых сохраняется ложная нулевая гипотеза. Первые имеют следствием ошибочное подтверждение гипотезы исслед., а последние — неспособность распознать статистически значимый результат.

См. также Дисперсионный анализ, Меры центральной тенденции, Факторный анализ, Измерение, Методы многомерного анализа, Проверка нулевой гипотезы, Вероятность, Статистический вывод

А. Майерс

Статистика малых выборок (small-sample statistics)

Принято считать, что начало С. м. в. или, как ее часто называют, статистике «малых п»,было положено в первом десятилетии XX века публикацией работы У. Госсета, в к-рой он поместил t-распределение, постулированное получившим чуть позже мировую известность «студентом».

В то время Госсет работал статистиком на пивоваренных заводах Гиннесса. Одна из его обязанностей заключалась в том, чтобы анализировать поступающие друг за другом партии бочонков только что сваренного портера.

По причине, к-рую он никогда толком не объяснял, Госсет экспериментировал с идеей существенного сокращения числа проб, отбираемых из очень большого количества бочек, находящихся на складах пивоварни, для выборочного контроля качества портера. Это и привело его к постулированию t-распределения.

Так как устав пивоваренных заводов Гиннесса запрещал публикацию их работниками результатов исслед.

, Госсет опубликовал результаты своего эксперимента по сравнению выборочного контроля качества с использованием t-распределения для малых выборок и традиционного z-распределения (нормального распределения) анонимно, под псевдонимом «Студент» (Student — откуда и пошло название t -распределение Стьюдента).

t-распределение.Теория t-распределения, подобно теории z-распределения, используется для проверки нулевой гипотезы о том, что две выборки представляют собой просто случайные выборки из одной генеральной совокупности и, следовательно, вычисленные статистики (напр.

, среднее и стандартное отклонение) яв-ся несмещенными оценками параметров генеральной совокупности.

Однако, в отличие от теории нормального распределения, теория t-распределения для малых выборок не требует априорного знания или точных оценок математического ожидания и дисперсии генеральной совокупности.

Более того, хотя проверка различия между средними двух больших выборок на статистическую значимость требует принципиального допущения о нормальном распределении характеристик генеральной совокупности, теория t-распределения не требует допущений относительно параметров.

Общеизвестно, что нормально распределенные характеристики описываются одной единственной кривой — кривой Гаусса, к-рая удовлетворяет следующему уравнению:

.

При t-распределении целое семейство кривых представлено следующей формулой:

.

Вот почему уравнение для t включает гамма-функцию, которая в математике означает, что при изменении п данному уравнению будет удовлетворять другая кривая.

⇐ Предыдущая487488489490491492493494495496Следующая ⇒

Дата добавления: 2015-10-01; просмотров: 782 | Нарушение авторских прав | Изречения для студентов

Источник: https://lektsii.org/2-39739.html

Biz-books
Добавить комментарий