Корелационен анализ на Спирман. Корелационен метод – реферат

Методи на корелация

Всички явления на социалния живот са взаимосвързани и взаимозависими. Задачата на статистиката е да идентифицира и измери връзките и зависимостите между изследваните явления.

Взаимосвързаните признаци се подразделят на факторни (под тяхно влияние се променят други знаци, които зависят от тях) и ефективни.

Връзките според степента на плътност могат да бъдат функционални (при които определена стойност на атрибута на фактора съответства на строго определена стойност на ефективния атрибут; едно наблюдение е достатъчно, за да се идентифицира такава връзка), статистически (когато няколко стойности ​на ефективния атрибут може да съответства на същата стойност на атрибута фактор; тези връзки се проявяват в повечето случаи и по едно и също време средно). Функционалните връзки иначе се наричат ​​пълни, а статистическите - непълни или корелационни.

Корелационната зависимост се появява само в средните стойности и изразява числената връзка между тях под формата на тенденция една променлива да се увеличава или намалява, докато друга се увеличава или намалява.

Корелационната връзка е свободна, непълна и неточна връзка.

Тъй като корелацията е статистическа, първото условие за възможността за нейното изследване е общо състояниевсяко статистическо изследване: наличието на данни за достатъчно голям набор от явления. За отделните явления може да се получи напълно погрешна представа за връзката на знаците, тъй като при всяко отделно явление стойностите на знаците, в допълнение към редовния компонент, имат случайно отклонение (вариация).

Второто условие за редовното проявление на корелацията е условието, което осигурява надежден израз на закономерността в средната стойност. Освен вече посочения голям брой единици на населението, това изисква достатъчна качествена хомогенност на съвкупността. Нарушаването на това условие може да наруши корелационните параметри.

Директни и обратни връзки. В зависимост от посоката на действие, функционалните и стохастичните връзки могат да бъдат преки и обратни. При директна връзка посоката на промяна на резултантния атрибут съвпада с посоката на промяна в знака-фактора, тоест с увеличаване на знака на фактора, резултантният знак също се увеличава и, обратно, с намаляване на знака на фактора, резултантният знак също намалява. В противен случай има обратни връзки между разглежданите количества. Например, колкото по-висока е квалификацията на работника (ранг), толкова по-високо е нивото на производителност на труда - пряка връзка. И колкото по-висока е производителността на труда, толкова по-ниска е себестойността на единица продукция - обратна връзка.

Праволинейни и криволинейни връзки. Според аналитичния израз (форма) връзките могат да бъдат праволинейни и криволинейни. При линейна връзка с увеличаване на стойността на атрибута на фактора има непрекъснато увеличение (или намаляване) на стойностите на получения атрибут. Математически такава връзка се представя с уравнението на права линия, а графично - с права линия. Оттук и по-краткото му име - линейна връзка. При криволинейни връзки с увеличаване на стойността на факторен атрибут увеличаването (или намаляването) на ефективния атрибут става неравномерно или посоката на промяната му се обръща. Геометрично такива връзки са представени с извити линии (хипербола, парабола и др.).

Еднофакторни и многофакторни връзки. Според броя на факторите, действащи върху ефективния атрибут, връзките се различават: еднофакторни (един фактор) и многофакторни (два или повече фактора). Еднофакторните (прости) връзки обикновено се наричат ​​сдвоени (тъй като се разглежда двойка характеристики). Например, връзката между печалбата и производителността на труда. В случай на многофакторна (множествена) връзка те означават, че всички фактори действат комплексно, тоест едновременно и взаимосвързано. Например, връзката между производителността на труда и нивото на организация на труда, автоматизацията на производството, квалификацията на работниците, трудовия стаж, времето на престой и други факторни характеристики. С помощта на множествена корелация е възможно да се обхване целия комплекс от факторни характеристики и обективно да се отразят съществуващите множество връзки.

За изследване, измерване и количествено определяне на връзките между явленията, статистиката използва различни методи, като: метода за сравняване на паралелни редове, баланс, графика, методи на аналитично групиране, дисперсионен и корелационен анализ

Методът на успоредните редове се състои във факта, че материалите, получени в резултат на обобщения и обработка, се подреждат под формата на успоредни редове и се сравняват един с друг, за да се установи естеството и близостта на връзката.

Балансовият метод се състои в това, че данните от взаимосвързаните показатели се показват под формата на таблица и се подреждат по такъв начин, че сумите между отделните му части са равни, т.е. да балансира. Балансовият метод се използва за характеризиране на връзката между производството и разпределението на продуктите, паричните приходи и разходи на населението и др. почти всички вътрешни и външни икономически отношения се изразяват под формата на баланси.

Метод на аналитичните групировки. Същността на метода на аналитичните групировки е, че единиците на статистическата съвкупност се групират по правило по факторен атрибут и за всяка група се изчислява средна или относителна стойност според ефективния атрибут. След това се променят средните или относителните стойности на резултантния знак за сравнение с промените в знака на фактора, за да се идентифицира естеството на връзката между тях.

Корелационно-регресионен анализ. Корелационна връзка - връзка, която се проявява с достатъчно голям брой наблюдения под формата на определена връзка между средната стойност на получения атрибут и признаците-фактори.

Изучаването на корелациите се свежда главно до решаване на следните проблеми:

  • - идентифициране на наличието (или отсъствието) на корелация между изследваните характеристики. Този проблем може да бъде решен на базата на паралелно сравнение (сравнение) на стойности хи вв нединици население; с помощта на групировки; изграждане и анализ на специални корелационни таблици; както и конструиране на диаграми на разсейване;
  • - измерване на близостта на връзката между две (или повече) характеристики с помощта на специални коефициенти. Тази част от изследването се нарича корелационен анализ;
  • - дефиниране на регресионното уравнение - математически модел, в който средната стойност на ефективния признак вразглежда като функция на една или повече променливи - факторни признаци. Тази част от изследването се нарича регресионен анализ.

Задачата на корелационния анализ е да измери близостта на връзката между променливите характеристики и да оцени факторите, които имат най-голямо влияние.

Задачата на регресионния анализ е изборът на типа модел (форма на връзка), който установява степента на влияние на независимите променливи.

Връзката на знаците се проявява в координираната им вариация, докато някои признаци действат като факторни, а други - като ефективни. Причинно-следствената връзка на фактора и резултатните признаци се характеризира със степента:

  • - стегнатост;
  • - посока;
  • - аналитичен израз.

Регресионен анализ. За оценка на параметрите на регресионните уравнения най-често се използва методът на най-малките квадрати (LSM), чиято същност е следното изискване: желаните теоретични стойности на ефективната характеристика трябва да бъдат такива, че минималната сума на квадратите на техните отклонения от емпиричните (действителни) стойности биха били осигурени, т.е.

При изучаване на връзките на показателите, различен видуравнения на праволинейна и криволинейна връзка. Така че, когато се анализира праволинейна зависимост, се използва следното уравнение:

При криволинейна зависимост се използват редица математически функции:

полулогаритмичен

демонстрация

мощност

параболичен

хиперболичен

Най-често използваната форма на връзка между корелирани характеристики е линейна, при двойна корелация тя се изразява с уравнението, където а 0 - средна стойност в точката х=0, така че няма икономическа интерпретация на коефициента; а 1 - коефициент на регресия, показва колко средно се променя стойността на ефективния атрибут с увеличаване на коефициента едно с единица собствено измерване.

Системата от нормални уравнения на най-малките квадрати за линейна регресия на двойката има следния вид:

От тук можем да изразим коефициентите на регресия:

За практическа употребарегресионни модели, е необходимо да се провери тяхната адекватност. Когато броят на обектите на анализ е до 30 единици, става необходимо да се провери доколко изчислените параметри са типични за показания набор от условия, дали получените стойности на параметрите са резултат от случайни причини. Значение на коефициентите на регресия спрямо населението н<30определяется с помощью t-критерия Стьюдента. При этом вычисляются фактические значения t-критерия:

за параметър a0: ,

за параметър а 1: .

средно квадратно отклонение на резултантния елемент от изравнените стойности.

стандартното отклонение на факторния знак от общата средна стойност.

Действителните стойности, получени по формулите и се сравняват с критичната, която се получава от таблицата на Студент, като се вземат предвид приетото ниво на значимост и броя на степените на свобода n =n-k- 1, където н- брой наблюдения, ке броят на факторите, включени в регресионното уравнение). Изчислени параметри а 0 и а 1 регресионни уравнения се считат за типични, ако т действително повече т критичен.

Анализът на корелацията ви позволява да установите близостта на връзката между факторите и да решите следните проблеми:

  • - да отговоря на въпроса: има ли връзка?
  • - идентифициране на промени в комуникацията в различни ситуации на реални данни;
  • - да се определят най-значимите фактори в характеристиката на производителността;

разграничаване:

  • - двойна корелация - това е връзката между резултантния и факторния знак;
  • - частична корелация - това е връзката между ефективния и един факторен знак с фиксирана стойност на други факторни признаци;

Множество - многофакторно влияние в статичния модел.

Най-простите индикатори за тясна връзка са:

  • - коефициент на линейна корелация на К. Пиърсън;
  • - коефициент на детерминация;
  • - коефициенти на корелация на признаците - за оценка на плътността на връзката на качествените характеристики (непараметрични методи), G. Fechner, K. Spearman, M. Kandel.

Стегнатостта на връзката с линейна зависимост се измерва с помощта на линеен коефициент на корелация, който се изчислява по една от формулите:

Корелационният анализ оценява адекватността на регресионния модел, но чрез установяване на плътността на връзката.

Оценка на линейния коефициент на корелация

Значимостта на коефициента на линейна корелация се тества въз основа на t-теста на Студент. За да направите това, действителната стойност на критерия се определя:

Стойността, изчислена по формулата, се сравнява с критичната стойност, която се получава от таблицата на Студент, като се вземат предвид приетото ниво на значимост и броя на степените на свобода n.

Коефициентът на корелация се счита за статистически значим, ако ткалк надвишава ( тизчисление >).

Универсален показател за плътността на връзката е теоретичното съотношение на корелация:

където е общата дисперсия на емпиричните стойности г, характеризира вариацията на получения атрибут поради всички фактори, вкл х;

Факторната дисперсия на теоретичните стойности на резултантния атрибут отразява влиянието на фактора хза вариация в;

Остатъчната дисперсия на емпиричните стойности на получения атрибут отразява ефекта върху вариацията ввсички други фактори освен х.

Според правилото за добавяне на вариации:

Оценка на връзката въз основа на теоретичното съотношение на корелация (скала на Чадок)

За линейна зависимост теоретичното съотношение на корелация е идентично с коефициента на линейна корелация, т.е. h = | r|.

Коефициентът на множествена корелация в случай на зависимост на ефективния признак от два фактора се изчислява по формулата:

където - сдвоени коефициенти на корелация между характеристиките.

Коефициентът на множествена корелация варира от 0 до 1 и е положителен по дефиниция: .

Значението на коефициента на множествена детерминация и съответно адекватността на целия модел и правилния избор на формата на комуникация могат да бъдат проверени с помощта на критерия на Фишер:

където Р 2 - коефициент на множествена детерминация ( Р 2);

к- броят на факторните характеристики, включени в регресионното уравнение.

Една връзка се счита за значима, ако Физчисление > Ф tabl - таблична стойност F-критерий за дадено ниво на значимост и брой степени на свобода

n 1 = к, n 2 = n-k- 1.

Коефициентите на частична корелация характеризират степента на близост на връзката между ефективния признак и фактора, като същевременно елиминират връзката му с други фактори, включени в анализа. В случай на пристрастяване вот два факторни знака се изчисляват частични коефициенти на корелация:

където r- сдвоени коефициенти на корелация между променливите, посочени в индекса.

В първия случай се изключва влиянието на факторния знак х 2 , във втория - х 1.

За да се оцени относителната сила на влиянието на факторите, се изчисляват коефициенти на частична еластичност за всеки фактор:

където - средната стойност на съответния знак за фактор;

Средната стойност на ефективния признак;

Коефициент на регресия при и-ти фактор знак.

Този коефициент показва с колко процента трябва да се очаква промяна в ефективния показател, когато факторът се промени с 1%, а стойността на останалите фактори остава непроменена.

Частичният коефициент на детерминация показва колко процента вариацията на получената характеристика се обяснява с вариацията и-ти знак, включен в уравнението за множествена регресия, се изчислява по формулата:

където е коефициентът на корелация на двойката между ефективните и и-m фактор знак;

Съответният стандартизиран коефициент на уравнението за множествена регресия е:

СПИСЪК НА ИЗПОЛЗВАНАТА ЛИТЕРАТУРА

„Теория на статистиката”, учебник, изд. R.A. Шмойлова,

М.: Финанси и статистика, 2007. - 510 с.

„Практическа работа по теория на статистиката”, изд. R.A. Шмойлова,

М.: Финанси и статистика, 2004. - 456 с.

"Обща теория на статистиката" I.I. Елисеева, М.М. Юзбашев,

М.: Финанси и статистика, 2002. - 480 с.

"Теория на статистиката" V.M. Гусаров, М.: УНИТИ, 2001. - 247 с.

Корелация - това е степента, до която събитията или личните характеристики на даден човек зависят един от друг. Методът на корелация е процедура в изследванията, използвана за определяне на връзката между променливите. Този метод може например да отговори на въпроса: „Има ли връзка между количеството стрес, което хората изпитват, и степента на депресия, която изпитват?“ Тоест, тъй като хората продължават да изпитват стрес, колко по-вероятно е да изпаднат в депресия?

Корелация - степента, до която събитията или характеристиките зависят едно от друго.

корелационен метод - изследователска процедура, която се използва, за да се определи как събитията или характеристиките са взаимозависими.

За да отговорят на този въпрос, изследователите изчисляват оценките за житейски стрес (напр. броят на заплашителни събития, които човек преживява за даден период от време) и оценките за депресия (напр. резултати от въпросниците за депресия). Обикновено изследователите установяват, че тези променливи се увеличават или намаляват заедно (Stader & Hokanson, 1998; Paykel & Cooper, 1992). Тоест, колкото по-висок е резултатът от стреса в живота на човек, толкова по-висок е неговият/нейният резултат за депресия. Корелациите от този вид имат положителна посока и се наричат ​​положителни корелации.

Корелацията може да бъде както отрицателна, така и положителна. При отрицателна корелация, когато стойността на една променлива се увеличава, стойността на другата намалява. Изследователите са открили, например, отрицателна връзка между депресията и нивата на активност. Колкото по-депресиран е човек, толкова по-малко е зает.

Има и трета връзка в корелационното изследване. Две променливи може да не са свързани, тоест няма последователна връзка между тях. Когато броят на една променлива се увеличи, производителността на другата променлива понякога се увеличава, понякога намалява. Изследванията показват, например, че депресията и интелигентността са независими една от друга.

В допълнение към познаването на посоката на корелацията, изследователите трябва да знаят нейната величина или сила. Тоест колко тясно са свързани тези две променливи една с друга. Винаги ли една променлива зависи от другата или връзката им е по-малко сигурна? Когато се установи тясна връзка между две променливи при много субекти, се казва, че корелацията е висока или стабилна.

Посоката и големината на корелацията често имат числова стойност и се изразяват в статистическа концепция - коефициент на корелация ( r ). Коефициентът на корелация може да варира от +1,00, което показва пълна положителна корелация между двете променливи, до -1,00, което показва пълна отрицателна корелация. Знакът на коефициента (+ или -) показва посоката на корелацията; числото представлява неговата величина. Колкото по-близо е коефициентът до 0, толкова по-слаба е корелацията и толкова по-малка е нейната величина. Така че корелациите +0.75 и -0.75 имат еднакви стойности, а корелацията +.25 е по-слаба от двете корелации.

Коефициент на корелация ( r ) - статистически термин, указващ посоката и големината на корелацията, вариращ от -1,00 до +1,00.

Поведението на хората се променя и много човешки реакции могат да бъдат само приблизителни. Следователно в психологическите изследвания корелациите не достигат стойността на пълна положителна или пълна отрицателна корелация. В едно проучване на стрес и депресия с 68 възрастни, корелацията между двете променливи е +0,53 (Miller et al., 1976). Въпреки че тази корелация трудно може да се нарече абсолютна, нейната величина в психологическите изследвания се счита за голяма.

Статистически анализ на корелационни данни

Учените трябва да решат дали корелацията, която откриват в дадена група субекти, отразява точно истинската корелация в общата популация. Може ли наблюдаваната корелация да възникне само случайно? Учените могат да тестват своите открития със статистически анализ на данните, прилагайки принципите на вероятността. По същество те се чудят колко вероятно е данните от конкретно проучване да са получени случайно. Ако статистическият анализ показва, че има много малък шанс откритата корелация да се дължи на случайност, тогава изследователите наричат ​​корелацията статистически значима и заключават, че техните данни отразяват истинска корелация, която се среща повсеместно.

Предимства и недостатъци на корелационния метод

Методът на корелация има някои предимства пред изследването на отделни случаи на заболяването. Тъй като изследователите извличат своите променливи от множество примери и прилагат статистически анализ, те са по-способни да обобщават за хората, които изучават. Изследователите могат също да повтарят корелационни изследвания върху нови субекти, за да тестват своите открития.

Въпреки че корелационните изследвания позволяват на изследователите да опишат връзката между две променливи, те не обясняват връзката. Когато разгледаме положителните корелации, открити при изследване на различни стресови фактори в живота, може да се изкушим да заключим, че повишеният стрес води до по-тежка депресия. Всъщност обаче тези две променливи могат да бъдат свързани по една от трите причини: 1) стресът в живота може да доведе до депресия; 2) депресията може да накара хората да издържат повече стрес (например, депресивният подход към живота кара хората да управляват неправилно парите или депресията се отразява негативно на социалните им взаимоотношения); 3) Депресията и стресът в живота може да се дължат на трета променлива като бедността. Въпросите за причинно-следствената връзка изискват прилагането на експерименталния метод.

<Въпроси за размисъл.Как бихте обяснили значителната връзка между стреса в живота и депресията? Кое тълкуване според вас е най-точно?>

Специални форми на корелационно изследване

Два вида корелационни изследвания се използват широко от клиницистите - епидемиологични изследвания и дългосрочни (лонгитюдни) проучвания. Епидемиологичните проучвания разкриват общия брой на случаите и разпространението на дадено заболяване в определена популация (Weissman, 1995). Брой случаи - е броят на новите случаи на нарушения, възникнали в даден период от време. Разпространение - общия брой на случаите в популацията за даден период от време; разпространението на разстройство или заболяване включва както съществуващи, така и нови случаи.

През последните двадесет години клиницистите в Съединените щати разработиха най-обширното епидемиологично проучване, провеждано някога и го нарекоха Дистриктно епидемиологично проучване. Те интервюираха повече от 20 000 души в пет града, за да разберат разпространението на различни психични разстройства и какви програми са използвани за лечението им (Regier et al., 1993). Това проучване е сравнено с епидемиологични проучвания в други страни, за да се провери как нивата на психични разстройства и програмите за лечение варират по света (Weissman, 1995).

<Близнаци, корелация и наследственост. Проучванията на корелация на много двойки близнаци предполагат възможна връзка между генетични фактори и някои психиатрични разстройства. Еднояйчните близнаци (близнаци, които, като тези на снимката, имат идентични гени) показват висока степен на корелация при някои нарушения и тази корелация е по-висока от тази на неидентичните близнаци (тези с неидентични гени).>

Такива епидемиологични проучвания помагат на психолозите да идентифицират рискови групи, предразположени към определени разстройства. Оказва се, че при жените преобладава нивото на разстройствата, свързани с тревожност и депресия, за разлика от мъжете, при които преобладава по-високо ниво на алкохолизъм, отколкото при жените. По-възрастните хора имат по-висок процент на самоубийства от по-младите хора. Хората в някои незападни страни (като Тайван) имат по-висок процент на психична дисфункция от тези на Запад. Тези тенденции карат изследователите да предполагат, че някои специфични фактори и среда провокират определени видове разстройства (Rogers & Holloway, 1990). Например, влошаването на здравето при възрастните хора е по-вероятно да ги доведе до самоубийство; културните преси или нагласите, преобладаващи в една страна, водят до определено ниво на психична дисфункция, което се различава от нивото на същата дисфункция в друга страна.

Епидемиологично проучване - изследване, което определя броя на случаите на заболяване и разпространението му сред даден сегмент от населението.

Брой случаи - броят на новите случаи на заболяването, възникнали в дадена популация за даден период от време.

Разпространение - общият брой на случаите на нарушения, които се появяват в даден сегмент от населението за определен период от време.

Провеждане дългосрочни изследвания,психолозите наблюдават едни и същи субекти в различни ситуации за дълъг период от време. В един такъв експеримент учените наблюдават в продължение на много години развитието на нормално функциониращи деца, чиито баща или майка страдат от шизофрения (Parnas, 1988; Mednick, 1971). Изследователите установиха, наред с други неща, че децата на родители с тежки форми на шизофрения са по-склонни да развият психични разстройства и да извършват престъпления в по-късните етапи от своето развитие.

Дългосрочно (надлъжно) проучване - изследване, при което едни и същи субекти се наблюдават за дълъг период от време.

Когато изучава общественото здраве и здравеопазването за научни и практически цели, изследовател често трябва да извърши статистически анализ на връзките между факторните и произтичащите характеристики на статистическата популация (причинно-следствена връзка) или да определи зависимостта на паралелни промени в няколко характеристики на тази популация от някаква трета стойност (от тяхната обща кауза). ). Необходимо е да можете да проучите характеристиките на тази връзка, да определите нейния размер и посока, както и да оцените нейната надеждност. За това се използват корелационни методи.

  1. Видове проява на количествени връзки между признаци
    • функционална връзка
    • корелация
  2. Дефиниции за функционалност и корелация

    функционална връзка- този тип връзка между две характеристики, когато всяка стойност на единия от тях съответства на строго определена стойност на другия (площта на окръжността зависи от радиуса на окръжността и т.н.). Функционалната връзка е характерна за физическите и математическите процеси.

    корелация- такава връзка, при която всяка конкретна стойност на един атрибут съответства на няколко стойности на друг атрибут, взаимосвързан с него (отношението между височината и телесното тегло на човек; връзката между телесната температура и честотата на пулса и др.). Корелацията е характерна за биомедицинските процеси.

  3. Практическото значение на установяване на корелация. Идентифициране на причинно-следствена връзка между фактор и произтичащи характеристики (при оценка физическо развитие, за определяне на връзката между условията на труд, живота и здравословното състояние, при определяне на зависимостта на честотата на случаите на заболяването от възрастта, трудовия стаж, наличието на производствени опасности и др.)

    Зависимостта на паралелните промени в няколко признака от някое трето количество. Например, под въздействието на висока температура в цеха, промени в кръвното налягане, вискозитета на кръвта, пулса и др.

  4. Стойността, характеризираща посоката и силата на връзката между характеристиките. Коефициент на корелация, който в едно число дава представа за посоката и силата на връзката между признаци (явления), границите на неговите колебания са от 0 до ± 1
  5. Методи за корелационно представяне
    • графика (диаграма на разсейване)
    • коефициент на корелация
  6. Посока на корелация
    • прав
    • обратен
  7. Силата на корелацията
    • силно: ±0,7 до ±1
    • средно: ±0,3 до ±0,699
    • слабо: 0 до ±0,299
  8. Методи за определяне на коефициента на корелация и формули
    • метод на квадратите (метод на Пиърсън)
    • метод на ранг (метод на Спиърман)
  9. Методически изисквания за използване на коефициента на корелация
    • измерването на асоциации е възможно само в качествено хомогенни популации (например, измерване на връзката между височина и тегло в популации, които са хомогенни по пол и възраст)
    • изчисляването може да се направи с помощта на абсолютни или производни стойности
    • негрупирани вариационни серии се използват за изчисляване на коефициента на корелация (това изискване се прилага само при изчисляване на коефициента на корелация по метода на квадратите)
    • брой наблюдения не по-малко от 30
  10. Препоръки за използване на метода за корелация на ранга (метод на Спирман)
    • когато няма нужда от точно установяване на силата на връзката, а по-скоро ориентировъчни данни
    • когато признаците се представят не само с количествени, но и с атрибутивни стойности
    • когато сериите от функции за разпространение имат отворени опции (например трудов стаж до 1 година и др.)
  11. Препоръки за използване на метода на квадратите (метод на Пиърсън)
    • когато се изисква точно да се установи силата на връзката между характеристиките
    • когато знаците имат само количествен израз
  12. Методология и процедура за изчисляване на коефициента на корелация

    1) Метод на квадрати

    2) Ранг метод

  13. Схема за оценка на корелацията по коефициента на корелация
  14. Изчисляване на грешка на коефициента на корелация
  15. Оценка на надеждността на коефициента на корелация, получен по метода на ранговата корелация и метода на квадратите

    Метод 1
    Надеждността се определя по формулата:

    Критерият t се оценява според таблицата на стойностите на t, като се отчита броят на степените на свобода (n - 2), където n е броят на сдвоените опции. Критерият t трябва да бъде равен или по-голям от табличния, съответстващ на вероятността p ≥ 99%.

    Метод 2
    Надеждността се оценява по специална таблица със стандартни корелационни коефициенти. В същото време такъв коефициент на корелация се счита за надежден, когато за определен брой степени на свобода (n - 2) е равен или по-голям от табличния, съответстващ на степента на безгрешна прогноза p ≥ 95%.

за прилагане на метода на квадратите

Упражнение:изчислете коефициента на корелация, определете посоката и силата на връзката между количеството калций във водата и твърдостта на водата, ако са известни следните данни (Таблица 1). Оценете надеждността на връзката. Направете заключение.

маса 1

Обосновка за избора на метод.За решаване на проблема е избран методът на квадратите (Pearson), т.к всеки от признаците (твърдост на водата и количество калций) има числов израз; няма отворена опция.

Решение.
Последователността на изчисленията е описана в текста, резултатите са представени в таблицата. След като сте изградили редове от сдвоени сравними знаци, означете ги като x (твърдост на водата в градуси) и чрез y (количество калций във вода в mg / l).

Твърдостта на водата
(в градуси)
Количеството калций във водата
(в mg/l)
d x д d x x d y d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
M x = Σ x / n M y \u003d Σ y / n Σ d x x d y \u003d 7078 Σ d x 2 \u003d 982 Σ d y 2 =51056
M x \u003d 120/6 \u003d 20 M y \u003d 852 / 6 = 142
  1. Определете средните стойности M x в реда опция "x" и M y в реда опция "y" по формулите:
    М x = Σх/n (колона 1) и
    М y = Σу/n (колона 2)
  2. Намерете отклонението (d x и d y) на всяка опция от стойността на изчислената средна стойност в серията "x" и в серията "y"
    d x \u003d x - M x (колона 3) и d y \u003d y - M y (колона 4).
  3. Намерете произведението на отклоненията d x x d y и ги сумирайте: Σ d x x d y (колона 5)
  4. Квадратирайте всяко отклонение d x и d y и сумирайте техните стойности по серия "x" и по серия "y": Σ d x 2 = 982 (колона 6) и Σ d y 2 = 51056 (колона 7).
  5. Определете произведението Σ d x 2 x Σ d y 2 и извлечете квадратния корен от това произведение
  6. Получените величини Σ (d x x d y) и √ (Σd x 2 x Σd y 2)заместваме във формулата за изчисляване на коефициента на корелация:
  7. Определете надеждността на коефициента на корелация:
    1-ви начин. Намерете грешката на коефициента на корелация (mr xy) и критерия t, като използвате формулите:

    Критерий t = 14.1, което съответства на вероятността за безгрешна прогноза p > 99.9%.

    2-ри начин. Надеждността на коефициента на корелация се оценява съгласно таблицата "Стандартни корелационни коефициенти" (виж Приложение 1). При броя на степените на свобода (n - 2) = 6 - 2 = 4, нашият изчислен коефициент на корелация r xу = + 0,99 е по-голям от табличния (r таблица = + 0,917 при p = 99%).

    Заключение.Колкото повече калций е във водата, толкова по-твърда е тя директен, силен и надежден: r xy = + 0,99, p > 99,9%).

    за прилагане на метода за ранг

    Упражнение:използвайки метода на ранга, за да установи посоката и силата на връзката между стажа в години и честотата на нараняванията, ако се получат следните данни:

    Обосновка за избора на метод:за решаване на проблема може да бъде избран само методът на корелация на ранга, тъй като първият ред на атрибута "трудов стаж в години" има отворени опции (трудов стаж до 1 година и 7 или повече години), което не позволява използването на по-точен метод - метода на квадратите - за установяване на връзка между сравнени характеристики.

    Решение. Последователността на изчисленията е описана в текста, резултатите са представени в табл. 2.

    таблица 2

    Трудов стаж в години Брой наранявания Редни числа (рангове) Разлика в ранга разлика в ранга на квадрат
    х Й d(x-y) d2
    До 1 година 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 или повече 6 5 1 +4 16
    Σ d 2 = 38,5

    Стандартни корелационни коефициенти, които се считат за надеждни (според Л. С. Камински)

    Брой степени на свобода - 2 Ниво на вероятност p (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Власов В.В. Епидемиология. - М.: ГЕОТАР-МЕД, 2004. - 464 с.
    2. Лисицин Ю.П. Обществено здраве и здравеопазване. Учебник за гимназиите. - М.: ГЕОТАР-МЕД, 2007. - 512 с.
    3. Медик В.А., Юриев В.К. Курс от лекции по обществено здраве и здравеопазване: Част 1. Обществено здраве. - М.: Медицина, 2003. - 368 с.
    4. Миняев В.А., Вишняков Н.И. и др. Социална медицина и организация на здравеопазването (Ръководство в 2 тома). - СПб., 1998. -528 с.
    5. Кучеренко В.З., Агарков Н.М. и др. Социална хигиена и организация на здравеопазването ( Урок) - Москва, 2000. - 432 с.
    6. С. Гланц. Медико-биологична статистика. Пер от английски. - М., Практика, 1998. - 459 с.

Корелация- това е степента, до която събитията или личните характеристики на даден човек зависят един от друг. Методът на корелация е процедура в изследванията, използвана за определяне на връзката между променливите. Този метод може например да отговори на въпроса: „Има ли връзка между количеството стрес, което хората изпитват, и степента на депресия, която изпитват?“ Тоест, тъй като хората продължават да изпитват стрес, колко по-вероятно е да изпаднат в депресия?

Корелация- степента, до която събитията или характеристиките зависят едно от друго.

корелационен метод- изследователска процедура, която се използва, за да се определи как събитията или характеристиките са взаимозависими.

За да отговорят на този въпрос, изследователите изчисляват оценките за житейски стрес (напр. броят на заплашителни събития, които човек преживява за даден период от време) и оценките за депресия (напр. резултати от въпросниците за депресия). Обикновено изследователите установяват, че тези променливи се увеличават или намаляват заедно (Stader & Hokanson, 1998; Paykel & Cooper, 1992). Тоест, колкото по-висок е резултатът от стреса в живота на човек, толкова по-висок е неговият/нейният резултат за депресия. Корелациите от този вид имат положителна посока и се наричат ​​положителни корелации.

Корелацията може да бъде както отрицателна, така и положителна. При отрицателна корелация, когато стойността на една променлива се увеличава, стойността на другата намалява. Изследователите са открили, например, отрицателна връзка между депресията и нивата на активност. Колкото по-депресиран е човек, толкова по-малко е зает.

Има и трета връзка в корелационното изследване. Две променливи може да не са свързани, тоест няма последователна връзка между тях. Когато броят на една променлива се увеличи, производителността на другата променлива понякога се увеличава, понякога намалява. Изследванията показват, например, че депресията и интелигентността са независими една от друга.

В допълнение към познаването на посоката на корелацията, изследователите трябва да знаят нейната величина или сила. Тоест колко тясно са свързани тези две променливи една с друга. Винаги ли една променлива зависи от другата или връзката им е по-малко сигурна? Когато се установи тясна връзка между две променливи при много субекти, се казва, че корелацията е висока или стабилна.

Посоката и големината на корелацията често имат числова стойност и се изразяват в статистическа концепция - коефициент на корелация (r). Коефициентът на корелация може да варира от +1,00, което показва пълна положителна корелация между двете променливи, до -1,00, което показва пълна отрицателна корелация. Знакът на коефициента (+ или -) показва посоката на корелацията; числото представлява неговата величина. Колкото по-близо е коефициентът до 0, толкова по-слаба е корелацията и толкова по-малка е нейната величина. Така че корелациите +0.75 и -0.75 имат еднакви стойности, а корелацията +.25 е по-слаба от двете корелации.

Коефициент на корелация (r)- статистически термин, указващ посоката и големината на корелацията, вариращ от -1,00 до +1,00.

Поведението на хората се променя и много човешки реакции могат да бъдат само приблизителни. Следователно в психологическите изследвания корелациите не достигат стойността на пълна положителна или пълна отрицателна корелация. В едно проучване на стрес и депресия с 68 възрастни, корелацията между двете променливи е +0,53 (Miller et al., 1976). Въпреки че тази корелация трудно може да се нарече абсолютна, нейната величина в психологическите изследвания се счита за голяма.


Корелационният анализ (от латински „съотношение”, „свързване”) се използва за тестване на хипотеза за статистическата зависимост на стойностите на две или повече променливи, ако изследователят може да ги регистрира (измери), но не и да контролира (промяна).

Когато повишаването на нивото на една променлива е придружено от повишаване на нивото на друга, тогава говорим за положителна корелация. Ако увеличението на една променлива настъпва, когато нивото на другата намалява, тогава говорим за отрицателна корелация. При липса на връзка между променливите имаме работа с нулева корелация.

В този случай променливите могат да бъдат данни от тестове, наблюдения, експерименти, социално-демографски характеристики, физиологични параметри, поведенчески характеристики и др. професионални постижения при завършване, ниво на стремежи и стрес, брой деца в семейството и качество на техния интелект, личностни черти и професионална ориентация, продължителност на самотата и динамика на самочувствието, тревожност и вътрешногрупов статус, социална адаптация и агресивност в конфликт...

Като помощ, процедурите за корелация са незаменими при проектирането на тестове (за определяне на валидността и надеждността на измерването), както и пилотни действия за проверка на пригодността на експерименталните хипотези (фактът на липсата на корелация позволява да се отхвърли допускането за причинно-следствена връзка на променливите).

Нарастващият интерес в психологическата наука към потенциала на корелационния анализ се дължи на редица причини. Първо, става допустимо изследването на широк спектър от променливи, чиято експериментална проверка е трудна или невъзможна. Всъщност, по етични причини, например, е невъзможно да се провеждат експериментални изследвания на самоубийство, наркомания, деструктивни родителски влияния, влияние на авторитарни секти. Второ, възможно е за кратко време да се получат ценни обобщения на данни за голям брой изследвани индивиди. На трето място, известно е, че много явления променят своята специфичност по време на строги лабораторни експерименти. А корелационният анализ предоставя на изследователя възможност да оперира с информация, получена в условия, максимално близки до реалните. Четвърто, провеждането на статистическо изследване на динамиката на определена зависимост често създава предпоставки за надеждно прогнозиране на психологическите процеси и явления.

Трябва обаче да се има предвид, че използването на корелационния метод е свързано и с много значителни фундаментални ограничения.

По този начин е известно, че променливите могат добре да корелират дори при липса на причинно-следствена връзка една с друга.

Това понякога е възможно поради действието на случайни причини, при хетерогенна извадка, поради неадекватност на изследователските инструменти за поставените задачи. Такава фалшива корелация може да стане, да речем, „доказателство“, че жените са по-дисциплинирани от мъжете, юноши от непълни семействапо-податливи на престъпления, екстровертите са по-агресивни от интровертите и т.н. Наистина си струва да се подберат в една група мъже, работещи във висшето образование и жени, да кажем, от сектора на услугите, и дори да се тества и двамата за познаване на научната методология, тогава получаваме израз за забележима зависимост на качеството на осъзнаване от пола. Може ли да се вярва на такава корелация?

Може би дори по-често в изследователската практика има случаи, когато и двете променливи се променят под влияние на някои трети или дори няколко скрити детерминанти.

Ако обозначим променливите с числа, а стрелките показват посоки от причините към следствията, ще видим редица възможни опции:

1→ 2→ 3→ 4

1← 2← 3→ 4

1← 2→ 3→ 4

1← 2← 3← 4

Невниманието към въздействието на реални фактори, но неотчитано от изследователите, даде възможност да се представят обосновки, че интелигентността е чисто наследствена формация (психогенетичен подход) или, напротив, че се дължи само на влиянието на социалните компоненти на развитието (социогенетичен подход). В психологията трябва да се отбележи, че явленията, които имат недвусмислена първопричина, не са често срещани.

В допълнение, фактът, че съществува връзка между променливите, не прави възможно идентифицирането на причината и следствието въз основа на резултатите от корелационно изследване, дори в случаите, когато няма междинни променливи.

Например, при изучаване на агресивността на децата беше установено, че децата, склонни към жестокост, гледат филми със сцени на насилие по-често от своите връстници. Това означава ли, че подобни сцени развиват агресивни реакции или, напротив, подобни филми привличат най-агресивните деца? В рамките на изследване на корелацията е невъзможно да се даде легитимен отговор на този въпрос.

Трябва да се помни: наличието на корелации не е индикатор за тежестта и посоката на причинно-следствените връзки.

С други думи, след като установихме корелацията на променливите, можем да съдим не за детерминантите и производните, а само за това колко тясно са свързани промените в променливите и как едната от тях реагира на динамиката на другата.

При използване на този метод се оперира един или друг вид коефициент на корелация. Числената му стойност обикновено варира от -1 (обратна зависимост на променливите) до +1 (директна зависимост). В този случай нулевата стойност на коефициента съответства на пълното отсъствие на връзката между динамиката на променливите.

Например, коефициент на корелация от +0,80 отразява наличието на по-изразена връзка между променливите от коефициент от +0,25. По подобен начин връзката между променливите, характеризиращи се с коефициент от -0,95, е много по-близка от тази, при която коефициентите имат стойности от +0,80 или +0,25 („минусът“ само ни казва, че увеличението на една променлива е придружено от намаляване на другия).

В практиката на психологическите изследвания показателите на коефициентите на корелация обикновено не достигат +1 или -1. Можем да говорим само за една или друга степен на приближаване към дадена стойност. Често корелацията се счита за силна, ако нейният коефициент е по-голям от ±0,60. В същото време, като правило, индикаторите, разположени в диапазона от -0,30 до +0,30, се считат за недостатъчна корелация.

Трябва обаче веднага да се отбележи, че тълкуването на наличието на корелация винаги включва определяне на критичните стойности на съответния коефициент. Нека разгледаме този момент по-подробно.

Може да се окаже, че коефициентът на корелация, равен на +0,50, в някои случаи няма да бъде признат за надежден, а коефициентът от +0,30 при определени условия ще се окаже характеристика на несъмнена корелация. Тук много зависи от дължината на поредицата от променливи (т.е. от броя на сравняваните показатели), както и от дадената стойност на нивото на значимост (или от вероятността за грешка в изчисленията, приета за приемлива).

В крайна сметка, от една страна, колкото по-голяма е извадката, количествено по-малкият коефициент ще се счита за надеждно доказателство за корелационни връзки. И от друга страна, ако сме готови да се примирим със значителна вероятност за грешка, тогава можем да изчислим коефициента на корелация като достатъчно малка стойност.

Има стандартни маси критични стойностикоефициенти на корелация. Ако полученият от нас коефициент се окаже по-нисък от посочения в таблицата за тази извадка при установеното ниво на значимост, тогава той се счита за статистически ненадежден.

Когато работите с такава таблица, трябва да сте наясно, че праговата стойност на нивото на значимост в психологическото изследване обикновено се счита за 0,05 (или пет процента). Разбира се, рискът от грешка е още по-малък, ако вероятността е 1 на 100 или, още по-добре, 1 на 1000.

Така че не стойността на изчисления коефициент на корелация сама по себе си служи като основа за оценка на качеството на връзката на променливите, а статистическото решение дали изчисленият индикатор за коефициент може да се счита за надежден.

Знаейки това, нека се обърнем към изследването на специфични методи за определяне на коефициентите на корелация.

Значителен принос за развитието на статистическия апарат за корелационни изследвания има английският математик и биолог Карл Пиърсън (1857-1936), който по едно време се занимава с тестване на еволюционната теория на Чарлз Дарвин.

Обозначаването на коефициента на корелация на Пиърсън (r) идва от концепцията за регресия - операция за намаляване на набора от конкретни зависимости между отделните стойности на променливите до тяхната непрекъсната (линейна) средна зависимост.

Формулата за изчисляване на коефициента на Пиърсън е както следва:

където x, y- частни стойности на променливи, С- (сигма) - обозначение на сумата, и - средства на същите променливи. Помислете за процедурата за използване на таблицата с критичните стойности на коефициентите на Пиърсън. Както виждаме, броят на степените на свобода е посочен в лявата му колона. Определяйки линията, от която се нуждаем, изхождаме от факта, че желаната степен на свобода е равна на н-2, къде н- количеството данни във всяка от корелираните серии. В колоните, разположени от дясната страна, са посочени конкретните стойности на модулите на коефициентите.

Освен това, колкото по-вдясно е разположена колоната с числа, толкова по-висока е надеждността на корелацията, толкова по-уверено е статистическото решение за нейната значимост.

Ако например имаме два реда числа от по 10 единици във всяка от тях корелирани и се получи коефициент, равен на +0,65 по формулата на Пиърсън, тогава той ще се счита за значим на ниво 0,05 (тъй като е повече от критичната стойност от 0,632 за вероятността 0,05 и по-малка от критичната стойност от 0,715 за вероятността от 0,02). Това ниво на значимост показва значителна вероятност от повторение на тази корелация в подобни проучвания.

Сега даваме пример за изчисляване на коефициента на корелация на Пиърсън. Да предположим, че в нашия случай е необходимо да се определи естеството на връзката между извършването на два теста от едни и същи лица. Данните за първия от тях са обозначени като х, а според второто - като г.

За опростяване на изчисленията се въвеждат някои идентичности. а именно:

В същото време имаме следните резултати от субектите (в резултатите от теста):

Имайте предвид, че броят на степените на свобода в нашия случай е 10. Обръщайки се към таблицата с критичните стойности на коефициентите на Пиърсън, откриваме, че за дадена степен на свобода при ниво на значимост от 0,999, всеки корелационен индикатор на променливите по-висока от 0,823 ще се счита за надеждна. Това ни дава право да считаме получения коефициент като доказателство за несъмнена корелация на редицата хи г.

Използването на линеен коефициент на корелация става незаконно в случаите, когато изчисленията се извършват в рамките не на интервал, а на порядкова измервателна скала. След това се използват ранговите корелационни коефициенти. Разбира се, резултатите в този случай са по-малко точни, тъй като не самите количествени характеристики подлежат на сравнение, а само редовете на тяхната последователност един след друг.

Сред коефициентите на рангова корелация на практика психологически изследваниядоста често използват този, предложен от английския учен Чарлз Спирман (1863-1945), известен разработчик на двуфакторната теория на интелигентността.

Използвайки свързан пример, нека разгледаме стъпките, включени в определянето на коефициента на корелация на ранга на Spearman.

Формулата за нейното изчисление е както следва:

където д- разлики между ранговете на всяка променлива от серията хи г,

н- брой съвпадащи двойки.

Позволявам хи г- показатели за успеваемостта на субектите при извършване на определени видове дейности (оценка на индивидуалните постижения). При това имаме следните данни:

Имайте предвид, че първо, отделно класиране на показателите в серията хи г. Ако в същото време има няколко равни променливи, тогава им се присвоява един и същ среден ранг.

След това се извършва двойно определяне на разликата в ранга. Знакът на разликата е незначителен, тъй като според формулата е на квадрат.

В нашия пример, сумата от квадратните разлики в ранговете ∑ d2равно на 178. Заместете полученото число във формулата:

Както виждаме, коефициентът на корелация в този случай е незначителен. Независимо от това, нека го сравним с критичните стойности на коефициента на Спирман от стандартната таблица.

Заключение: между посочените серии от променливи хи гняма корелация.

Трябва да се отбележи, че използването на процедури за корелация на ранга предоставя на изследователя възможността да определи съотношението не само на количествени, но и на качествени характеристики, в случай, разбира се, че последните могат да бъдат подредени във възходящ ред на тежест ( класиран).

Разгледахме най-често срещаните, може би на практика, методи за определяне на коефициентите на корелация. Други, по-сложни или по-рядко използвани разновидности на този метод, ако е необходимо, могат да бъдат намерени в материалите на ръководствата, посветени на измерванията в научните изследвания.


Дял