Siguranță.  Înființat.  Internet.  Recuperare.  Instalare

Spearman și Kendall clasifică coeficienții de corelație. Coeficientul de corelare a rangului lui Kendall

A calcula coeficientul Kendall valorile caracteristicii factorilor sunt pre-clasificate, adică rangurile de X sunt scrise strict în ordinea crescătoare a valorilor cantitative.

1) Pentru fiecare rang din Y, găsiți numărul total de ranguri ulterioare care sunt mai mari ca valoare decât rangul dat. Numărul total de astfel de cazuri este luat în considerare cu semnul „+” și notat cu P.

2) Pentru fiecare rang din Y, determinați numărul de ranguri ulterioare care sunt mai mici ca valoare decât rangul dat. Numărul total de astfel de cazuri este luat în considerare cu semnul „-” și notat cu Q.

3) Calculați S=P+Q=9+(-1)=8

4) Coeficientul Kendell se calculează folosind formula:

Coeficientul Kendell poate lua valori de la -1 la +1, iar cu cât este mai aproape de , cu atât este mai puternică relația dintre caracteristici.

În unele cazuri, pentru a determina direcția relației dintre două caracteristici, calculează coeficientul Fechner. Acest coeficient se bazează pe o comparație a comportamentului abaterilor valorilor individuale ale factorului și a caracteristicilor rezultate de la valoarea lor medie. Coeficientul Fechner se calculează folosind formula:

; unde suma C este numărul total de coincidențe ale semnelor de abateri, suma H este numărul total de nepotriviri ale semnelor de abateri.

1) Calculați valoarea medie a caracteristicii factorului:

2) Determinați semnele de abateri ale valorilor individuale ale caracteristicii factorului de la valoarea medie.

3) Calculați valoarea medie a caracteristicii rezultate: .

4) Găsiți semnele abaterilor valorilor individuale ale caracteristicii rezultate de la valoarea medie:

Concluzie: legătura este directă, coeficientul nu indică apropierea conexiunii.

Pentru a determina gradul de apropiere a conexiunii dintre cele trei caracteristici clasate, calculați coeficientul concordanţă. Se calculează prin formula:

, unde m este numărul de caracteristici clasate; n este numărul de unități de observare clasate.

Industrii X1 X2 X3 R1 R2 R3
Industria energiei electrice 7,49
Combustibil 12,70
Chernaya M. 5,92
Cevetnaia M. 9,48
Inginerie mecanică 4,18
Rezultat:

X1- numărul de angajați (mii de persoane); X2- volumul vânzărilor industriale (miliard de ruble); X3- salariul mediu lunar.

1) Clasificăm valorile tuturor caracteristicilor și setăm rândurile strict în ordinea creșterii valorilor cantitative.

2) Pentru fiecare linie, determinați suma rangurilor. Rândul total este calculat din această coloană.

3) Calculați .

4) Pentru fiecare rând, găsiți abaterile pătrate ale sumelor rangurilor și valorilor T. Folosind aceeași coloană, calculăm ultimul rând, pe care îl notăm cu S. Coeficientul de concordanță poate lua valori de la 0 la 1, iar cu cât este mai aproape de 1, cu atât este mai puternică relația dintre caracteristici.

Pentru a calcula coeficientul de corelare a rangului Kendall r k este necesar să se ierarhească datele după una dintre caracteristici în ordine crescătoare și să se determine rangurile corespunzătoare pentru a doua caracteristică. Apoi, pentru fiecare rang al celui de-al doilea atribut, se determină numărul de ranguri ulterioare mai mare ca valoare decât rangul luat și se găsește suma acestor numere.

Coeficientul de corelare a rangului lui Kendall este dat de


Unde R i– numărul de ranguri ale celei de-a doua variabile, începând de la i+1, a cărui valoare este mai mare decât valoarea i- al-lea rang al acestei variabile.

Există tabele cu puncte procentuale de distribuție a coeficienților r k, permițându-vă să testați ipoteza despre semnificația coeficientului de corelație.

Pentru dimensiuni mari ale eșantioanelor, valori critice r k nu sunt tabulate și trebuie calculate folosind formule aproximative, care se bazează pe faptul că în ipoteza nulă H 0: r k=0 și mai mare n valoare aleatorie

distribuite aproximativ conform legii normale standard.

40. Dependența dintre trăsăturile măsurate pe o scară nominală sau ordinală

Adesea apare sarcina de a verifica independența a două caracteristici măsurate pe o scară nominală sau ordinală.

Lasă unele obiecte să aibă două caracteristici măsurate XȘi Y cu numărul de niveluri rȘi s respectiv. Este convenabil să prezentați rezultatele unor astfel de observații sub forma unui tabel numit tabel de contingență al caracteristicilor.

In masa tu i(i = 1, ..., r) Și v j (j= 1, ..., s) – valori acceptate de caracteristici, valoare n ij– numărul de obiecte din numărul total de obiecte care au atributul X a acceptat valoarea tu i, și semnul Y- sens v j

Să introducem următoarele variabile aleatoare:

tu i


– numărul de obiecte care au o valoare v j


În plus, există egalități evidente



Variabile aleatoare discrete XȘi Y independent dacă și numai dacă

pentru toate cuplurile i, j

Prin urmare, ipoteza despre independența variabilelor aleatoare discrete XȘi Y se poate scrie asa:

Ca alternativă, de regulă, se utilizează ipoteza

Valabilitatea ipotezei H 0 ar trebui judecată pe baza frecvențelor de eșantionare n ij tabele de contingență. În conformitate cu legea numerelor mari când n→∞ frecvențele relative sunt apropiate de probabilitățile corespunzătoare:



Statisticile sunt folosite pentru a testa ipoteza H 0

care, dacă ipoteza este adevărată, are o distribuție χ 2 s rs − (r + s− 1) grade de libertate.

Criteriul de independență χ 2 respinge ipoteza H 0 cu nivel de semnificație α dacă:


41. Analiza de regresie. Concepte de bază ale analizei de regresie

Pentru a descrie matematic relațiile statistice dintre variabilele studiate, trebuie rezolvate următoarele probleme:

ü selectați o clasă de funcții în care este indicat să căutați cea mai bună (într-un anumit sens) aproximare a dependenței de interes;

ü găsiți estimări ale valorilor necunoscute ale parametrilor incluși în ecuațiile dependenței dorite;

ü stabilirea adecvării ecuaţiei rezultate pentru relaţia dorită;

ü identificarea celor mai informative variabile de intrare.

Totalitatea sarcinilor enumerate face obiectul cercetării analizei de regresie.

Funcția de regresie (sau regresia) este dependența așteptării matematice a unei variabile aleatoare de valoarea luată de o altă variabilă aleatoare, formând cu prima un sistem bidimensional de variabile aleatoare.

Să existe un sistem de variabile aleatoare ( X,Y), apoi funcția de regresie Y pe X

Și funcția de regresie X pe Y

Funcții de regresie f(X) Și φ (y), nu sunt reciproc reversibile, cu excepția cazului în care relația dintre XȘi Y nu este functionala.

Când n-vector dimensional cu coordonate X 1 , X 2 ,…, Xn se poate lua în considerare așteptarea matematică condiționată pentru orice componentă. De exemplu, pentru X 1


numită regresie X 1 per X 2 ,…, Xn.

Pentru a defini complet funcția de regresie, este necesar să cunoașteți distribuția condiționată a variabilei de ieșire pentru valorile fixe ale variabilei de intrare.

Deoarece într-o situație reală nu dețin astfel de informații, de obicei se limitează la căutarea unei funcții de aproximare adecvate f a(X) Pentru f(X), pe baza datelor statistice din formularul ( x i, y eu), i = 1,…, n. Aceste date sunt rezultatul n observatii independente y 1 ,…, y n variabilă aleatorie Y pentru valorile variabilei de intrare X 1 ,…, x n, în timp ce în analiza de regresie se presupune că valorile variabilei de intrare sunt specificate exact.

Problema alegerii celei mai bune funcții de aproximare f a(X), fiind principalul în analiza de regresie, și nu are proceduri formalizate pentru rezolvarea acesteia. Uneori alegerea este determinată pe baza analizei datelor experimentale, mai adesea din considerente teoretice.

Dacă se presupune că funcția de regresie este suficient de netedă, atunci funcția care o aproximează f a(X) poate fi reprezentat ca o combinație liniară a unui anumit set de funcții de bază liniar independente ψk(X), k = 0, 1,…, m−1, adică sub forma


Unde m– numărul de parametri necunoscuți θk(în cazul general, cantitatea este necunoscută, rafinată în timpul construcției modelului).

O astfel de funcție este liniară în parametrii ei, deci în cazul în cauză vorbim de un model de funcție de regresie care este liniar în parametrii săi.

Apoi sarcina de a găsi cea mai bună aproximare pentru dreapta de regresie f(X) se reduce la găsirea unor astfel de valori ale parametrilor la care f a(X;θ) este cel mai adecvat pentru datele disponibile. Una dintre metodele care vă permite să rezolvați această problemă este metoda celor mai mici pătrate.

42. Metoda celor mai mici pătrate

Lăsați setul de puncte ( x i, y eu), i= 1,…, n situat pe un plan de-a lungul unei linii drepte

Apoi ca o funcție f a(X), care aproximează funcția de regresie f(X) = M [Y|X] este firesc să luăm o funcție liniară a argumentului X:


Adică funcțiile de bază alese aici sunt ψ 0 (X)≡1 și ψ 1 (X)≡X. Acest tip de regresie se numește regresie liniară simplă.

Dacă setul de puncte ( x i, y eu), i= 1,…, n situat de-a lungul vreunei curbe, apoi ca f a(X) este firesc să încercăm să alegeți o familie de parabole

Această funcție este neliniară în parametri θ 0 și θ 1, cu toate acestea, prin intermediul unei transformări funcționale (în acest caz, logaritm), poate fi redusă la o nouă funcție f' a(X) liniară în parametri:


43. Regresia liniară simplă

Cel mai simplu model de regresie este un model liniar simplu (univariat, cu un singur factor, pereche), care are următoarea formă:


Unde ε i– variabile aleatoare (erori) care sunt necorelate între ele, având așteptări matematice zero și varianțe identice σ 2 , AȘi b– coeficienți (parametri) constanți care trebuie estimați din valorile de răspuns măsurate y eu.

Pentru a găsi estimări ale parametrilor AȘi b regresie liniară, determinând linia dreaptă care satisface cel mai bine datele experimentale:


Se folosește metoda celor mai mici pătrate.

Conform metoda celor mai mici pătrate estimări ale parametrilor AȘi b găsit din condiția minimizării sumei abaterilor pătrate ale valorilor y eu vertical de la linia de regresie „adevărată”:

Să se facă zece observații ale unei variabile aleatorii Y pentru valori fixe ale variabilei X

Pentru a minimiza D să echivalăm cu zero derivatele parțiale în raport cu AȘi b:



Ca rezultat, obținem următorul sistem de ecuații pentru găsirea estimărilor AȘi b:


Prin rezolvarea acestor două ecuații rezultă:



Expresii pentru estimarea parametrilor AȘi b mai poate fi reprezentat ca:

Apoi ecuația empirică a dreptei de regresie Y pe X poate fi scris ca:


Estimator de varianță imparțial σ 2 abateri de valoare y eu din dreapta ajustată de regresie este dată de

Să calculăm parametrii ecuației de regresie


Astfel, linia de regresie arată astfel:


Și estimarea varianței abaterilor de valori y eu din dreapta de regresie potrivită


44. Verificarea semnificației dreptei de regresie

Estimare gasita b≠ 0 poate fi o realizare a unei variabile aleatoare a cărei așteptare matematică este egală cu zero, adică se poate dovedi că de fapt nu există nicio dependență de regresie.

Pentru a face față acestei situații, ar trebui să testați ipoteza H 0: b= 0 cu ipoteza concurentă H 1: b ≠ 0.

Testarea semnificației unei linii de regresie se poate face folosind analiza varianței.

Luați în considerare următoarea identitate:

Magnitudinea y euŷ i = ε i se numește rest și este diferența dintre două mărimi:

ü abaterea valorii (răspunsului) observată de la răspunsul mediu global;

ü abaterea valorii răspunsului prezis ŷ i din aceeași medie

Identitatea scrisă poate fi scrisă sub formă


Prin pătrarea ambelor părți și însumând peste i, primim:


Unde sunt denumite cantitățile:

suma completă (totală) a pătratelor SC n, care este egală cu suma abaterilor pătrate ale observațiilor în raport cu valoarea medie a observațiilor

suma pătratelor determinată de regresia SC p, care este egală cu suma abaterilor pătrate a valorilor dreptei de regresie relativ la media observațiilor.

suma reziduală a pătratelor SC 0 . care este egală cu suma abaterilor pătrate ale observațiilor în raport cu valorile liniei de regresie

Astfel, răspândirea Y-kov în raport cu media lor poate fi atribuită într-o oarecare măsură faptului că nu toate observațiile se află pe linia de regresie. Dacă acesta ar fi cazul, atunci suma pătratelor în raport cu regresia ar fi zero. Rezultă că regresia va fi semnificativă dacă suma pătratelor lui SC p este mai mare decât suma pătratelor lui SC 0.

Calculele pentru a testa semnificația regresiei sunt efectuate în următorul tabel ANOVA

Dacă erori ε i sunt distribuite conform legii normale, atunci dacă ipoteza H 0 este adevărată: b= 0 statistici:


distribuite conform legii lui Fisher cu numărul de grade de libertate 1 şi n−2.

Ipoteza nulă va fi respinsă la nivelul de semnificație α dacă valoarea calculată a statisticii F va fi mai mare decât punctul procentual α f 1;n−2;α Distribuții Fisher.

45. Verificarea adecvării modelului de regresie. Metoda reziduală

Adecvarea modelului de regresie construit înseamnă că niciun alt model nu oferă o îmbunătățire semnificativă în prezicerea răspunsului.

Dacă toate valorile răspunsului sunt obținute la valori diferite X, adică nu există mai multe valori de răspuns obținute în același timp x i, atunci poate fi efectuată doar testarea limitată a adecvării modelului liniar. Baza pentru o astfel de verificare este soldurile:

Abateri de la modelul stabilit:

Deoarece X– variabilă unidimensională, puncte ( x i, d i) poate fi reprezentat pe un plan sub forma unui așa-numit grafic rezidual. Această reprezentare face uneori posibilă detectarea unui tip de model în comportamentul reziduurilor. În plus, analiza reziduală permite analiza ipotezei privind legea distribuției erorilor.

În cazul în care erorile sunt distribuite conform legii normale și există o estimare a priori a varianței lor σ 2 (o evaluare obținută pe baza măsurătorilor efectuate anterior), atunci este posibilă o evaluare mai precisă a adecvării modelului.

Prin utilizarea F-Testul lui Fisher poate fi folosit pentru a verifica dacă varianța reziduală este semnificativă s 0 2 diferă de estimarea a priori. Dacă este semnificativ mai mare, atunci există inadecvare și modelul ar trebui revizuit.

Dacă estimarea a priori σ 2 nu, dar măsurători de răspuns Y repetate de două sau mai multe ori cu aceleași valori X, atunci aceste observații repetate pot fi folosite pentru a obține o altă estimare σ 2 (prima este varianța reziduală). Se spune că o astfel de estimare reprezintă o eroare „pură”, deoarece dacă X identice pentru două sau mai multe observații, atunci numai modificări aleatorii pot afecta rezultatele și pot crea dispersie între ele.

Estimarea rezultată se dovedește a fi o estimare mai fiabilă a varianței decât estimările obținute prin alte metode. Din acest motiv, atunci când planificați experimente, este logic să efectuați experimente cu repetări.

Să presupunem că există m sensuri diferite X : X 1 , X 2 , ..., x m. Să fie pentru fiecare dintre aceste valori x i disponibil n i observații de răspuns Y. Observațiile totale sunt:

Atunci modelul de regresie liniară simplă poate fi scris astfel:


Să găsim varianța erorilor „pure”. Această varianță este estimarea varianței cumulate σ 2 dacă ne imaginăm valorile răspunsului y ij la X = x i ca volum de probă n i. Ca urmare, varianța erorilor „pure” este egală cu:

Această variație servește ca estimare σ 2 indiferent dacă modelul montat este corect.

Să arătăm că suma pătratelor „erorilor pure” face parte din suma reziduală a pătratelor (suma pătratelor inclusă în expresia pentru varianța reziduală). A ramas pentru j a-a observație la x i poate fi scris ca:

Dacă pătram ambele părți ale acestei ecuații și apoi le însumăm jși prin i, atunci obținem:

În stânga în această egalitate este suma reziduală a pătratelor. Primul termen din partea dreaptă este suma pătratelor erorilor „pure”, al doilea termen poate fi numit suma pătratelor de inadecvare. Ultima sumă are m−2 grade de libertate, de unde variația inadecvării

Statistica de testare pentru testarea ipotezei H 0: modelul liniar simplu este adecvat, față de ipoteza H 1: modelul liniar simplu este inadecvat, este o variabilă aleatoare

Dacă ipoteza nulă este adevărată, valoarea F are o distribuție Fisher cu grade de libertate m−2 și nm. Ipoteza de liniaritate a dreptei de regresie ar trebui respinsă la nivelul de semnificație α dacă valoarea statistică rezultată este mai mare decât punctul procentual α al distribuției Fisher cu grade de libertate m−2 și nm.

46. Verificarea adecvării modelului de regresie (vezi 45). Analiza variatiei

47. Verificarea adecvării modelului de regresie (vezi 45). Coeficient de determinare

Uneori se folosește un coeficient de determinare a eșantionului pentru a caracteriza calitatea unei linii de regresie R 2, care arată ce parte (cota) alcătuiește suma pătratelor datorată regresiei, SC p, în suma totală a pătratelor SC p:

Aproape R 2 de unitate, cu cât regresia aproximează mai bine datele experimentale, cu atât observațiile sunt mai aproape de linia de regresie. Dacă R 2 = 0, atunci modificările răspunsului se datorează în întregime influenței factorilor necontabilizați, iar linia de regresie este paralelă cu axa X-s. În cazul regresiei liniare simple, coeficientul de determinare R 2 este egal cu pătratul coeficientului de corelație r 2 .

Valoarea maximă a lui R 2 =1 poate fi atinsă numai în cazul în care observațiile au fost efectuate la diferite valori ale x-s. Dacă datele conțin experimente repetate, atunci valoarea lui R 2 nu poate ajunge la unitate, indiferent cât de bun este modelul.

48. Intervale de încredere pentru parametrii simpli de regresie liniară

Așa cum media eșantionului este o estimare a mediei adevărate (media populației), la fel sunt și parametrii eșantionului ai unei ecuații de regresie AȘi b- nimic mai mult decât estimări ale coeficienților adevărați de regresie. Eșantioane diferite vor produce estimări diferite ale mediei, la fel cum eșantioane diferite vor produce estimări diferite ale coeficienților de regresie.

Presupunând că legea distribuirii erorilor ε i sunt descrise printr-o lege normală, estimarea parametrilor b va avea o distribuție normală cu parametrii:


Din moment ce estimarea parametrului A este o combinație liniară de mărimi independente distribuite normal, va avea, de asemenea, o distribuție normală cu așteptări matematice și varianță:


În acest caz, intervalul de încredere (1 − α) pentru estimarea dispersiei σ 2 ținând cont de faptul că raportul ( n−2)s 0 2 /σ 2 repartizate conform legii χ 2 cu grade de libertate n−2 va fi determinat de expresia


49. Intervale de încredere pentru linia de regresie. Interval de încredere pentru valorile variabilelor dependente

De obicei, nu cunoaștem adevăratele valori ale coeficienților de regresie AȘi b. Știm doar estimările lor. Cu alte cuvinte, adevărata linie de regresie poate fi mai mare sau mai mică, mai abruptă sau mai plată decât cea construită din datele eșantionului. Am calculat intervalele de încredere pentru coeficienții de regresie. De asemenea, puteți calcula regiunea de încredere pentru linia de regresie în sine.

Fie că pentru o regresie liniară simplă trebuie să construim (1− α ) interval de încredere pentru așteptarea matematică a răspunsului Y la valoare X = X 0 . Această așteptare matematică este egală cu A+bx 0 și scorul său

Pentru că atunci.

Estimarea rezultată a așteptărilor matematice este o combinație liniară de valori distribuite normal necorelate și, prin urmare, are și o distribuție normală centrată în punctul valorii adevărate a așteptării și a varianței matematice condiționate.

Prin urmare, intervalul de încredere pentru linia de regresie la fiecare valoare X 0 poate fi reprezentat ca


După cum puteți vedea, intervalul minim de încredere se obține atunci când X 0 egal cu valoarea medie și crește pe măsură ce X 0 „se îndepărtează” de medie în orice direcție.

Pentru a obține un set de intervale de încredere comune potrivite pentru întreaga funcție de regresie, pe toată lungimea sa, în expresia de mai sus, în schimb tn −2,α /2 trebuie înlocuit

Coeficientul de corelare a rangului caracterizează natura generală a relaţiei neliniare: o creştere sau scădere a atributului rezultat cu o creştere a celui factorial. Acesta este un indicator al etanșeității unei conexiuni neliniare monotone.

Scopul serviciului. Folosind acest calculator online puteți calcula Coeficientul de corelare a rangului Kendal conform tuturor formulelor de bază, precum și o evaluare a semnificației sale.

Instrucțiuni. Specificați cantitatea de date (numărul de rânduri). Soluția rezultată este salvată într-un fișier Word.

Coeficientul propus de Kendal se bazează pe relații de tip „mai-mai puțin”, a căror validitate a fost stabilită la construirea scalelor.
Să selectăm câteva obiecte și să le comparăm rangurile în funcție de o caracteristică și alta. Dacă rangurile pentru o anumită caracteristică formează o ordine directă (adică ordinea seriei naturale), atunci perechii i se atribuie +1, dacă este invers, atunci –1. Pentru perechea selectată, unitățile corespunzătoare plus și minus (după atributul X și prin atributul Y) sunt înmulțite. Rezultatul este evident +1; dacă rândurile unei perechi de ambele caracteristici sunt situate în aceeași secvență și –1 dacă în ordine opusă.
Dacă ordinele de rang pentru ambele caracteristici sunt aceleași pentru toate perechile, atunci suma unităților alocate tuturor perechilor de obiecte este maximă și egală cu numărul de perechi. Dacă ordinele de rang ale tuturor perechilor sunt inversate, atunci –C 2 N . În cazul general, C 2 N = P + Q, unde P este numărul de unități pozitive și Q numărul de unități negative atribuite perechilor atunci când se compară rangurile acestora pe ambele criterii.
Valoarea se numește coeficient Kendall.
Din formula reiese clar că coeficientul τ reprezintă diferența dintre proporția perechilor de obiecte a căror ordine este aceeași din ambele motive (față de numărul tuturor perechilor) și proporția perechilor de obiecte a căror ordine nu coincide.
De exemplu, o valoare a coeficientului de 0,60 înseamnă că 80% dintre perechi au aceeași ordine de obiecte, iar 20% nu (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Acestea. τ poate fi interpretat ca diferența dintre probabilitățile de potrivire și ordine de nepotrivire pentru ambele caracteristici pentru o pereche de obiecte selectată aleatoriu.
În cazul general, calculul lui τ (mai precis P sau Q) chiar și pentru N de ordinul 10 se dovedește a fi greoi.
Vă vom arăta cum să simplificați calculele.


Exemplu. Relația dintre volumul producției industriale și investițiile în capital fix pentru 10 regiuni ale unuia dintre districtele federale ale Federației Ruse în 2003 este caracterizată de următoarele date:


Calculați coeficienții de corelare a rangului Spearman și Kendal. Verificați semnificația lor la α=0,05. Formulați o concluzie despre relația dintre volumul producției industriale și investițiile în capital fix pentru regiunile Federației Ruse luate în considerare.

Soluţie. Să atribuim ranguri caracteristicii Y și factorului X.


Să sortăm datele după X.
În rândul Y din dreapta lui 3 există 7 ranguri mai mari decât 3, prin urmare, 3 va genera termenul 7 în P.
În dreapta lui 1 sunt 8 ranguri mai mari decât 1 (acestea sunt 2, 4, 6, 9, 5, 10, 7, 8), adică. P va include 8 etc. Ca rezultat, P = 37 și folosind formulele avem:

XYrangul X, d xrangul Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Folosind formule simplificate:




unde n este dimensiunea eșantionului; z kp este punctul critic al regiunii critice cu două fețe, care se găsește din tabelul funcției Laplace prin egalitatea Ф(z kp)=(1-α)/2.
Dacă |τ|< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - ipoteza nulă este respinsă. Există o corelație semnificativă de rang între caracteristicile calitative.
Să găsim punctul critic z kp
Ф(z kp) = (1-α)/2 = (1 - 0,05)/2 = 0,475

Să găsim punctul critic:

Deoarece τ > T kp - respingem ipoteza nulă; corelația de rang între scorurile la cele două teste este semnificativă.

Exemplu. Pe baza datelor privind volumul lucrărilor de construcție și instalare efectuate pe cont propriu și numărul de angajați din 10 companii de construcții dintr-unul dintre orașele Federației Ruse, se determină relația dintre aceste caracteristici folosind coeficientul Kendel.

Soluţie găsi folosind un calculator.
Să atribuim ranguri caracteristicii Y și factorului X.
Să aranjam obiectele astfel încât rândurile lor în X să reprezinte seria naturală. Deoarece estimările atribuite fiecărei perechi din această serie sunt pozitive, valorile „+1” incluse în P vor fi generate numai de acele perechi ale căror ranguri în Y formează o ordine directă.
Ele pot fi calculate cu ușurință prin compararea secvenţială a rangurilor fiecărui obiect din rândul Y cu cele din oțel.
coeficientul Kendal.

În cazul general, calculul lui τ (mai precis P sau Q) chiar și pentru N de ordinul 10 se dovedește a fi greoi. Vă vom arăta cum să simplificați calculele.

sau

Soluţie.
Să sortăm datele după X.
În rândul Y din dreapta lui 2 există 8 ranguri mai mari decât 2, prin urmare, 2 va genera termenul 8 în P.
În dreapta lui 4 sunt 6 ranguri mai mari decât 4 (acestea sunt 7, 5, 6, 8, 9, 10), adică. P va include 6 etc. Ca rezultat, P = 29 și folosind formulele avem:

XYrangul X, d xrangul Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Folosind formule simplificate:


Pentru a testa ipoteza nulă la nivelul de semnificație α că coeficientul general de corelație a rangului Kendall este egal cu zero în ipoteza concurentă H 1: τ ≠ 0, este necesar să se calculeze punctul critic:

unde n este dimensiunea eșantionului; z kp este punctul critic al regiunii critice cu două fețe, care se găsește din tabelul funcției Laplace prin egalitatea Ф(z kp)=(1 - α)/2.
Dacă |τ| T kp - ipoteza nulă este respinsă. Există o corelație semnificativă de rang între caracteristicile calitative.
Să găsim punctul critic z kp
Ф(z kp) = (1 - α)/2 = (1 - 0,05)/2 = 0,475
Folosind tabelul Laplace găsim z kp = 1,96
Să găsim punctul critic:

Din moment ce τ

Un factor care limitează utilizarea testelor bazate pe ipoteza normalității este dimensiunea eșantionului. Atâta timp cât eșantionul este suficient de mare (de exemplu, 100 sau mai multe observații), puteți presupune că distribuția de eșantionare este normală, chiar dacă nu sunteți sigur că distribuția variabilei în populație este normală. Cu toate acestea, dacă eșantionul este mic, aceste teste ar trebui utilizate numai dacă sunteți sigur că variabila are de fapt o distribuție normală. Cu toate acestea, nu există nicio modalitate de a testa această ipoteză într-un eșantion mic.

Utilizarea criteriilor bazate pe ipoteza normalității este limitată și de scara de măsurare (vezi capitolul Concepte elementare ale analizei datelor). Metodele statistice precum testul t, regresia etc. presupun că datele originale sunt continue. Cu toate acestea, există situații în care datele sunt pur și simplu clasate (măsurate pe o scară ordinală) mai degrabă decât măsurate cu acuratețe.

Un exemplu tipic este dat de evaluările site-urilor de pe Internet: prima poziție este ocupată de site-ul cu numărul maxim de vizitatori, a doua poziție este ocupată de site-ul cu numărul maxim de vizitatori dintre site-urile rămase (dintre site-uri de pe care a fost șters primul site), etc. Cunoscând ratingurile, putem spune că numărul de vizitatori pe un site este mai mare decât numărul de vizitatori pe altul, dar cât de mult nu se poate spune. Imaginați-vă că aveți 5 site-uri: A, B, C, D, E, care sunt clasate pe primele 5 locuri. Să presupunem că în luna curentă am avut următorul aranjament: A, B, C, D, E, iar în luna precedentă: D, E, A, B, C. Întrebarea este dacă au avut loc schimbări semnificative în clasament de site-uri sau nu? În această situație, evident, nu putem folosi testul t pentru a compara aceste două grupuri de date și trecem în domeniul calculelor probabilistice specifice (și orice test statistic conține calcule probabilistice!). Raționăm aproximativ după cum urmează: cât de probabil este ca diferența dintre cele două aranjamente ale site-ului să se datoreze unor motive pur aleatorii sau dacă această diferență este prea mare și nu poate fi explicată prin pură întâmplare. În aceste discuții, folosim doar ranguri sau permutări ale site-urilor și nu folosim în niciun fel un anumit tip de distribuție a numărului de vizitatori ai acestora.

Metodele neparametrice sunt utilizate pentru a analiza eșantioane mici și pentru date măsurate pe scale slabe.

O scurtă prezentare a procedurilor neparametrice

În esență, pentru fiecare criteriu parametric există cel puțin o alternativă neparametrică.

În general, aceste proceduri se încadrează în una dintre următoarele categorii:

  • teste de diferență pentru probe independente;
  • teste de diferență pentru eșantioane dependente;
  • evaluarea gradului de dependenţă între variabile.

În general, abordarea criteriilor statistice în analiza datelor ar trebui să fie pragmatică și să nu fie împovărată cu raționamente teoretice inutile. Cu un computer care rulează STATISTICA, puteți aplica cu ușurință mai multe criterii datelor dvs. Cunoscând unele dintre capcanele metodelor, veți alege soluția potrivită prin experimentare. Dezvoltarea intrării este destul de naturală: dacă doriți să comparați valorile a două variabile, atunci utilizați un test t. Cu toate acestea, trebuie amintit că se bazează pe ipoteza normalității și egalității varianțelor în fiecare grup. Eliminarea acestor ipoteze duce la teste neparametrice, care sunt utile în special pentru eșantioanele mici.

Dezvoltarea testului t conduce la analiza varianței, care este utilizată atunci când numărul de grupuri comparate este mai mare de două. Dezvoltarea corespunzătoare a procedurilor neparametrice duce la analiza neparametrică a varianței, deși este semnificativ mai slabă decât analiza clasică a varianței.

Pentru a evalua dependența, sau, ca să spunem oarecum pompos, gradul de apropiere a conexiunii, se calculează coeficientul de corelație Pearson. Strict vorbind, utilizarea sa are limitări asociate, de exemplu, cu tipul de scară în care se măsoară datele și cu neliniaritatea relației, deci neparametrice, sau așa-numitul rang, coeficienți de corelație, utilizați, de exemplu , pentru datele clasate, sunt de asemenea folosite ca alternativă. Dacă datele sunt măsurate la o scară nominală, atunci este firesc să le prezentăm în tabele de contingență, care utilizează testul chi-pătrat Pearson cu diverse variații și ajustări pentru precizie.

Deci, în esență, există doar câteva tipuri de criterii și proceduri pe care trebuie să le cunoașteți și să le puteți utiliza, în funcție de specificul datelor. Trebuie să determinați ce criteriu ar trebui aplicat într-o anumită situație.

Metodele neparametrice sunt cele mai potrivite atunci când dimensiunile eșantionului sunt mici. Dacă există o mulțime de date (de exemplu, n >100), adesea nu are sens să folosiți statistici neparametrice.

Dacă dimensiunea eșantionului este foarte mică (de exemplu, n = 10 sau mai puțin), atunci nivelurile de semnificație pentru acele teste neparametrice care utilizează aproximarea normală pot fi considerate doar estimări brute.

Diferențele dintre grupurile independente. Dacă aveți două mostre (de exemplu, bărbați și femei) pe care doriți să le comparați în ceea ce privește o anumită valoare medie, cum ar fi tensiunea arterială medie sau numărul de globule albe, atunci puteți utiliza testul t pentru mostre independente.

Alternativele neparametrice la acest test sunt testul Wald-Wolfowitz, Mann-Whitney)/n, unde x i este valoarea i-a, n este numărul de observații. Dacă o variabilă conține valori negative sau zero (0), media geometrică nu poate fi calculată.

Mijloc armonic

Media armonică este uneori folosită pentru a medie frecvențele. Media armonică se calculează prin formula: GS = n/S(1/x i) unde GS este media armonică, n este numărul de observații, x i este valoarea numărului de observație i. Dacă o variabilă conține zero (0), media armonică nu poate fi calculată.

Varianta si abaterea standard

Varianța eșantionului și abaterea standard sunt cele mai utilizate măsuri de variabilitate (variație) în date. Dispersia se calculează ca suma abaterilor pătrate ale valorilor variabilelor de la media eșantionului, împărțită la n-1 (dar nu la n). Abaterea standard este calculată ca rădăcină pătrată a estimării varianței.

Domeniul de aplicare

Intervalul unei variabile este un indicator al variabilității, calculat ca maxim minus minim.

Gama de quartile

Intervalul trimestrial, prin definiție, este quartila superioară minus quartila inferioară (75% percentila minus 25% percentila). Deoarece percentila de 75% (cuartila superioară) este valoarea din stânga căreia se află 75% din observații, iar percentila de 25% (quartilă inferioară) este valoarea din stânga căreia se află 25% din observații, quartila intervalul este intervalul din jurul mediei.care conține 50% din observații (valori variabile).

Asimetrie

Deformarea este o caracteristică a formei unei distribuții. Distribuția este oblică spre stânga dacă valoarea asimetriei este negativă. Distribuția este înclinată spre dreapta dacă asimetria este pozitivă. Asimetria distribuției normale standard este 0. Asimetria este asociată cu al treilea moment și este definită ca: asimetrie = n × M 3 /[(n-1) × (n-2) × s 3 ], unde M 3 este egal cu: (x i -xaverage x) 3, s 3 - abaterea standard ridicată la a treia putere, n - numărul de observații.

Exces

Kurtoza este o caracteristică a formei unei distribuții, și anume o măsură a clarității vârfului său (față de o distribuție normală, a cărei curtoză este 0). De obicei, distribuțiile cu un vârf mai ascuțit decât cel normal au curtoză pozitivă; distribuțiile al căror vârf este mai puțin ascuțit decât vârful unei distribuții normale au curtoză negativă. Kurtoza este asociată cu al patrulea moment și este determinată de formula:

curtoză = /[(n-1) × (n-2) × (n-3) × s 4 ], unde M j este egal cu: (x-media x, s 4 - abaterea standard la a patra putere, n - numărul de observaţii .

Este folosit pentru a identifica relația dintre indicatorii cantitativi sau calitativi, dacă aceștia pot fi clasați. Valorile indicatorului X sunt afișate în ordine crescătoare și rangurile atribuite. Valorile indicatorului Y sunt clasate și se calculează coeficientul de corelație Kendall:

Unde S = PQ.

P mare valoarea rangurilor Y.

Q- numărul total de observații în urma observațiilor curente cu mai mic valoarea rangurilor Y. (Rangurile egale nu sunt luate în considerare!)

Dacă datele studiate sunt repetate (au aceleași ranguri), atunci în calcule se utilizează coeficientul de corelație Kendall ajustat:

t- numărul de ranguri înrudite din seria X, respectiv Y.

19.De la ce ar trebui să pornim atunci când stabilim tema, obiectul, subiectul, scopul, obiectivele și ipoteza studiului?

Programul de cercetare, de regulă, are două secțiuni: metodologică și procedurală. Prima include justificarea relevanței temei, formularea problemei, definirea obiectului și subiectului, scopurile și obiectivele studiului, formularea conceptelor de bază (aparatul categorial), analiza sistemică preliminară a obiectului de studiu și formularea a unei ipoteze de lucru. A doua secțiune dezvăluie designul strategic al studiului, precum și designul și procedurile de bază pentru colectarea și analiza datelor primare.

În primul rând, atunci când alegeți o temă de cercetare, trebuie să pornim de la relevanță. Justificarea relevanței include o indicație a necesității și oportunității studierii și soluționării problemei pentru dezvoltarea ulterioară a teoriei și practicii predării și educației. Cercetările actuale oferă răspunsuri la cele mai presante întrebări în acest moment, reflectă ordinea socială a societății pentru știința pedagogică și dezvăluie cele mai importante contradicții care apar în practică. Criteriul de relevanță este dinamic, flexibil, depinde de timp, ținând cont de circumstanțe specifice și specifice. În forma sa cea mai generală, relevanța caracterizează gradul de discrepanță între cererea de idei științifice și recomandări practice (pentru a satisface o anumită nevoie) și propunerile pe care știința și practica le pot oferi în prezent.

Cea mai convingătoare bază care definește tema cercetării este ordinea socială, reflectând problemele cele mai presante, semnificative din punct de vedere social, care necesită soluții urgente. Ordinea socială necesită justificare pentru un anumit subiect. De obicei, aceasta este o analiză a gradului în care o întrebare a fost dezvoltată în știință.

Dacă ordinea socială decurge din analiza practicii pedagogice, atunci cel problema stiintifica este într-un alt plan. Ea exprimă principala contradicție care trebuie rezolvată prin intermediul științei. Soluția problemei este de obicei scopul studiului. Scopul este o problemă reformulată.

Formularea problemei presupune selecția obiectelor cercetare. Poate fi un proces pedagogic, o zonă a realității pedagogice sau o relație pedagogică care conține o contradicție. Cu alte cuvinte, obiectul poate fi orice care conține în mod explicit sau implicit o contradicție și dă naștere unei situații problematice. Un obiect este ceea ce vizează procesul de cunoaștere. Subiect de studiu - parte, parte a unui obiect. Acestea sunt cele mai semnificative proprietăți, aspecte și trăsături ale unui obiect din punct de vedere practic sau teoretic care sunt supuse unui studiu direct.

În conformitate cu scopul, obiectul și subiectul studiului, cercetarea este determinată sarcini, care au drept scop de obicei verificarea ipoteze. Acesta din urmă este un set de ipoteze bazate teoretic, al căror adevăr este supus verificării.

Criteriu noutate științifică aplicabile pentru a evalua calitatea studiilor finalizate. Caracterizează noi concluzii teoretice și practice, modele de educație, structura și mecanismele sale, conținutul, principiile și tehnologiile, care la acest moment nu erau cunoscute și neînregistrate în literatura pedagogică. Noutatea cercetării poate avea semnificație atât teoretică, cât și practică. Semnificația teoretică a cercetării constă în crearea unui concept, obținerea unei ipoteze, model, metodă, model de identificare a unei probleme, tendință, direcție. Semnificația practică a cercetării constă în pregătirea propunerilor, recomandărilor etc. Criteriile de noutate, semnificația teoretică și practică variază în funcție de tipul cercetării; ele depind și de momentul obținerii de noi cunoștințe.