Correlazione: significato, tipi e relativo calcolo

Dopo aver letto questo articolo imparerai a conoscere: - 1. Definizioni di correlazione 2. Significato della correlazione 3. Bisogno 4. Tipi 5. Metodi di calcolo.

Definizioni di correlazione:

Se il cambiamento di una variabile sembra essere accompagnato da un cambiamento nell'altra variabile, si dice che le due variabili sono correlate e questa interdipendenza è chiamata correlazione o covariazione.

In breve, la tendenza della variazione simultanea tra due variabili è chiamata correlazione o covariazione. Ad esempio, potrebbe esistere una relazione tra altezze e pesi di un gruppo di studenti, si prevede che i punteggi degli studenti in due diversi soggetti abbiano un'interdipendenza o una relazione tra loro.

Per misurare il grado di relazione o covariazione tra due variabili è l'oggetto dell'analisi di correlazione. Quindi, correlazione significa la relazione o "aggregazione" o corrispondenza tra due variabili.

In statistica, la correlazione è un metodo per determinare la corrispondenza o proporzionalità tra due serie di misure (o punteggi). Per dirla semplicemente, la correlazione indica la relazione di una variabile con l'altra.

Significato della correlazione:

Per misurare quantitativamente il grado di associazione o relazione tra due variabili, viene utilizzato un indice di relazione che viene definito co-efficiente di correlazione.

Il coefficiente di correlazione è un indice numerico che ci dice in che misura le due variabili sono correlate e in quale misura le variazioni di una variabile cambiano con le variazioni nell'altra. Il coefficiente di correlazione è sempre simboleggiato da r o ρ (Rho).

La nozione "r" è nota come coefficiente di correlazione del momento del prodotto o Coefficiente di correlazione di Karl Pearson. Il simbolo 'ρ' (Rho) è noto come coefficiente di correlazione di Rank Difference o Coefficiente di correlazione di Rank di Spearman.

La dimensione di " r " indica la quantità (o il grado o l'estensione) della correlazione tra due variabili. Se la correlazione è positiva il valore di ' r ' è + ve e se la correlazione è negativa il valore di V è negativo. Quindi, i segni del coefficiente indicano il tipo di relazione. Il valore di V varia da +1 a -1.

La correlazione può variare tra perfetta correlazione positiva e perfetta correlazione negativa. La parte superiore della scala indicherà una perfetta correlazione positiva e inizierà da +1 e poi passerà per lo zero, indicando l'assenza totale di correlazione.

Il fondo della scala terminerà a -1 e indicherà una correlazione negativa perfetta. Quindi la misurazione numerica della correlazione è fornita dalla scala che va da +1 a -1.

[NB: il coefficiente di correlazione è un numero e non una percentuale. In genere è arrotondato fino a due cifre decimali].

Necessità di correlazione:

La correlazione dà significato a un costrutto. L'analisi della correlazione è essenziale per la ricerca psico-educativa di base. Infatti la maggior parte della ricerca psicologica di base e applicata è di natura correlazionale.

L'analisi di correlazione è necessaria per:

(i) Individuazione delle caratteristiche dei test psicologici ed educativi (affidabilità, validità, analisi degli item, ecc.).

(ii) Verificare se determinati dati sono coerenti con l'ipotesi.

(iii) Prevedere una variabile sulla base della conoscenza dell'altro (s).

(iv) Costruire modelli e teorie psicologiche ed educative.

(v) Raggruppamento di variabili / misure per un'interpretazione parsimoniosa dei dati.

(vi) Esecuzione di test statistici multivariati (T 2 di Hoteling, MANOVA, MANCOVA, Analisi discriminante, Analisi fattoriale).

(vii) Isolare l'influenza delle variabili.

Tipi di correlazione:

In una distribuzione bivariata, la correlazione può essere:

1. Correlazione positiva, negativa e zero; e

2. Lineare o Curvilineo (non lineare).

1. Correlazione positiva, negativa o zero:

Quando l'aumento di una variabile (X) è seguito da un corrispondente aumento nell'altra variabile (Y); la correlazione si dice che sia correlazione positiva. Le correlazioni positive vanno da 0 a +1; il limite superiore cioè +1 è il coefficiente positivo perfetto di correlazione.

La perfetta correlazione positiva specifica che, per ogni aumento di unità in una variabile, c'è un aumento proporzionale nell'altra. Ad esempio "Calore" e "Temperatura" hanno una perfetta correlazione positiva.

Se, d'altra parte, l'aumento di una variabile (X) si traduce in una corrispondente diminuzione nell'altra variabile (Y), si dice che la correlazione è una correlazione negativa.

La correlazione negativa varia da 0 a -1; il limite inferiore dà la perfetta correlazione negativa. La correlazione negativa perfetta indica che per ogni aumento di unità in una variabile, c'è una diminuzione proporzionale delle unità nell'altra.

Zero correlazione significa nessuna relazione tra le due variabili X e Y; cioè il cambiamento in una variabile (X) non è associato alla variazione nell'altra variabile (Y). Ad esempio, peso corporeo e intelligenza, taglia della scarpa e stipendio mensile; ecc. La correlazione zero è il punto medio dell'intervallo - da 1 a + 1.

2. Correlazione lineare o curvilinea:

La correlazione lineare è il rapporto tra la variazione delle due variabili nella stessa direzione o nella direzione opposta e la rappresentazione grafica della variabile una rispetto all'altra variabile è la linea retta.

Considera un'altra situazione Innanzitutto, con l'aumento di una variabile, la seconda variabile aumenta proporzionalmente fino ad un certo punto; successivamente con un aumento della prima variabile, la seconda variabile inizia a diminuire.

La rappresentazione grafica delle due variabili sarà una linea curva. Tale relazione tra le due variabili è definita come la correlazione curvilinea.

Metodi di calcolo Co-efficienza della correlazione:

Nella facilità dei dati non raggruppati della distribuzione bivariata, i seguenti tre metodi vengono utilizzati per calcolare il valore del coefficiente di correlazione:

1. Metodo dello schema di dispersione.

2. Momento del prodotto di Pearson Coefficiente di correlazione.

3. Ordine dei ranghi di Spearman Coefficiente della correlazione.

1. Metodo Diagramma a dispersione:

Diagramma a dispersione o diagramma a punti è un dispositivo grafico per trarre alcune conclusioni sulla correlazione tra due variabili.

Nella preparazione di un diagramma a dispersione, le coppie di osservazioni osservate sono tracciate da punti su una carta millimetrata in uno spazio bidimensionale prendendo le misure sulla variabile X lungo l'asse orizzontale e quella sulla variabile Y lungo l'asse verticale.

Il posizionamento di questi punti sul grafico rivela il cambiamento nella variabile riguardo al fatto che cambino nella stessa direzione o nelle direzioni opposte. È un metodo di calcolo molto semplice, semplice ma approssimativo.

Le frequenze o i punti sono tracciati su un grafico prendendo le scale convenienti per le due serie. I punti tracciati tenderanno a concentrarsi in una banda di larghezza maggiore o minore in base al suo grado. 'La linea di miglior adattamento' è disegnata con una mano libera e la sua direzione indica la natura della correlazione. Diagrammi di dispersione, ad esempio, che mostrano vari gradi di correlazione sono mostrati in Fig. 5.1 e Fig. 5.2.

Se la linea va verso l'alto e questo movimento verso l'alto va da sinistra a destra, mostrerà una correlazione positiva. Allo stesso modo, se le linee si spostano verso il basso e la sua direzione va da sinistra a destra, mostrerà una correlazione negativa.

Il grado di pendenza indicherà il grado di correlazione. Se i punti tracciati sono sparsi ampiamente mostrerà assenza di correlazione. Questo metodo descrive semplicemente il "fatto" che la correlazione è positiva o negativa.

2. Momento del prodotto di Pearson Coefficiente di correlazione:

Il coefficiente di correlazione, r, è spesso chiamato "Pearson" dopo il professor Karl Pearson che ha sviluppato il metodo del momento del prodotto, seguendo il precedente lavoro di Gallone e Bravais.

Coefficiente di correlazione come rapporto:

Il coefficiente di correlazione del momento del prodotto può essere pensato essenzialmente come quel rapporto che esprime la misura in cui i cambiamenti in una variabile sono accompagnati da cambiamenti o in dipendenza da una seconda variabile.

A titolo illustrativo, prendi in considerazione il seguente semplice esempio che fornisce le altezze e i pesi accoppiati di cinque studenti universitari:

L'altezza media è di 69 pollici, il peso medio di 170 libbre, e la o è di 2, 24 pollici e o è di 13, 69 sterline, rispettivamente. Nella colonna (4) la deviazione (x) dell'altezza di ogni studente dall'altezza media, e nella colonna (5) viene data la deviazione, (y) del peso di ogni studente rispetto al peso medio. Il prodotto di queste deviazioni accoppiate (xy) nella colonna (6) è una misura dell'accordo tra altezze e pesi individuali. Maggiore è la somma della colonna xy, maggiore è il grado di corrispondenza. Nell'esempio sopra il valore di Σxy / N è 55/5 o 11. Dove accordo perfetto, cioè r = ± 1.00, il valore di Σ xy / N supera il limite massimo.

Pertanto, Σ xy / N non fornirebbe una misura adeguata della relazione tra x e y. La ragione è che una tale media non è una misura stabile, in quanto non è indipendente dalle unità in cui altezza e peso sono stati espressi.

Di conseguenza, questo rapporto varierà se vengono impiegati centimetri e chilogrammi invece di pollici e libbre. Un modo per evitare i problemi: qualche questione di differenze nelle unità è di esprimere ogni deviazione come un punteggio σ o punteggio standard o Z, cioè per dividere ogni xey per il proprio σ.

Ogni deviazione xey viene quindi espressa come rapporto ed è un numero puro, indipendente dalle unità di test. La somma dei prodotti della colonna dei punteggi σ (9) divisa per N produce un rapporto che è un'espressione stabile di relazione. Questo rapporto è il coefficiente di correlazione "momento-prodotto". Nel nostro esempio, il suo valore di .36 indica una correlazione positiva abbastanza alta tra altezza e peso in questo piccolo campione.

Lo studente dovrebbe notare che il nostro rapporto o coefficiente è semplicemente il prodotto medio dei punteggi σ delle corrispondenti misure X e Y, cioè

Natura di r xy :

(i) r xy è un momento del prodotto r

(ii) r xy è un rapporto, = r xy .

(iii) r xy può essere + ve o - ve limitato dai limiti - da 1, 00 a + 1, 00.

(iv) r xy può essere considerato come una media aritmetica (r xy è la media dei prodotti con punteggio standard).

(v) r xy non è influenzato da alcuna trasformazione lineare dei punteggi su X o Y o su entrambi.

(vi) Quando le variabili sono nella forma del punteggio standard, r fornisce una misura della quantità media di variazione in una variabile associata al cambiamento di una unità rispetto all'altra variabile.

(vii) r xy = √b yx b xy dove b yx = coefficiente di regressione di Y su X, b xy = coefficiente di regressione di X su Y. r xy = radice quadrata delle pendenze delle linee di regressione.

(Viii) r xy non è influenzato dalla grandezza dei mezzi (i punteggi sono sempre relativi).

(Ix) r xy non può essere calcolato se una delle variabili non ha varianza S 2 x o S 2 Y = 0

(x) r xy di 60 implica la stessa ampiezza della relazione di r xy = - .60. Il segno racconta la direzione della relazione e l'importanza della forza della relazione.

(xi) df per r xy è N - 2, che viene usato per testare il significato di r xy . Testare il significato di r sta testando la significatività della regressione. La linea di regressione implica pendenza e intercettazione, quindi 2 df sono persi. Quindi, quando N = 2, r xy è o + 1.00 o - 1.00 in quanto non vi è libertà per la variazione di campionamento nel valore numerico di r.

A. Calcolo di r xy (dati non raggruppati) :

Qui, l'uso della formula per il calcolo di r dipende da "dove vengono prese le deviazioni". In situazioni diverse, le deviazioni possono essere prese sia dalla media effettiva o da zero o dal tipo di formula AM convenientemente applicato per il calcolo della correlazione del coefficiente dipende dal valore medio (in frazione o intero).

(i) La formula di r quando le deviazioni sono prese dai mezzi delle due distribuzioni X e Y.

dove r xy = Correlazione tra X e Y

x = deviazione di qualsiasi punteggio X dalla media nel test X

y = deviazione del punteggio Y corrispondente dalla media nel test Y.

Σxy = Somma di tutti i prodotti delle deviazioni (X e Y)

σ x e σ y = Deviazioni standard della distribuzione dei punteggi X e Y.

in cui xey sono deviazioni dal mezzo effettivo e Σx 2 e Σy 2 sono le somme delle deviazioni al quadrato in xey prese dai due mezzi.

Questa formula è preferita:

io. Quando i valori medi di entrambe le variabili non sono in una frazione.

ii. Quando scoprire la correlazione tra serie brevi e non raggruppate (per esempio, venticinque casi o giù di lì).

iii. Quando deviazioni devono essere prese dai mezzi reali delle due distribuzioni.

I passaggi necessari sono illustrati nella Tabella 5.1. Sono elencati qui:

Passo 1:

Elenca in colonne parallele i punteggi X e Y accoppiati, assicurandosi che i punteggi corrispondenti siano insieme.

Passo 2:

Determinare i due mezzi M x e M y . Nella tabella 5.1, questi sono rispettivamente 7.5 e 8.0.

Passaggio 3:

Determina per ogni coppia di punteggi le due deviazioni xey. Controllali trovando le somme algebriche, che dovrebbero essere zero.

Passaggio 4:

Piazza tutte le deviazioni ed elenca in due colonne. Questo è allo scopo di calcolare σ x e σ y .

Passaggio 5:

Somma i quadrati delle deviazioni per ottenere Σx 2 e Σy 2 Trova il prodotto xy e sommi questi per Σxy.

Passaggio 6:

Da questi valori si calcolano σ x e σ y .

Una soluzione alternativa e più breve:

Esiste un percorso alternativo e più breve che omette il calcolo di σ x e σ y, qualora non fossero necessari per altri scopi.

Applicazione della formula (28):

(ii) Il calcolo di r xy dai punteggi originali o grezzi:

È un'altra procedura con dati non raggruppati, che non richiede l'uso di deviazioni. Si occupa interamente di punteggi originali. La formula potrebbe sembrare proibita ma è davvero facile da applicare.

Questa formula è preferita:

io. Quando calcolare da punteggi diretti grezzi.

ii. Punteggi originali ft quando i dati sono piccoli non raggruppati.

iii. Quando i valori medi sono in frazioni.

iv. Quando è disponibile una buona calcolatrice.

X e Y sono i punteggi originali nelle variabili X e Y. Altri simboli indicano cosa viene fatto con loro.

Seguiamo i passaggi illustrati nella Tabella 5.2:

Passo 1:

Piazza tutte le misure X e Y.

Passo 2:

Trova il prodotto XY per ogni coppia di punteggi.

Passaggio 3:

Somma le X, le Y, le X 2, le Y 2 e le XY.

Passaggio 4:

Applica formula (29):

(ii) Calcolo di r xy quando le deviazioni sono prese dalla Media Assunta:

La formula (28) è utile per calcolare r direttamente da due serie di punteggi non raggruppati, ma ha gli svantaggi in quanto richiede "metodo lungo" per calcolare medie e σ . Le deviazioni xey quando vengono prese dai mezzi effettivi sono in genere decimali e la moltiplicazione e la quadratura di questi valori è spesso un compito noioso.

Per questo motivo, anche quando si lavora con brevi serie non raggruppate, è spesso più facile assumere mezzi, calcolare le deviazioni da queste AM e applicare la formula (30).

Questa formula è preferita:

io. Quando i mezzi effettivi sono solitamente decimali e la moltiplicazione e la quadratura di questi valori è spesso un compito noioso.

ii. Quando le deviazioni sono prese dalle AM.

iii. Quando dobbiamo evitare le frazioni.

I passaggi nel calcolo di r possono essere delineati come segue:

Passo 1:

Trova la media del test 1 (X) e la media del test 2 (Y). I mezzi mostrati nella Tabella 5.3 M X = 62.5 e M Y = 30.4 rispettivamente.

Passo 2:

Scegli AM di X e Y, ovvero AM X come 60.0 e AM Y come 30.0.

Passaggio 3:

Trova la deviazione di ogni punteggio sul Test 1 dal suo AM, 60.0, e inseriscilo nella colonna x '. Poi trova la deviazione di ogni punteggio nel Test 2 dal suo AM, 30.0, e inseriscilo nella colonna y '.

Passaggio 4:

Piazza tutte le x 'e tutte loro' e inserisci questi quadrati nella colonna x ' 2 e y' 2, rispettivamente. Totalizza queste colonne per ottenere Σx ' 2 e Σy' 2 .

Passaggio 5:

Moltiplica x 'e y' e inserisci questi prodotti (con il dovuto rispetto per il segno) nella colonna x'y '. Total x'y 'column, tenendo conto dei segni, per ottenere Σx'y'.

Passaggio 6:

Le correzioni, C x e C y, si trovano sottraendo AM X da M x e AM y da M y . Quindi, C x trovato come 2.5 (62.5 - 60.0) e C y come .4 (30.4 - 30.0).

Step 7:

Sostituire per Σx'y ', 334, per Σx' 2, 670 e per Σy ' 2, 285 in formula (30), come mostrato in Tabella 5.3, e risolvere per r xy.

Proprietà di r :

1. Il valore del coefficiente di correlazione r rimane invariato quando una costante viene aggiunta a una o entrambe le variabili:

Per osservare l'effetto sulla correlazione dei coefficienti r quando una costante viene aggiunta a una o entrambe le variabili, consideriamo un esempio.

Ora, aggiungiamo un punteggio di 10 a ciascun punteggio in X e 20 a ciascun punteggio di Y e rappresentano questi punteggi rispettivamente di X 'e Y'.

I calcoli per calcolare r per coppie di osservazioni originali e nuove sono riportati nella Tabella 5.4:

Utilizzando la formula (29), il coefficiente di correlazione del punteggio originale sarà:

La stessa formula per i nuovi punteggi può essere scritta come:

Quindi, osserviamo che il valore del coefficiente di correlazione r rimane invariato quando una costante viene aggiunta a una o entrambe le variabili.

2. Il valore del coefficiente di correlazione r rimane invariato quando una costante viene sottratta da una o da entrambe le variabili:

Gli studenti possono esaminare questo facendo un esempio. Quando ogni punteggio di una o di entrambe le variabili viene sottratto da una costante, anche il valore del coefficiente di correlazione r rimane invariato.

3. Il valore del coefficiente di correlazione r rimane inalterato quando uno o entrambi i gruppi di valori delle variabili vengono moltiplicati per alcune costanti:

Per osservare l'effetto di moltiplicare le variabili di qualche costante sul valore di r, arbitrariamente moltiplichiamo i punteggi originali del primo e del secondo set nell'esempio precedente rispettivamente di 10 e 20.

La r tra X 'e Y' può quindi essere calcolata come sotto:

La correlazione del coefficiente tra X 'e Y' sarà:

Quindi, osserviamo che il valore del coefficiente di correlazione r rimane invariato quando una costante viene moltiplicata con uno o entrambi i gruppi di valori delle variabili.

4. Il valore di r rimarrà invariato anche quando uno o entrambi i gruppi di valori delle variabili sono divisi per alcune costanti:

Gli studenti possono esaminare questo facendo un esempio.

B. Coefficiente di correlazione nei dati raggruppati :

Quando il numero di coppie di misure (N) su due variabili X e Y è grande, anche di dimensioni moderate, e quando non è disponibile alcuna calcolatrice, la procedura consueta è quella di raggruppare i dati sia in X che in Y e formare un diagramma a dispersione o diagramma di correlazione che è anche chiamato distribuzione di frequenza bidirezionale o distribuzione di frequenza bivariata.

La scelta della dimensione dell'intervallo di classe e dei limiti di intervalli segue molto le stesse regole che erano state date in precedenza. Per chiarire l'idea, consideriamo i dati bivariati relativi ai punteggi ottenuti da una classe di 20 studenti in esame di Fisica e Matematica.

Preparazione di un diagramma di dispersione:

Nella configurazione di un doppio raggruppamento di dati, viene preparata una tabella con colonne e righe. Qui, classifichiamo ogni coppia di variate simultaneamente nelle due classi, una che rappresenta il punteggio in Fisica (X) e l'altra in Matematica (Y), come mostrato nella Tabella 5.6.

I punteggi di 20 studenti in Fisica (X) e Matematica (Y) sono mostrati nella Tabella seguente:

Possiamo facilmente preparare una tabella di distribuzione delle frequenze bivariata inserendo i conti per ogni coppia di punteggi. La costruzione di uno scattergram è abbastanza semplice. Dobbiamo preparare un tavolo come mostrato nello schema sopra.

Lungo il margine sinistro gli intervalli di classe della distribuzione X vengono distribuiti dal basso verso l'alto (in ordine ascendente). Lungo la parte superiore del diagramma, i c.i della distribuzione Y sono disposti da sinistra a destra (in ordine ascendente).

Ogni coppia di punteggi (sia in X che in Y) è rappresentata attraverso un conteggio nella rispettiva cella. No. 1 studente ha ottenuto 32 in Fisica (X) e 25 in Matematica (Y). Il suo punteggio di 32 in (X) lo colloca nell'ultima fila e 25 in (Y) lo colloca nella seconda colonna. Quindi, per la coppia di punteggi (32, 25) un punteggio sarà segnato nella seconda colonna della quinta riga.

In modo simile, nel caso dello studente n. 2, per i punteggi (34, 41), inseriremo un conteggio nella quarta colonna della quinta riga. Allo stesso modo, 20 segnalini saranno messi nelle rispettive righe e colonne. (Le righe rappresenteranno i punteggi X e le colonne rappresenteranno i punteggi Y).

Lungo il margine destro la colonna f x, il numero di casi in ogni ci, della distribuzione X sono tabulati e lungo il fondo del diagramma nella riga f y il numero di casi in ogni ci, della distribuzione Y è tabulati.

Il totale di f x column è 20 e il totale di f y row è anch'esso 20. Si tratta in realtà di una distribuzione a due variabili poiché rappresenta la distribuzione congiunta di due variabili. Lo scattergram è quindi una "tabella di correlazione".

Calcolo di r da una tabella di correlazione:

Lo schema seguente delle fasi da seguire per il calcolo di r sarà meglio compreso se lo studente farà costantemente riferimento alla Tabella 5.7 mentre legge ogni fase:

Passo 1:

Costruisci uno scattergram per le due variabili da correlare, e da esso elabora una tabella di correlazione.

Passo 2:

Contare le frequenze di ogni ci di distribuzione - X e scriverlo nella colonna f x . Contare le frequenze per ogni ci di distribuzione - Y e riempire la fila di y .

Passaggio 3:

Assumi una media per la distribuzione X e segna il ci in doppia fila. Nella tabella di correlazione data, assumiamo la media al ci, 40 - 49 e mettiamo le doppie linee come mostrato nella tabella. Le deviazioni sopra la linea di AM saranno (+ ve) e le deviazioni sotto di essa saranno (- ve).

La deviazione contro la linea di AM, cioè contro il ci dove abbiamo assunto la media è contrassegnata da 0 (zero) e sopra di essa le d sono indicate come +1, +2. 13 e sotto di esso si nota che è - 1. Ora la colonna dx è riempita. Quindi moltiplicare f x . e dx di ogni riga per ottenere fdx . Moltiplicare dx e fdx di ogni riga per ottenere fdx 2 .

[Nota: mentre calcolavamo la SD nel presunto metodo medio, stavamo assumendo una media, segnando i d e calcolando fd e fd 2 . Qui viene seguita anche la stessa procedura.]

Passaggio 4:

Adotta la stessa procedura del punto 3 e calcola dy, fdy e fdy 2 . Per la distribuzione-Y, assumiamo la media nel ci 20-29 e mettiamo doppie linee per delimitare la colonna come mostrato nella tabella. Le deviazioni a sinistra di questa colonna saranno negative e a destra saranno positive.

Quindi, d per la colonna in cui si assume che la media è contrassegnata da 0 (zero) e la d alla sua sinistra è contrassegnata - 1 e d alla sua destra sono contrassegnati +1, +2 e +3. Ora la colonna dy è piena. Moltiplicare i valori di fy e dy di ogni colonna per ottenere fdy . Moltiplicare i valori di dy e fdy in ogni colonna per ottenere fdy 2 .

Passaggio 5:

Poiché questa fase è importante, dobbiamo valutare attentamente il calcolo di dy per diversi ci di distribuzione X e dx per diversi ci di distribuzione -Y.

dy per diversi ci di distribuzione-X: Nella prima riga, 1 f è sotto la colonna, 20-29 di cui dy è 0 (Guarda in fondo. L'ingresso dy di questa riga è 0). Di nuovo 1 f è sotto la colonna, 40- 49 il cui dy è + 2. Quindi dy per la prima riga = (1 x 0) + (1 x 2) = + 2.

Nella seconda riga troviamo che:

1 f è sotto la colonna, 40-49 cui dy è + 2 e

2 f s sono sotto la colonna, 50-59 cui dy 's sono + 3 ciascuno.

Quindi dy per la seconda riga = (1 x 2) + (2 X 3) = 8.

Nella terza fila,

2 f s sono sotto la colonna, 20-29 i cui dy sono 0 ciascuno,

2 f s sono sotto la colonna, 40-49 cui dy 's sono +2 ciascuno, e 1 f è sotto la colonna, 50-59 cui dy è +3.

Quindi dy per la terza riga = (2 x 0) + (2 x 2) + (1 X 3) = 7.

Nella quarta fila,

3 f s sono sotto la colonna, 20-29 i cui dy sono 0 ciascuno,

2 f s sono sotto la colonna, 30-39 cui dy 's sono +1 ciascuno, e 1 f è sotto la colonna, 50-59 cui dy è + 3,

Quindi dy per la 4a riga = (3 X 0) + (2 X 1) + (1 x 3) = 5.

Allo stesso modo nella quinta riga

dy per la quinta riga = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx per diversi ci, 'v di distribuzione - Y:

Nella prima colonna,

2 f s sono contro la riga, 30-39 cui dx è - 1.

Quindi dx della prima colonna = (2 x - 1) = - 2

Nella seconda colonna,

1 f è contro il ci, 70-79 il cui dx è +3,

2 f s sono contro il ci, 50-59 cui dx 's sono +1 ciascuno,

3 s sono contro ci, 40-49 cui dx 's sono 0 ciascuno,

1 f è contro il ci, 30-39 cui dx è - 1.

Quindi dx per la seconda colonna = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. Nella terza colonna,

dx per la 3a colonna = 2 × 0 = 0

Nella quarta colonna,

dx per la 4a colonna = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

Nella quinta colonna,

dx per la 5a colonna = (2 x 2) + (1 x 1) + (1 X 0) = 5.

Passaggio 6:

Ora, calcola dx.dy ogni riga di distribuzione - X moltiplicando le voci dx di ogni riga per le entrate dy di ogni riga. Quindi calcolare dx.dy per ogni colonna di distribuzione - Y moltiplicando le entrate dy di ogni colonna per le voci dx di ogni colonna.

Step 7:

Ora, prendi la somma algebrica dei valori delle colonne fdx, fdx 2, dy e dx.dy (per la distribuzione - X). Prendi la somma algebrica dei valori delle righe fdy, fdy 2, dx e dx.dy (per distribuzione - Y)

Passaggio 8:

Σ. dx.dy di X-distribution = Σ dx.dy di Y-distribution

Σ fdx = totale della riga dx (cioè Σ dx )

Σ fdy = totale della colonna dy (cioè Σ dy )

Passaggio 9:

I valori dei simboli come trovati

Σ fdx = 13, Σ fd 2 x = 39

Σ fdy = 22, Σ fd 2 y = 60

Σ dx.dy = 29 e N = 20.

Per calcolare il coefficiente di correlazione in una tabella di correlazione che segue la formula può essere applicato:

Potremmo segnare che nel denominatore della formula (31) applichiamo la formula per una x e una y con l'eccezione di no i. Possiamo notare qui che C x, C y, σ x, σ v sono tutti espressi in unità di intervalli di classe (cioè, in unità di i). Pertanto, durante il calcolo di σ x e σ y, non vengono utilizzati i i. Ciò è desiderabile poiché tutte le deviazioni del prodotto, ad esempio, Σ dx.dy sono in unità di intervallo.

Quindi, calcoliamo:

Interpretazione del coefficiente di correlazione:

Il semplice calcolo della correlazione non ha alcun significato fino a quando ea meno di determinare quanto deve essere grande il coefficiente per essere significativo, e cosa ci dice la correlazione sui dati? Cosa intendiamo per il valore ottenuto del coefficiente di correlazione?

Interpretazione errata del coefficiente di correlazione:

A volte, interpretiamo male il valore del coefficiente di correlazione e stabiliamo la relazione causa-effetto, cioè una variabile che causa la variazione nell'altra variabile. In realtà non possiamo interpretare in questo modo a meno che non abbiamo una solida base logica.

Il coefficiente di correlazione ci fornisce una determinazione quantitativa del grado di relazione tra due variabili X e Y, non informazioni sulla natura dell'associazione tra le due variabili. La causalità implica una sequenza invariabile: A conduce sempre a B, mentre la correlazione è semplicemente una misura di mutua associazione tra due variabili.

Ad esempio, potrebbe esserci un'alta correlazione tra disadattamento e ansia:

Ma sulla base dell'alta correlazione non possiamo dire che il disadattamento causi ansia. Può essere possibile che l'ansia alta sia la causa del disadattamento. Questo dimostra che disadattamento e ansia sono variabili associate tra loro. Considera un altro esempio.

Esiste un'alta correlazione tra l'attitudine in una materia a scuola e la realizzazione nell'argomento. Alla fine della scuola gli esami rifletteranno la relazione causale? Potrebbe o no.

L'attitudine allo studio del soggetto determina sicuramente una variazione nel raggiungimento del soggetto, ma l'alto rendimento dello studente nel soggetto non è il risultato solo dell'elevata attitudine; potrebbe essere dovuto anche alle altre variabili.

Pertanto, quando si interpretano le dimensioni del coefficiente di correlazione in termini di causa ed effetto, è appropriato, se e solo se le variabili in esame forniscono una base logica per tale interpretazione.

Fattori che influenzano le dimensioni del coefficiente di correlazione:

Dovremmo anche essere consapevoli dei seguenti fattori che influenzano la dimensione del coefficiente di correlazione e possono portare a interpretazioni errate:

1. La dimensione di "r" dipende molto dalla variabilità dei valori misurati nel campione correlato. Maggiore è la variabilità, maggiore sarà la correlazione, a parità di tutto il resto.

2. La dimensione di 'r' è alterata, quando un investigatore seleziona un gruppo estremo di soggetti per confrontare questi gruppi rispetto a determinati comportamenti. "R" ottenuto dai dati combinati di gruppi estremi sarebbe maggiore della "r" ottenuta da un campione casuale dello stesso gruppo.

3. L'aggiunta o l'eliminazione dei casi estremi dal gruppo può portare a modificare le dimensioni di "r". L'aggiunta del caso limite può aumentare le dimensioni della correlazione, mentre l'eliminazione dei casi estremi abbassa il valore di "r".

Usi del prodotto momento r:

La correlazione è una delle procedure analitiche più utilizzate nel campo della misurazione e della valutazione educativa e psicologica. È utile in:

io. Descrivere il grado di corrispondenza (o relazione) tra due variabili.

ii. Previsione di una variabile: la variabile dipendente sulla base della variabile indipendente.

iii. Convalida un test; ad esempio, un test di intelligenza di gruppo.

iv. Determinazione del grado di obiettività di un test.

v. Guida all'istruzione e alla formazione professionale e al processo decisionale.

VI. Determinazione dell'affidabilità e validità del test.

vii. Determinare il ruolo dei vari correlati ad una certa abilità.

viii. Tecnica di analisi fattoriale per determinare il carico fattoriale delle variabili sottostanti nelle abilità umane.

Presupposti del momento del prodotto r :

1. Distribuzione normale:

Le variabili da cui vogliamo calcolare la correlazione dovrebbero essere distribuite normalmente. L'ipotesi può essere presa da un campionamento casuale.

2. Linearità:

La correlazione momento-prodotto può essere mostrata in linea retta, nota come correlazione lineare.

3. Serie continue:

Misura di variabili su serie continue.

4. Homoscedasticity:

Deve soddisfare la condizione dell'omoscedasticità (uguale variabilità).

3. Coefficiente di correlazione tra ranghi di Spearman:

Ci sono alcune situazioni nell'educazione e nella psicologia in cui gli oggetti o gli individui possono essere classificati e disposti in ordine di merito o competenza su due variabili e quando questi due gruppi di gradi covari o hanno accordo tra di loro, misuriamo i gradi di relazione per correlazione di rango .

Di nuovo, ci sono problemi in cui la relazione tra le misure effettuate non è lineare e non può essere descritta dal momento del prodotto r.

Ad esempio, la valutazione di un gruppo di studenti sulla base della capacità di leadership, l'ordine delle donne in un concorso di bellezza, gli studenti classificati in ordine di preferenza o le immagini possono essere classificati in base ai loro valori estetici. I dipendenti possono essere ordinati in base ai supervisori in merito alla prestazione lavorativa.

I bambini delle scuole possono essere classificati dagli insegnanti sull'adeguamento sociale. In tali casi, oggetti o individui possono essere classificati e disposti in ordine di merito o competenza su due variabili. Spearman ha sviluppato una formula chiamata coefficiente di correlazione di rango per misurare l'estensione o il grado di correlazione tra 2 serie di gradi.

Questo coefficiente di correlazione è denotato dalla lettera greca ρ (chiamata Rho) ed è dato come:

dove, ρ = rho = coefficiente di correlazione del rango di Spearman

D = Differenza tra ranghi accoppiati (in ogni caso)

N = numero totale di articoli / individui classificati.

Caratteristiche di Rho (ρ):

1. In Coefficiente di correlazione di rango le osservazioni o le misurazioni della variabile bivariata si basano sulla scala ordinale sotto forma di ranghi.

2. La dimensione del coefficiente è direttamente influenzata dalla dimensione delle differenze di rango.

(un) Se i ranghi sono gli stessi per entrambi i test, ciascuna differenza di rango sarà pari a zero e alla fine D 2 sarà pari a zero. Ciò significa che la correlazione è perfetta; cioè 1.00.

(B) Se le differenze di rango sono molto grandi e la frazione è maggiore di una, la correlazione sarà negativa.

Presupposti di Rho (ρ):

io. N è piccolo o i dati sono malamente distorti.

ii. Sono liberi, o indipendenti, di alcune caratteristiche della distribuzione della popolazione.

iii. In molte situazioni vengono utilizzati metodi di classificazione, in cui non sono disponibili misure quantitative.

iv. Sebbene siano disponibili misure quantitative, i ranghi vengono sostituiti per ridurre il lavoro aritmetico.

v. Tali test sono descritti come non parametrici.

VI. In questi casi i dati sono composti da serie di numeri ordinali, 1 °, 2 °, 3 ° .... Questi sono sostituiti dai numeri cardinali 1, 2, 3, ........., N per scopi di calcolo. La sostituzione dei numeri cardinali per i numeri ordinali presuppone sempre l'uguaglianza degli intervalli.

I. Calcolando ρ dai punteggi del test:

Esempio 1:

I seguenti dati forniscono i punteggi di 5 studenti rispettivamente in Matematica e Scienze generali:

Calcola la correlazione tra le due serie di punteggi del test per Metodo di Differenza di rango.

Il valore del coefficiente di correlazione tra punteggi in Matematica e Scienze generali è positivo e moderato.

Fasi del calcolo del coefficiente di correlazione di Spearman:

Passo 1:

Elencare gli studenti, i nomi oi loro numeri di serie nella colonna 1.

Passo 2:

Nelle colonne 2 e 3 scrivi i punteggi di ogni studente o individuo nei test I e II.

Passaggio 3:

Prendi una serie di punteggi della colonna 2 e assegni un rango di 1 al punteggio più alto, che è 9, un rango di 2 al punteggio più alto successivo che è 8 e così via, finché il punteggio più basso ottiene un rango uguale a N; che è 5.

Passaggio 4:

Prendi l'II insieme di punteggi della colonna 3 e assegna il punteggio 1 al punteggio più alto. Nel secondo set il punteggio più alto è 10; quindi ottieni il grado 1. Il successivo punteggio più alto dello studente B è 8; quindi il suo grado è 2. Il grado dello studente C è 3, il grado di E è 4, e il grado di D è 5.

Passaggio 5:

Calcola la differenza di ranghi di ogni studente (colonna 6).

Passaggio 6:

Controlla la somma delle differenze registrate nella colonna 6. È sempre zero.

Step 7:

Ogni differenza di gradi della colonna 6 è quadrata e registrata nella colonna 7. Ottieni la somma ΣD 2 .

Passaggio 8:

Metti il ​​valore di N e 2D 2 nella formula del coefficiente di correlazione di Spearman.

2. Calcolo dai dati classificati:

Esempio 2:

In un concorso vocale il Prof. Mehrotra e il Prof. Shukla hanno giudicato 10 allievi. I loro giudizi erano in ranghi, che sono presentati di seguito. Determinare la misura in cui i loro giudizi erano d'accordo.

Il valore del coefficiente di correlazione è + 0, 83. Ciò mostra un alto grado di accordo tra i due giudici.

3. Calcolo di ρ (Rho) per ranghi legati:

Esempio 3:

I seguenti dati forniscono i punteggi di 10 studenti su due prove di test con un intervallo di 2 settimane in Trial I e ​​Trial II.

Calcola la correlazione tra i punteggi di due prove per metodo di differenza di rango:

La correlazione tra prova I e II è positiva e molto alta. Guarda attentamente i punteggi ottenuti dai 10 studenti nelle prove I e II del test.

Trovi qualche caratteristica speciale nei punteggi ottenuti dai 10 studenti? Probabilmente, la tua risposta sarà "sì".

Nella tabella sopra riportata nelle colonne 2 e 3 scoprirai che più di uno studente ottiene gli stessi punteggi. Nella seconda colonna gli studenti A e G ottengono lo stesso punteggio. 10. Nella colonna 3, anche gli studenti A e B, C e F e G e J ottengono gli stessi punteggi, che sono rispettivamente 16, 24 e 14.

Sicuramente queste coppie avranno gli stessi ranghi; conosciuto come Tied Ranks. La procedura di assegnazione dei ranghi ai punteggi ripetuti è leggermente diversa dai punteggi non ripetuti.

Guarda la colonna 4. Gli studenti A e G hanno punteggi simili di 10 ciascuno e possiedono il sesto e il settimo rango nel gruppo. Invece di assegnare il sesto e il settimo grado, a ciascuno di essi è stata assegnata la media dei due gradi, ovvero 6.5 (6 + 7/2 = 13/2).

La stessa procedura è stata seguita rispetto ai punteggi di Prova II. In questo caso, i legami si verificano in tre punti. Gli studenti C e F hanno lo stesso punteggio e quindi ottengono il rango medio di (1 + 2/2 = 1, 5). Gli studenti A e B hanno la posizione di rango 5 e 6; quindi sono assegnati 5, 5 (5 + 6/2) gradi ciascuno. Allo stesso modo gli studenti G e J sono stati assegnati a 7.5 (7 + 8/2) gradi ciascuno.

Se i valori vengono ripetuti più di due volte, è possibile seguire la stessa procedura per assegnare i ranghi:

Per esempio:

se tre studenti ottengono un punteggio di 10, al 5 °, 6 ° e 7 ° posto, a ognuno di loro verrà assegnato un grado 5 + 6 + 7/3 = 6.

Il resto delle fasi della procedura seguite per il calcolo di ρ (rho) sono le stesse spiegate in precedenza.

Interpretazione:

Il valore di ρ può anche essere interpretato allo stesso modo del Coefficiente di correlazione di Karl Pearson. Varia tra -1 e + 1. Il valore + 1 rappresenta un accordo o una relazione positiva perfetta tra due serie di gradi mentre ρ = - 1 implica una relazione negativa perfetta. In caso di assenza di relazione o accordo tra ranghi, il valore di ρ = ​​0.

Vantaggi del metodo di differenza rango:

1. Il calcolo del coefficiente di correlazione del coefficiente di ordine dei ranghi di Spearman è più rapido e più facile di (r) calcolato dal metodo del momento del prodotto di Pearson.

2. È un metodo accettabile se i dati sono disponibili solo in forma ordinale o il numero di variabili accoppiate è superiore a 5 e non superiore a 30 con minimo o alcuni legami nei ranghi.

3. È abbastanza facile interpretare p.

limitazioni:

1. Quando i dati dell'intervallo vengono convertiti in dati ordinati in ordine gerarchico, le informazioni sulla dimensione delle differenze di punteggio vengono perse; ad es. nella Tabella 5.10, se D in Prova II ottiene punteggi da 18 a 21, il suo grado rimane solo 4.

2. Se il numero di casi è maggiore, assegnare loro dei ranghi diventa un lavoro noioso.