4 Misure di dispersione comunemente utilizzate

Esistono quattro misure comunemente utilizzate per indicare la variabilità (o dispersione) all'interno di un insieme di misure. Essi sono: 1. Intervallo 2. Deviazione quadratica 3. Deviazione media 4. Deviazione standard.

Misura # 1. Range:

Intervallo è l'intervallo tra il punteggio più alto e quello più basso. L'intervallo è una misura della variabilità o dispersione delle variabili o delle osservazioni tra di loro e non dà un'idea della diffusione delle osservazioni attorno ad un valore centrale.

Simbolicamente R = Hs - Ls. Dove R = Range;

Hs è il 'punteggio più alto' e Ls è il punteggio più basso.

Calcolo del range (dati non raggruppati):

Esempio 1:

I punteggi di dieci ragazzi in un test sono:

17, 23, 30, 36, 45, 51, 58, 66, 72, 77.

Esempio 2:

I punteggi di dieci ragazze in un test sono:

48, 49, 51, 52, 55, 57, 50, 59, 61, 62.

Nell'esempio I il punteggio più alto è 77 e il punteggio più basso è 17.

Quindi l'intervallo è la differenza tra questi due punteggi:

. . . Intervallo = 77 - 17 = 60

In modo simile, nell'esempio II

Intervallo = 62 - 48 = 14

Qui scopriamo che i punteggi dei ragazzi sono ampiamente dispersi. Quindi i punteggi dei ragazzi variano molto Ma i punteggi delle ragazze non variano molto (ovviamente variano di meno). Quindi la variabilità dei punteggi dei ragazzi è più della variabilità dei punteggi delle ragazze.

Calcolo del range (dati raggruppati):

Esempio 3:

Trova l'intervallo di dati nella seguente distribuzione:

Soluzione:

In questo caso, il limite superiore superiore della classe più alta 70-79 è Hs = 79, 5 e il limite inferiore inferiore della classe più bassa 20-29 è Ls = 19, 5

Pertanto, Range R = Hs - Ls

= 79, 5 - 19, 5 = 60, 00

La gamma è un indice di variabilità. Quando l'intervallo è più il gruppo è più variabile. Più piccolo è il raggio, più omogeneo è il gruppo. L'intervallo è la misura più generale di "diffusione" o "dispersione" di punteggi (o misure). Quando desideriamo effettuare un confronto approssimativo della variabilità di due o più gruppi, possiamo calcolare l'intervallo.

La gamma di cui sopra è in una forma grezza o è una misura assoluta di dispersione ed è inadatta ai fini del confronto, specialmente quando le serie si trovano in due diverse unità. Ai fini del confronto, il coefficiente di intervallo è calcolato dividendo l'intervallo per la somma delle voci più grandi e più piccole.

vantaggi:

1. L'intervallo può essere calcolato abbastanza facilmente.

2. È una misura di dispersione più semplice.

3. Viene calcolato quando vogliamo fare un confronto approssimativo di due o più grafici di variabilità.

limitazioni:

1. L'intervallo non è basato su tutte le osservazioni della serie. Prende in considerazione solo i casi più estremi.

2. Ci aiuta a fare solo un confronto approssimativo di due o più gruppi di variabilità.

3. La gamma tiene conto dei due punteggi estremi di una serie.

Pertanto, quando N è piccolo o quando vi sono grosse lacune nella distribuzione di frequenza, l'intervallo come misura della variabilità è abbastanza inaffidabile.

Esempio 4:

Punteggi del gruppo A - 3, 5, 8, 11, 20, 22, 27, 33

Qui range = 33 - 3 = 30

Punteggi del gruppo B - 3, 5, 8, 11, 20, 22, 27, 93

Qui range = 93 - 3 = 90.

Basta confrontare la serie di punteggi nel gruppo A e nel gruppo B. Nel gruppo A se un singolo punteggio 33 (l'ultimo punteggio) è cambiato in 93, l'intervallo è ampiamente cambiato. Pertanto un singolo punteggio elevato può aumentare l'intervallo da basso ad alto. Questo è il motivo per cui la gamma non è una misura affidabile della variabilità.

4. È influenzato molto dalle fluttuazioni nel campionamento. Il suo valore non è mai stabile. In una classe in cui normalmente l'altezza degli studenti va da 150 cm a 180 cm, se è ammessa una nana, la cui altezza è di 90 cm, l'intervallo dovrebbe aumentare da 90 cm a 180 cm.

5. La gamma non presenta realmente la serie e la dispersione. La distribuzione asimmetrica e simmetrica può avere la stessa gamma ma non la stessa dispersione. È di precisione limitata e dovrebbe essere usato con cautela.

Tuttavia, non dovremmo trascurare il fatto che l'intervallo è una misura approssimativa di dispersione ed è del tutto inadatto per studi precisi e accurati.

Misura n. 2. Deviazione quartile:

L'intervallo è l'intervallo o la distanza sulla scala di misurazione che include il 100 percento dei casi. Le limitazioni dell'intervallo sono dovute alla sua dipendenza solo dai due valori estremi.

Esistono alcune misure di dispersione indipendenti da questi due valori estremi. Il più comune di questi è la deviazione quartile che si basa sull'intervallo che contiene il 50% medio dei casi in una data distribuzione.

La deviazione del quartile corrisponde a metà della distanza tra il terzo quartile e il primo quartile. È l'intervallo Semi-interquartile di una distribuzione:

Prima di prendere la deviazione del quartile, dobbiamo conoscere il significato di quarti e quartili.

Ad esempio, un test genera 20 punteggi e questi punteggi sono disposti in ordine decrescente. Dividiamo la distribuzione dei punteggi in quattro parti uguali. Ogni parte presenterà un "quarto". In ogni trimestre ci saranno casi del 25% (o 1/4 di N).

Poiché i punteggi sono disposti in ordine decrescente,

I primi 5 punteggi saranno nel 1 ° trimestre,

I prossimi 5 punteggi saranno nel 2 ° trimestre,

I prossimi 5 punteggi saranno nel terzo trimestre, e

E i 5 punteggi più bassi saranno nel 4 ° trimestre.

Al fine di avere uno studio migliore della composizione di una serie, potrebbe essere necessario dividerlo in tre, quattro, sei, sette, otto, nove, dieci o cento parti.

Di solito, una serie è divisa in quattro, dieci o cento parti. Un elemento divide la serie in due parti, tre elementi in quattro parti (quartili), nove elementi in dieci parti (decili) e novantanove elementi in cento parti (percentili).

Ci sono, quindi, tre quartili, nove decili e novantanove percentili in una serie. Il secondo quartile, o 5 ° decile o 50 ° percentile è la mediana (vedi Figura).

Il valore dell'articolo che divide la prima metà di una serie (con valori inferiori al valore della mediana) in due parti uguali è chiamato Primo Quartile (Q 1 ) o Quartile Inferiore. In altre parole, Q 1 è un punto sotto il quale si trova il 25% dei casi. Q 1 è il 25 ° percentile.

Il secondo quartile (Mdn) o il quartile medio è la mediana. In altre parole, è un punto sotto il quale si trova il 50% dei punteggi. Una mediana è il 50 ° percentile.

Il valore dell'oggetto che divide la seconda metà della serie (con valori superiori al valore della mediana) in due parti uguali è chiamato Terzo Quartile (Q 3 ) o Quartile Superiore. In altre parole, Q 3 è un punto sotto il quale si trova il 75% dei punteggi. Q 3 è il 75 ° percentile.

Nota:

Uno studente deve chiaramente distinguere tra un quarto e un quartile. Quarter è una gamma; ma il quartile è un punto sulla scala. I quarti sono numerati da cima a fondo (o dal punteggio più alto al punteggio più basso), ma i quartili sono numerati dal basso verso l'alto.

La Deviazione Quartile (Q) è una metà della distanza tra il Terzo Quartile (Q 3 ) e il Primo Quartile (Q 1 ):

L = Limite inferiore del ci dove si trova Q 3,

3N / 4 = 3/4 di Nor 75% di N.

F = totale di tutte le frequenze al di sotto di 'L',

fq = Frequenza del ci su cui Q 3 giace e i = dimensione o lunghezza del ci

L = Limite inferiore del ci dove si trova Q 1,

N / 4 = un quarto (o 25%) di N,

F = totale di tutte le frequenze al di sotto di 'L',

fq = frequenza del ci su cui giace Q 1,

e i = dimensione o lunghezza di ci

Intervallo interquartile:

L'intervallo tra il terzo quartile e il primo quartile è noto come intervallo interquartile. Intervallo simbolicamente interquartile = Q 3 - Q 1 .

Gamma semi-interquartile:

È la metà della distanza tra il terzo quartile e il primo quartile.

Quindi, SI R. = Q 3 - Q 1/4

La deviazione Q o Quartile è altrimenti nota come intervallo semi-interquartile (o SIR)

Quindi, Q = Q 3 - Q 1/2

Se confronteremo la formula di Q 3 e Q 1 con la formula di mediana saranno chiare le seguenti osservazioni:

io. Nel caso di Median usiamo N / 2 mentre per Q 1 usiamo N / 4 e per Q 3 usiamo 3N / 4.

ii. Nel caso della mediana usiamo fm per indicare la frequenza di ci, su quale mediana mente; ma nel caso di Q 1 e Q 3 usiamo fq per indicare la frequenza del ci su cui giace Q 1 o Q 3 .

Calcolo di Q (Ungrouped Data):

Per calcolare Q, dobbiamo prima calcolare Q 3 e Q 1 . Q 1 e Q 3 sono calcolati nello stesso modo in cui calcolavamo la mediana.

Le uniche differenze sono:

(i) in caso di mediana stavamo contando il 50% dei casi (N / 2) dal basso, ma

(ii) in caso di Q 1 dobbiamo contare il 25% dei casi (o N / 4) dal basso e

(iii) nel caso di Q 3 dobbiamo contare il 75% dei casi (o 3N / 4) dal fondo.

Esempio 5:

Scopri Q dei seguenti punteggi 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39.

Ci sono 20 punteggi.

25% di N = 20/4 = 5

Q 1 è un punto sotto il quale si trova il 25% dei casi. In questo esempio, Q 1 è un punto al di sotto del quale si trovano 5 casi. Dalla semplice ispezione dei dati ordinati si scopre che al di sotto di 24.5 ci sono 5 casi. Quindi Q 1 = 24, 5

Allo stesso modo, Q 3 è un punto al di sotto del quale si trova il 75% delle eases.

75% di N = 3/4 x 20 = 15

Troviamo che sotto 34, 5, 15 casi mentono

Quindi Q 3 = 34, 5.

In una distribuzione simmetrica, la mediana si trova a metà della scala da Q 1 e Q 3 . Pertanto, il valore Q 1 + Q o Q 3 - Q indica il valore della mediana. Ma, generalmente, le distribuzioni non sono simmetriche e quindi Q 1 + Q o Q 3 - Q non darebbe il valore della mediana.

Calcolo di Q (dati raggruppati):

Esempio 6:

I punteggi ottenuti da 36 studenti in un test sono mostrati nella tabella. Trova la deviazione quartile dei punteggi.

Nella colonna 1, abbiamo preso l'intervallo di classe, nella colonna 2, abbiamo preso la frequenza, e nella colonna 3 sono state scritte le frequenze cumulative a partire dal basso.

Qui N = 36, quindi per Q 1 dobbiamo prendere N / 4 = 36/4 = 9 casi e per Q 3 dobbiamo prendere 3N / 4 = 3 x 36/4 = 27 casi. Esaminando la colonna 3, cf = 9 sarà incluso in ci 55 - 59, il cui limite effettivo è 54, 5 - 59, 5. Q1 si troverebbe nell'intervallo 54, 5 - 59, 5.

Il valore di Q 1 deve essere calcolato come segue:

Per calcolare Q 3, cf = 27 sarà incluso in ci 65 - 69, i cui limiti effettivi sono 64. 5 - 69.5. Quindi Q 3 si troverebbe nell'intervallo 64.5 - 69.5 e il suo valore deve essere calcolato come segue:

Interpretazione della deviazione quartile:

Mentre interpreti il ​​valore della deviazione del quartile è meglio avere i valori di Median, Q 1 e Q 3, insieme a Q. Se il valore di Q è più, allora la dispersione sarà più, ma di nuovo il valore dipende dalla scala di misura. Due valori di Q devono essere confrontati solo se la scala utilizzata è la stessa. La Q misurata per i punteggi su 20 non può essere confrontata direttamente con Q per i punteggi su 50.

Se si conoscono la mediana e la Q, possiamo dire che il 50% dei casi si trova tra "Mediano - Q" e "Mediano + Q". Questi sono il mezzo 50% dei casi. Qui, veniamo a sapere della gamma di solo il 50% medio dei casi. Come viene distribuito il 25% inferiore dei casi e il 25% superiore dei casi, non è noto attraverso questa misura.

A volte, i casi estremi oi valori non sono noti, nel qual caso l'unica alternativa a nostra disposizione è calcolare la deviazione mediana e quartile come misura di centrale, tendenza e dispersione. Attraverso la mediana e i quartili possiamo dedurre circa la simmetria o l'asimmetria della distribuzione. Facciamo, quindi, avere un'idea delle distribuzioni simmetriche e distorte.

Distribuzioni simmetriche e inclinate:

Si dice che una distribuzione sia simmetrica quando le frequenze sono distribuite simmetricamente attorno alla misura della tendenza centrale. In altre parole, possiamo dire che la distribuzione è simmetrica se i valori ad uguale distanza sui due lati della misura di tendenza centrale hanno frequenze uguali.

Esempio 7:

Trova se la distribuzione data è simmetrica o meno.

Qui la misura della tendenza centrale, media e mediana, è 5. Se iniziamo a confrontare le frequenze dei valori sui due lati di 5, troviamo che i valori 4 e 6, 3 e 7, 2 e 8, 1 e 9, 0 e 10 hanno lo stesso numero di frequenze. Quindi la distribuzione è perfettamente simmetrica.

In una distribuzione simmetrica, media e mediana sono uguali e le mediane si trovano ad una uguale distanza dai due quartili, ovvero Q 3 - Mediana = Mediana-Q 1 .

Se una distribuzione non è simmetrica, la partenza dalla simmetria si riferisce alla sua asimmetria. L'asimmetria indica che la curva è girata più da una parte che dall'altra. Quindi la curva avrà una coda più lunga su un lato.

Si dice che l'asimmetria è positiva se la coda più lunga è sul lato destro e si dice negativa se la coda più lunga è sul lato sinistro.

Le seguenti figure mostrano l'aspetto di una curva obliqua e obliqua positiva:

Q 3 - Mdn> Mdn - Q 1 indica + ve skewness

Q 3 - Mdn <Mdn - Q 1 indica - ve skewness

Q 3 - Mdn = Mdn - Q 1 indica l'asimmetria zero

Meriti di Q:

1. È una misura di variabilità più rappresentativa e affidabile dell'intera gamma.

2. È un buon indice di densità del punteggio al centro della distribuzione.

3. I quartili sono utili per indicare l'asimmetria di una distribuzione.

4. Come la mediana, Q è applicabile alle distribuzioni open-end.

5. Ovunque si preferisca la mediana come misura della tendenza centrale, la deviazione del quartile è preferita come misura della dispersione.

Limiti di Q:

1. Tuttavia, come la mediana, la deviazione del quartile non è suscettibile al trattamento algebrico, in quanto non prende in considerazione tutti i valori della distribuzione.

2. Calcola solo il terzo e il primo quartile e ci parla della gamma. Da Q 'non possiamo ottenere una vera immagine di come i punteggi siano dispersi dal valore centrale. Quella è 'Q' non ci dà alcuna idea circa la composizione dei punteggi. La 'Q' di due serie può essere uguale, tuttavia le serie possono essere abbastanza diverse nella composizione.

3. Rende approssimativamente un'idea di dispersione.

4. Ignora i punteggi sopra il terzo quartile e i punteggi sotto il primo quartile. Semplicemente ci parla del 50% medio della distribuzione.

Usi di Q:

1. Quando la mediana è una misura di una tendenza centrale;

2. Quando la distribuzione è incompleta alle due estremità;

3. Quando ci sono punteggi sparsi o estremi che influenzerebbero in modo sproporzionato la SD;

4. Quando la concentrazione intorno alla mediana - il 50% medio dei casi è di interesse primario.

Coefficiente di deviazione del quartile:

La Deviazione Quartile è una misura assoluta di dispersione e per renderla relativa, calcoliamo il 'coefficiente di deviazione quartile'. Il coefficiente viene calcolato dividendo la deviazione del quartile per la media dei quartili.

È dato da:

Coefficiente di deviazione quartile = Q 3 - Q 1 / Q 3 + Q 1

Dove Q 3 e Q 1 si riferiscono rispettivamente ai quartili superiore e inferiore.

Misura # 3. Deviazione media (AD) o Deviazione media (MD):

Come abbiamo già discusso della gamma e la "Q" ci dà un'idea della variabilità. La gamma di due serie può essere la stessa o la deviazione quartile di due serie può essere la stessa, tuttavia le due serie potrebbero essere diverse. Né la gamma né la 'Q' parlano della composizione della serie. Queste due misure non prendono in considerazione i punteggi individuali.

Il metodo della deviazione media o 'la deviazione media', come viene chiamato a volte, tende a rimuovere una grave mancanza di entrambi i metodi (Range e 'Q'). La deviazione media è anche definita il primo momento di dispersione e si basa su tutti gli elementi di una serie.

La deviazione media è la media aritmetica delle deviazioni di una serie calcolata da una certa misura di tendenza centrale (media, mediana o modo), tutte le deviazioni sono considerate positive. In altre parole, la media delle deviazioni di tutti i valori dalla media aritmetica è nota come deviazione media o deviazione media. (Di solito, la deviazione è presa dalla media della distribuzione.)

Dove Σ è la somma totale di;

X è il punteggio; M è la media; N è il numero totale di punteggi.

E 'd' significa la deviazione dei punteggi individuali dalla media.

Calcolo della deviazione media (dati non raggruppati):

Esempio 8:

Trova la deviazione media per il seguente insieme di variabili:

X = 55, 45, 39, 41, 40, 48, 42, 53, 41, 56

Soluzione:

Per trovare la deviazione media calcoliamo prima la media per il dato insieme di osservazioni.

Le deviazioni e le deviazioni assolute sono riportate nella tabella 4.2:

Esempio 9:

Trova la deviazione media per i punteggi indicati di seguito:

25, 36, 18, 29, 30, 41, 49, 26, 16, 27

La media dei punteggi sopra indicati è risultata essere 29, 7.

Per calcolare la deviazione media:

Nota:

Se applichi dell'algebra, puoi vedere che Σ (X - M) è zero

Calcolo della deviazione media (dati raggruppati):

Esempio 10:

Trova la deviazione media per la seguente distribuzione di frequenza:

Qui, nella colonna 1, scriviamo i ci, nella colonna 2, scriviamo le frequenze corrispondenti, nella colonna 3, scriviamo i punti centrali del ci che è indicato da 'X', nella colonna 4, scriviamo il prodotto delle frequenze e dei punti intermedi delle ci 'denotate da X, nella colonna 5, scriviamo le deviazioni assolute dei punti medi di ci dalla media che è denotata da | d | e nella colonna 6, scriviamo il prodotto di deviazioni e frequenze assolute, indicato da | fd |.

Meriti della deviazione media:

1. La deviazione media è la misura di dispersione più semplice che tiene conto di tutti i valori in una determinata distribuzione.

2. È facilmente comprensibile anche da una persona non esperta nelle statistiche.

3. Non è molto influenzato dal valore degli oggetti estremi.

4. È la media delle deviazioni dei punteggi individuali dalla media.

limitazioni:

1. La deviazione media ignora i segni algebrici delle deviazioni e come tale non è capace di ulteriore trattamento matematico. Quindi, viene usato solo come misura descrittiva di variabilità.

2. In realtà, MD non è di uso comune. È usato raramente nelle statistiche moderne e generalmente la dispersione è studiata dalla deviazione standard.

Usi di MD:

1. Quando si desidera pesare tutte le deviazioni in base alla loro dimensione.

2. Quando è necessario conoscere fino a che punto le misure sono distribuite su entrambi i lati della media.

3. Quando le deviazioni estreme influenzano indebitamente la deviazione standard.

Interpretazione della deviazione media:

Per interpretare la deviazione media, è sempre meglio esaminarla insieme alla media e al numero di casi. La media è richiesta perché la media e la deviazione media sono rispettivamente il punto e la distanza sulla stessa scala di misura.

Senza media, la deviazione media non può essere interpretata, in quanto non vi è alcun indizio per la scala di misura o l'unità di misura. Il numero di casi è importante perché la misura della dispersione dipende da questo. Per un numero inferiore di casi, è probabile che la misura sia maggiore.

Nei due esempi, abbiamo:

Nel primo caso, la deviazione media è quasi il 25% della media, mentre nel secondo caso è inferiore. Ma la deviazione media potrebbe essere maggiore nel primo caso a causa del minor numero di casi. Quindi le due deviazioni medie calcolate sopra indicano dispersione quasi simile.

Misura # 4. Deviazione standard o SD e scostamento:

Di diverse misure di dispersione, la misura più frequentemente utilizzata è la "deviazione standard". È anche il più importante perché è l'unica misura di dispersione suscettibile al trattamento algebrico.

Anche qui vengono considerate le deviazioni di tutti i valori dalla media della distribuzione. Questa misura soffre dei minimi inconvenienti e fornisce risultati accurati.

Rimuove l'inconveniente di ignorare i segni algebrici mentre calcola le deviazioni degli articoli dalla media. Invece di trascurare i segni, suddividiamo le deviazioni, rendendo tutti positivi.

Si differenzia dall'AD in diversi aspetti:

io. Nel calcolo dell'AD o MD, ignoriamo i segni, mentre nel trovare SD evitiamo la difficoltà dei segni quadrando le deviazioni separate;

ii. Le deviazioni quadrate usate nel calcolo della SD sono sempre prese dalla media, mai dalla mediana o dalla modalità.

"Deviazione standard o SD è la radice quadrata della media delle deviazioni quadrate dei singoli punteggi dalla media della distribuzione."

Per essere più chiari, dovremmo notare qui che nel calcolare la SD, abbiamo quadrato tutte le deviazioni separatamente. Trova la loro somma, dividi la somma per il numero totale di punteggi e poi trova la radice quadrata della media delle deviazioni quadrate.

Quindi SD è anche chiamato "Deviazioni quadrate medie dalla media" ed è generalmente indicato dalla piccola lettera greca σ (sigma).

Simbolicamente, la deviazione standard per i dati non raggruppati è definita come:

Dove d = deviazione dei punteggi individuali dalla media;

(Alcuni autori usano 'x' come deviazione dei punteggi individuali dalla media)

Σ = somma totale di; N = numero totale di casi.

Le deviazioni quadrate medie sono indicate come varianza. O in parole semplici, quadrato dello standard di deviazione è chiamato il secondo momento di dispersione o varianza.

Calcolo della SD (dati non raggruppati):

Esistono due modi per calcolare la SD per i dati non raggruppati:

(a) Metodo diretto.

(b) metodo scorciatoia.

(a) Metodo diretto:

Trova la deviazione standard per i punteggi indicati di seguito:

X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9

Questo metodo utilizza la formula (18) per trovare la SD che prevede i seguenti passaggi:

Passo 1:

Calcola la media aritmetica dei dati dati:

Passo 2:

Scrivi il valore della deviazione d cioè X - M rispetto a ciascun punteggio nella colonna 2. Qui le deviazioni dei punteggi devono essere prese da 12. Ora scoprirai che Σd o Σ (X - M) è uguale a zero. Pensa, perché è così? Controllalo. Se non è così, scopri l'errore nel calcolo e correggilo.

Passaggio 3:

Piazza le deviazioni e scrivi il valore di d 2 rispetto a ciascun punteggio nella colonna 3. Trova la somma delle deviazioni al quadrato. Σd 2 = 84.

Tabella 4.5 Calcolo della SD:

La deviazione standard richiesta è 2.9.

Passaggio 4:

Calcola la media delle deviazioni al quadrato e poi individua la radice quadrata positiva per ottenere il valore della deviazione standard, ovvero σ.

Usando la formula (19), la Varianza sarà σ 2 = Σd 2 / N = 84/10 = 8.4

(b) Metodo scorciatoia:

Nella maggior parte dei casi la media aritmetica dei dati dati risulta essere un valore frazionario e quindi il processo di prendere le deviazioni e di squadrarle diventa noioso e consuma la calce nel calcolo della SD

Per facilitare il calcolo in tali situazioni, le deviazioni possono essere prese da una media ipotizzata. La formula di scorciatoia aggiustata per il calcolo della SD sarà quindi,

dove,

d = Deviazione del punteggio da una media ipotizzata, ad esempio AM; cioè d = (X - AM).

d 2 = Il quadrato della deviazione.

Σd = La somma delle deviazioni.

Σd 2 = La somma delle deviazioni quadrate.

N = N. dei punteggi o delle variabili.

La procedura di calcolo è chiarita nel seguente esempio:

Esempio 11:

Trova SD per i punteggi dati nella tabella 4.5 di X = 12, 15, 10, 8, 11, 13, 18, 10, 14, 9. Utilizza il metodo scorciatoia.

Soluzione:

Prendiamo la media ipotizzata AM = 11.

Le deviazioni e i quadrati delle deviazioni necessarie nella formula sono indicati nella seguente tabella:

Mettendo i valori dalla tabella in formula, la SD

Il metodo di scorciatoia dà lo stesso risultato ottenuto usando il metodo diretto nell'esempio precedente. Ma il metodo short-cut tende a ridurre il lavoro di calcolo in situazioni in cui la media aritmetica non è un numero intero.

Calcolo della SD (dati raggruppati):

(a) Metodo lungo / Metodo diretto:

Esempio 12:

Trova la SD per la seguente distribuzione:

Anche qui, il primo passo è trovare la media M, per la quale dobbiamo prendere i punti centrali del c.i indicati con X 'e trovare il prodotto f X.'. La media è data da Σ f x '/ N. Il secondo passo è trovare le deviazioni dei punti intermedi degli intervalli di classe X 'dalla media, ovvero X'-M denotata da d.

Il terzo passo consiste nel quadrare le deviazioni e trovare il prodotto delle deviazioni quadrate e della frequenza corrispondente.

Per risolvere il problema precedente, ci sono scritti nella colonna 1, le frequenze sono scritte nella colonna 2, i punti centrali di c.i cioè X 'sono scritti nella colonna 3, il prodotto di f X' è scritto nella colonna 4, la deviazione di X 'dalla media è scritto nella colonna 5, la deviazione quadratica d 2 è scritta nella colonna 6, e il prodotto f d 2 è scritto nella colonna 7,

Come mostrato di seguito:

Quindi, le deviazioni dei punti medi devono essere prese da 11.1.

Pertanto, la deviazione standard richiesta è 4.74.

(b) Metodo scorciatoia:

A volte, nel metodo diretto, si osserva che le deviazioni dalla media effettiva risultano in decimali e i valori di d 2 e fd 2 sono difficili da calcolare. Per evitare questo problema, seguiamo un metodo short cut per il calcolo della deviazione standard.

In questo metodo, invece di prendere le deviazioni dalla media effettiva, prendiamo deviazioni da una presunta media scelta, ad esempio AM

La seguente formula viene quindi utilizzata per calcolare la SD:

dove d è deviazione dalla media assunta.

I seguenti passaggi sono quindi coinvolti nel calcolo della deviazione standard:

(i) Ottieni deviazioni delle variabili dalla media AM assunta come d = (X - AM)

(ii) Moltiplicare queste deviazioni per frequenze corrispondenti per ottenere la colonna fd . La somma di questa colonna dà Σ fd.

fd con deviazione corrispondente (d)

(iii) Moltiplica per ottenere la colonna fd 2 . La somma di questa colonna sarà Σ fd 2 .

(iv) Usa la formula (22) per trovare la SD

Esempio 13:

Utilizzando il metodo scorciatoia trovare la SD dei dati nella tabella 4.7.

Soluzione:

Prendiamo la media ipotizzata AM = 10. Altri calcoli necessari per il calcolo della SD sono riportati nella tabella 4.8.

Mettere i valori dalla tabella

Usando la formula (19), la varianza

(c) Metodo di deviazione graduale:

In questo metodo, nella colonna 1 scriviamo ci; nella colonna 2 scriviamo le frequenze; nella colonna 3 scriviamo i valori di d, dove d = X'-AM / i; nella colonna 4 scriviamo il prodotto di fd, e nella colonna 5, scriviamo i valori di fd 2, come mostrato di seguito:

Qui, la Media Assunta è il punto medio del ci 9-11, cioè 10, quindi le deviazioni sono state prese da 10 e divise per 3, la lunghezza di ci La formula per SD nel metodo di deviazione a passi è

dove i = lunghezza dei c.i,

f = frequenza;

d = deviazioni dei punti medi di ci dalla media ipotizzata (AM) nelle unità di intervallo di classe (i), che possono essere dichiarate:

Mettere i valori dalla tabella

Le procedure di calcolo possono anche essere dichiarate nel modo seguente:

Deviazione standard combinata ( σ com b ):

Quando due insiemi di punteggi sono stati combinati in un singolo lotto, è possibile calcolare il σ della distribuzione totale dai σ delle distribuzioni di due componenti.

La formula è:

dove σ 1, = SD di distribuzione 1

σ 2 = SD di distribuzione 2

d 1 = (M 1 - M pettine )

d 2 = (M 2 - M pettine )

N 1 = numero di casi in distribuzione 1.

N 2 = numero di casi in distribuzione 2.

Un esempio illustrerà l'uso della formula.

Esempio 14:

Supponiamo che ci vengano dati i mezzi e le SD di un Achievement Test per due classi di dimensioni diverse, e viene chiesto di trovare la o del gruppo combinato.

I dati sono i seguenti:

Innanzitutto, lo troviamo

La formula (24) può essere estesa a qualsiasi numero di distribuzioni. Ad esempio, nel caso di tre distribuzioni, lo sarà

Proprietà della SD:

1. Se il valore di ciascuna variabile viene aumentato dello stesso valore costante, il valore di SD della distribuzione rimane invariato:

Discuteremo di questo effetto su SD prendendo in considerazione un'illustrazione. La tabella (4.10) mostra i punteggi originali di 5 studenti in un test con un punteggio medio aritmetico di 20.

Nuovi punteggi (X ') sono anche dati nella stessa tabella che otteniamo aggiungendo una costante 5 a ciascun punteggio originale. Usando la formula per i dati non raggruppati, osserviamo che la SD dei punteggi rimane la stessa in entrambe le situazioni.

Pertanto, il valore della SD in entrambe le situazioni rimane lo stesso.

2. Quando un valore costante viene sottratto da ciascuna variabile, il valore di SD della nuova distribuzione rimane invariato:

Gli studenti possono anche esaminare che quando sottraiamo una costante da ciascun punteggio, la media è diminuita dalla costante, ma la SD è la stessa. È dovuto al fatto che " d " rimane invariato.

3. Se ogni valore osservato viene moltiplicato per un valore costante, anche la SD delle nuove osservazioni sarà moltiplicata per la stessa costante:

Cerchiamo di moltiplicare ogni punteggio della distribuzione originale (tabella 4.10) per 5.

Quindi, la SD della nuova distribuzione sarà moltiplicata per la stessa costante (qui, è 5).

4. Se ciascun valore osservato viene diviso per un valore costante, anche la SD delle nuove osservazioni verrà divisa per la stessa costante. Gli studenti possono esaminare con un esempio:

Quindi, per concludere, la SD è indipendente dal cambiamento di origine (addizione, sottrazione) ma dipende dal cambiamento di scala (moltiplicazione, divisione).

Misurazioni di dispersione relativa (coefficiente di variazione):

Le misure di dispersione ci danno un'idea della misura in cui i punteggi sono sparsi attorno al loro valore centrale. Pertanto, due distribuzioni di frequenza aventi gli stessi valori centrali possono essere confrontate direttamente con l'aiuto di varie misure di dispersione.

Se, ad esempio, su un test in una classe, i ragazzi hanno punteggio medio M 1 = 60 con SD σ 1 = 15 e il punteggio medio di ragazze è M 2 = 60 con SD σ 2 = 10. Chiaramente, le ragazze che hanno un SD minore, sono più consistenti nel punteggio intorno al loro punteggio medio rispetto ai ragazzi.

Ci sono situazioni in cui due o più distribuzioni che hanno mezzi disuguali o unità di misura diverse devono essere confrontate in relazione alla loro dispersione o variabilità. Per effettuare tali confronti utilizziamo coefficienti di dispersione relativa o coefficiente di variazioni (CV).

La formula è:

(Coefficiente di variazione o coefficiente di variabilità relativa)

V dà la percentuale che σ è della media test. È quindi un rapporto che è indipendente dalle unità di misura.

V è limitato nel suo uso a causa di alcune ambiguità nella sua interpretazione. È difendibile se usato con scale di proporzioni, in cui le unità sono uguali e c'è un vero zero o punto di riferimento.

Ad esempio, V può essere usato senza esitazione con scale fisiche, quelle che riguardano le grandezze lineari, il peso e il tempo.

Due casi sorgono nell'uso di V con scale di rapporto:

(1) Quando le unità sono dissimili, e

(2) quando M sono disuguali, le unità della scala sono le stesse.

1. Quando le unità sono diverse da:

Esempio 15:

Un gruppo di ragazzi di 10 anni ha un'altezza media di 137 cm. con una o di 6, 2 cm. Lo stesso gruppo di ragazzi ha un peso medio di 30 kg. con un 3, 5 kg. In quale tratto, il gruppo è più variabile?

Soluzione:

Ovviamente, non possiamo confrontare direttamente centimetri e chilogrammi, ma possiamo confrontare la variabilità relativa delle due distribuzioni in termini di V.

Nel presente esempio, due gruppi non solo differiscono in termini di media, ma anche in unità di misure che sono cm. nel primo caso e kg. nel secondo. È possibile utilizzare un coefficiente di variazione per confrontare la variabilità dei gruppi in tale situazione.

Noi, quindi, calcoliamo:

Pertanto, dal calcolo precedente risulta che questi ragazzi sono circa il doppio della variabile (11.67 / 4.53 = 2.58) in peso come in altezza.

2. Quando le medie non sono uguali, ma le unità di scala sono le stesse :

Supponiamo di avere i seguenti dati su un test per un gruppo di ragazzi e un gruppo di uomini:

Quindi, confronta:

(i) Le prestazioni dei due gruppi sul test.

(ii) La variabilità dei punteggi nei due gruppi.

Soluzione:

(i) Poiché il punteggio medio di un gruppo di ragazzi è maggiore di quello degli uomini, quindi, il gruppo di ragazzi ha dato una migliore esecuzione del test.

(ii) Per il confronto di due gruppi in relazione alla variabilità tra i punteggi, il coefficiente di variazioni è calcolato V di ragazzi = 26, 67 e V di uomini = 38, 46.

Pertanto, la variabilità dei punteggi è maggiore nel gruppo di uomini. Gli studenti del gruppo maschile, con un CV inferiore, sono più consistenti nel punteggio intorno al loro punteggio medio rispetto al gruppo maschile.

SD e la diffusione delle osservazioni:

In una distribuzione simmetrica (normale),

(i) Media ± 1 SD copre il 68, 26% dei punteggi.

La media ± 2 SD copre il 95, 44% dei punteggi.

La media ± 3 SD copre il 99, 73% dei punteggi.

(ii) In campioni di grandi dimensioni (N = 500), l'intervallo è circa 6 volte SD.

Se N è circa 100, l'intervallo è circa 5 volte l'SD.

Se N è circa 50, l'intervallo è circa 4, 5 volte l'SD.

Se N è circa 20, l'intervallo è circa 3, 7 volte l'SD

Interpretazione della deviazione standard:

La deviazione standard caratterizza la natura della distribuzione dei punteggi. Quando i punteggi sono più diffusi, la SD è maggiore e quando i punteggi sono meno sparsi, la SD è inferiore. Per interpretare il valore della misura della dispersione, dobbiamo capire che maggiore è il valore di " σ ", più sono sparsi i punteggi dalla media.

Come nel caso della deviazione media, l'interpretazione della deviazione standard richiede il valore di M e N per la considerazione.

Negli esempi seguenti, i valori richiesti di σ, mean e N sono dati come:

Qui, la dispersione è più nell'esempio 2 rispetto all'esempio 1. Significa che i valori sono più sparsi nell'esempio 2, rispetto ai valori dell'esempio 1.

Meriti di SD:

1. SD è rigidamente definito e il suo valore è sempre definito.

2. È la misura di dispersione più diffusa ed importante. Occupa una posizione centrale nelle statistiche.

3. Come la deviazione media, si basa su tutti i valori della distribuzione.

4. Qui, i segni delle deviazioni non vengono ignorati, ma vengono eliminati quadrando ciascuna delle deviazioni.

5. È la misura principale della variabilità in quanto è suscettibile di trattamento algebrico e viene utilizzata nel lavoro correlativo e in ulteriori analisi statistiche.

6. È meno influenzato dalle fluttuazioni del campionamento.

7. È la misura affidabile e più accurata della variabilità. La SD va sempre con la media, che è la misura più affidabile della tendenza centrale.

8. Fornisce un'unità di misura standard che possiede un significato comparabile da una prova all'altra. Inoltre, la curva normale è direttamente correlata alla SD

limitazioni:

1. Non è facile da calcolare e non è facilmente comprensibile.

2. Dà più pesi agli oggetti estremi e meno a quelli che sono vicini alla media. Quando la deviazione di un punteggio estremo è al quadrato, si ottiene un valore maggiore.

Usi della SD:

Deviazione standard utilizzata:

(i) Quando si desidera la misura più accurata, affidabile e stabile della variabilità.

(ii) Quando si deve dare più peso a deviazioni estreme dalla media.

(iii) Quando il coefficiente di correlazione e le altre statistiche sono successivamente calcolate.

(iv) Quando vengono calcolate le misure di affidabilità.

(v) Quando i punteggi devono essere interpretati correttamente con riferimento alla curva normale.

(vi) Quando devono essere calcolati i punteggi standard.

(vii) Quando vogliamo testare il significato della differenza tra due statistiche.

(viii) Quando vengono calcolati i coefficienti di variazione, varianza, ecc.