Misure di dispersione

Dopo aver letto questo articolo imparerai le varie misure di dispersione utilizzate nella ricerca sociale.

Nella ricerca sociale, spesso desideriamo conoscere l'estensione dell'omogeneità e dell'eterogeneità tra gli intervistati rispetto a una data caratteristica. Qualsiasi insieme di dati sociali ha valori che possono caratterizzare l'eterogeneità. L'insieme dei dati sociali è tipicamente caratterizzato dall'eterogeneità dei valori.

In effetti, la misura in cui sono eterogenei o variano tra loro, è di fondamentale importanza nelle statistiche. Le misure di tendenza centrale descrivono tipicamente una caratteristica importante di un insieme di dati, ma non ci dicono nulla su questa altra caratteristica di base.

Di conseguenza, abbiamo bisogno di modi per misurare l'eterogeneità - la misura in cui i dati sono dispersi. Le misure che forniscono questa descrizione sono chiamate misure di dispersione o variabilità. Le seguenti tre distribuzioni mostrate in Fig. 18.4 illustreranno l'importanza della misurazione della dispersione dei dati statistici.

Distribuzione dei valori medi per campioni di dimensioni diverse :

Si può vedere che la media aritmetica di tutte e tre le curve nella figura sopra è la stessa, ma la distribuzione dei valori rappresentata dalla curva A mostra meno variabilità (dispersione) di quella rappresentata dalla curva B, mentre la curva B ha meno variabilità rispetto a quello mostrato dalla curva C.

Se consideriamo solo la misura della tendenza centrale delle distribuzioni, perderemo un'importante differenza tra le tre curve. Per comprendere meglio lo schema dei dati, dobbiamo anche prendere in considerazione la sua dispersione o variabilità, ora consideriamo varie misure di dispersione.

Gamma:

L'intervallo è definito come la differenza tra i valori più alti e quelli più bassi: Matematicamente,

R (Range) = M n - M L

dove M n e M l rappresentano il valore più alto e il valore più basso. Quindi, per il set di dati: 10, 22, 20, 14 e 14 l'intervallo sarebbe la differenza tra 22 e 10, cioè 12. In caso di dati raggruppati, prendiamo l'intervallo come differenza tra i punti medi dell'estremo classi. Quindi, se il punto medio dell'intervallo più basso è 150 e quello del più alto è 850, l'intervallo sarà 700.

L'unico vantaggio della gamma, che la misura della dispersione è usata raramente, è che può essere facilmente calcolato e facilmente compreso. Nonostante questo vantaggio, in genere non è una misura molto utile di dispersione; il suo principale svantaggio è che non ci dice nulla sulla dispersione di valori che sono intermedi tra i due estremi.

Intervallo semirigido-quartile o deviazione quartile:

Un'altra misura di dispersione è l'intervallo semi-interquartile, comunemente noto come deviazione del quartile. I quartili sono i punti che dividono l'array o la serie di valori in quattro parti uguali, ciascuna delle quali contiene il 25 percento degli elementi nella distribuzione. I quartili sono quindi i valori più alti in ciascuna di queste quattro parti. L'intervallo interquartile è la differenza tra i valori del primo e del terzo quartile.

Quindi, dove e Q 1 e Q 3 stanno per il primo e il terzo quartile, l'intervallo semi-interquartile o deviazione del quartile è data dalla formula = Q 3 -Q 1/2

Calcolo della deviazione del quartile:

La deviazione del quartile è una misura assoluta di dispersione. Se la deviazione quartile deve essere utilizzata per confrontare le dispersioni di serie, è necessario convertire la misura assoluta in un coefficiente di deviazione quartile.

Deviazione media :

L'intervallo e la deviazione del quartile presentano gravi inconvenienti, ovvero vengono calcolati prendendo in considerazione solo due valori di una serie. Pertanto, queste due misure di dispersione non sono basate su tutte le osservazioni della serie. Di conseguenza, la composizione della serie è completamente ignorata. Per evitare questo difetto, la dispersione può essere calcolata prendendo in considerazione tutte le osservazioni della serie in relazione a un valore centrale.

Il metodo di calcolo della dispersione è chiamato il metodo di deviazione media (deviazione media). Come suggerisce chiaramente il nome, è la media aritmetica delle deviazioni di vari oggetti da una misura di tendenza centrale.

Come ben sappiamo, la somma delle deviazioni da un valore centrale sarebbe sempre zero. Ciò suggerisce che per ottenere una deviazione media (circa la media o uno qualsiasi dei valori centrali), dobbiamo in qualche modo o l'altro eliminare ogni segno negativo. Questo viene fatto ignorando i segni e prendendo il valore assoluto delle differenze.

Nel nostro esempio ipotetico, la media dei numeri 12, 14, 15, 16 e 18 è 15. Ciò implica che la differenza di 15 da ciascuno di questi numeri, ignorando i segni e aggiungendo i risultati, otterremo il totale deviazione.

Dividendolo per 5, otteniamo:

= 1, 6 (dove | d | rappresenta la somma delle deviazioni assolute).

Possiamo quindi affermare che in media i punteggi differiscono dalla media di 1, 6.

Calcolo della deviazione media in data non raggruppata (singole osservazioni):

Calcolo della deviazione media in serie continue:

Coefficiente di deviazione media :

Per confrontare la deviazione media della serie viene calcolato il coefficiente di deviazione media o deviazione media relativa. Ciò si ottiene dividendo la deviazione media per quella misura di tendenza centrale da cui sono state calcolate le deviazioni. Così,

Coefficiente di media. Deviazione / X

Applicando questa formula all'esempio precedente, abbiamo,

Coefficiente di deviazione media = 148/400 = 0, 37

Deviazione standard :

La misura di dispersione più utile e più frequentemente utilizzata è la deviazione standard o la deviazione quadrata media della radice rispetto alla media. La deviazione standard è definita come la radice quadrata della media aritmetica del quadrato delle deviazioni rispetto alla media. simbolicamente,

σ = √Σd 2 / N

dove σ (lettera greca Sigma) rappresenta la deviazione standard, Σd 2 per la somma del quadrato delle deviazioni misurate dalla media e N per il numero di voci.

Calcolo della deviazione standard in una serie di osservazioni individuali:

Metodo short-cut:

Calcolo della deviazione standard in serie discrete :

In una serie discreta le deviazioni da una media assunta vengono prima calcolate e moltiplicate per le rispettive frequenze degli articoli. Le deviazioni sono quadrate e moltiplicate per le rispettive frequenze degli articoli. Questi prodotti sono sommati e divisi per il totale delle frequenze. La deviazione standard è calcolata dalla seguente formula:

La seguente illustrazione spiegherebbe la formula:

Calcolo della deviazione standard in una serie continua :

In una serie continua gli intervalli di classe sono rappresentati dai loro punti medi. Tuttavia, di solito gli intervalli di classe sono di uguale dimensione e quindi, le deviazioni dalla media ipotizzata sono espresse in unità di intervallo di classe. In alternativa, le deviazioni del passo sono ottenute dividendo le deviazioni per la grandezza dell'intervallo di classe.

Pertanto, la formula per calcolare la deviazione standard è scritta come sotto:

dove io sto per il fattore comune o la grandezza dell'intervallo di classe.

Il seguente esempio illustrerebbe questa formula:

Coefficiente di variazione:

La deviazione standard rappresenta la misura della dispersione assoluta. È anche necessario misurare la dispersione relativa di due o più distribuzioni. Quando la deviazione standard è correlata alla sua media, misura la dispersione relativa. Karl Pearson ha elaborato una semplice misura della dispersione relativa che è generalmente nota come coefficiente di variazione.

Il coefficiente di variazione per il problema nella Tabella 18.47 è: