Statistiek » Spreidingsbreedte en kwartielen

Inhoud:

Spreidingsbreedte
Kwartielen
Kwartielafstand
Andere methoden om de kwartielen uit te rekenen


Spreidingsbreedte

Het verschil tussen de laagste en hoogste waarneming is de spreidingsbreedte.

Voorbeeld
3, 5, 5, 6, 7, 8, 9, 10
Spreidingsbreedte = 10 – 3 = 7

Kwartielen

Het eerste kwartiel (Q1) is de mediaan van de eerste helft waarnemingsgetallen.
Het derde kwartiel (Q3) is de mediaan van de tweede helft waarnemingsgetallen.

De mediaan zelf is eigenlijk het tweede of middelste kwartiel (Q2).
De kwartielen verdelen de waarnemingsgetallen in vier groepen met elk 25% van de waarnemingsgetallen.

Even aantal waarnemingen

Met een even aantal waarnemingen kan je precies mooi vier groepen maken van 25% van het aantal waarnemingen.

Voorbeeld
1, 2, 5, 6, 7, 8, 9, 11
De mediaan is (6 + 7) : 2 = 6,5.
Het eerste kwartiel is de mediaan van de eerste helft getallen:
1, 2, 5, 6 dus Q1 = (2 + 5) : 2 = 3,5.
Het derde kwartiel is de mediaan van de tweede helft getallen:
7, 8, 9, 11 dus Q3 = (8 + 9) : 2 = 8,5.

Oneven aantal waarnemingen

Bij een oneven aantal waarnemingen onstaat een probleem. Je kunt nooit mooi vier gelijke groepen maken van 25% van het aantal waarnemingen. Om die reden zijn er in de loop van de tijd verschillende methoden ontstaan om de grenswaarden te bepalen van de kwartielen. Wiskundigen zijn er niet over eens welke van deze methoden nu de beste is. In het onderwijs wordt meestal die van Tukey (inclusief mediaan) of die van Moor & McCabe (exclusief mediaan) gebruikt.

Voorbeeld
1, 2, 4, 5, 7, 8, 9, 10, 12, 15, 16, 17, 20
De mediaan is 9.

Methode van Tukey

Het eerste kwartiel is de mediaan van de eerste helft getallen inclusief de mediaan:
1, 2, 4, 5, 7, 8, 9 dus Q1 = 5.
Het derde kwartiel is de mediaan van de tweede helft getallen inclusief de mediaan:
9, 10, 12, 15, 16, 17, 20 dus Q3 = 15.

Methode van Moore & McCabe

Het eerste kwartiel is de mediaan van de eerste helft getallen exclusief de mediaan:
1, 2, 4, 5, 7, 8 dus Q1 = (4 + 5) : 2 = 4,5.
Het derde kwartiel is de mediaan van de tweede helft getallen exclusief de mediaan:
10, 12, 15, 16, 17 dus Q3 = (15 + 16) : 2 = 15,5.

Kwartielafstand

De kwartielafstand is het verschil tussen het eerste kwartiel en het derde kwartiel.

Voorbeeld
In de voorbeelden hierboven zijn de kwartielafstanden:
Voorbeeld even aantal: 8,5 – 3,5 = 5
Voorbeeld oneven aantal Tukey: 15 – 5 = 10
Voorbeeld oneven aantal Moore & McCabe: 15,5 – 4,5 = 11


Andere methoden om de kwartielen uit te rekenen

Hierboven werden al de methoden van Tukey en van Moore & McCabe genoemd. Tukey is de grondlegger van de boxplot, daarom wordt deze methode vaak gebruikt. Texas Instruments, die de grafische rekenmachines maakt, waar de meeste scholen in Nederland mee werken, kiest er echter voor om de methode van Moore & McCabe te gebruiken. Daarom noem ik die hier boven ook.

Als voorbeelden gebruik ik weer dezelfde reeksen waarnemingsgetallen als hierboven.

Methode van Mendenhall & Sincich

Met deze methode reken je eerst uit de hoeveelste waarneming de grenswaarde is tussen de kwartielen.
Je gebruikt daarvoor de volgende formules (waarbij n het aantal waarnemingen is):
Voor Q1: 0,25(n + 1)
Voor Q3: 0,75(n + 1)
Indien de uitkomst geen geheel getal is, rond je af naar het dichtsbijzijnde gehele getal, met de volgende uitzondering: bij Q3 rond je ,5 af naar beneden.
Het gebruik van de formules heeft ook gevolgen voor Q1 en Q3 bij een even aantal waarnemingsgetallen.
Noot: Als je je bedenkt dat je met 0,5(n + 1) uitrekent de hoeveelste waarneming de mediaan (Q2) is, begrijp je misschien beter hoe de formules tot stand zijn gekomen.

Voorbeeld even aantal waarnemingsgetallen
1, 2, 5, 6, 7, 8, 9, 11
Wij hebben 8 waarnemingen daarom krijgen we:
Voor Q1: 0,25(8 + 1) = 2,25 dus de 2e waarneming
Voor Q3: 0,75(8 + 1) = 6,75 dus de 7e waarneming
Met deze methode is Q1 = 2 en Q3 = 9.

Noot: Deze methode zorgt door het afronden dat Q1 en Q3 per se waarden uit de reeks waarnemingsgetallen zijn, dit terwijl de mediaan (Q2 = 6,5) dit niet is ...

Voorbeeld oneven aantal waarnemingsgetallen
1, 2, 4, 5, 7, 8, 9, 10, 12, 15, 16, 17, 20
Wij hebben 13 waarnemingen daarom krijgen we:
Voor Q1: 0,25(13 + 1) = 3,5 dus de 4e waarneming
Voor Q3: 0,75(13 + 1) = 10,5 dus de 10e waarneming
Met deze methode is Q1 = 5 en Q3 = 15.

Methode van Minitab

Minitab is computersoftware met de functionaliteit van Excel maar met meer mogelijkheden voor statistiek. Zij gebruiken dezelfde formules als Mendenhall & Sincich, maar ronden niet af. Daarvoor in de plaats gebruik je interpoleren. Dit betekent dat je bij 3,5 het getal halverwege de derde en vierde waarneming neemt en dat je bij 3,25 het getal op één vierde afstand tussen de derde en vierde waarneming neemt.

Voorbeeld even aantal waarnemingsgetallen
1, 2, 5, 6, 7, 8, 9, 11
Wij hebben 8 waarnemingen daarom krijgen we:
Voor Q1: 0,25(8 + 1) = 2,25
Voor Q3: 0,75(8 + 1) = 6,75
Met deze methode is:
Q1 = 0,75 × 2 + 0,25 × 5 = 2,75
Q3 = 0,25 × 8 + 0,75 × 9 = 8,75

Voorbeeld oneven aantal waarnemingsgetallen
1, 2, 4, 5, 7, 8, 9, 10, 12, 15, 16, 17, 20
Wij hebben 13 waarnemingen daarom krijgen we:
Voor Q1: 0,25(13 + 1) = 3,5
Voor Q3: 0,75(13 + 1) = 10,5
Met deze methode is Q1 = 4,5 en Q3 = 15,5.

Methode van Freund & Perles / =KWARTIEL.INC

Deze manier wordt gebruikt door Excel, als je de formule '=KWARTIEL.INC' of de oudere '=KWARTIEL' gebruikt.
Zij gebruiken de volgende formules.
Voor Q1: 0,25(n + 3)
Voor Q3: 0,25(3n + 1)
Er wordt weer interpoleren gebruikt als de uitkomst geen geheel getal is.

Voorbeeld even aantal waarnemingsgetallen
1, 2, 5, 6, 7, 8, 9, 11
Wij hebben 8 waarnemingen daarom krijgen we:
Voor Q1: 0,25(8 + 3) = 2,75
Voor Q3: 0,25(3 × 8 + 1) = 6,25
Met deze methode is:
Q1 = 0,25 × 2 + 0,75 × 5 = 4,25
Q3 = 0,75 × 8 + 0,25 × 9 = 8,25

Voorbeeld oneven aantal waarnemingsgetallen
1, 2, 4, 5, 7, 8, 9, 10, 12, 15, 16, 17, 20
Wij hebben 13 waarnemingen daarom krijgen we:
Voor Q1: 0,25(13 + 1) = 3,5
Voor Q3: 0,25(3 × 13 + 1) = 10
Met deze methode is Q1 = 4,5 en Q3 = 15.

=KWARTIEL.EXC

Je kunt er echter ook voor kiezen om in Excel de formule '=KWARTIEL.EXC' te gebruiken. In dat geval wordt de mediaan niet meegerekend bij het berekenen van de kwartielen. Als de mediaan het gemiddelde is van twee waarnemingen worden deze beide waarnemingen niet meegenomen.
Voorbeeld even aantal waarnemingsgetallen
1, 2, 5, 6, 7, 8, 9, 11
Wij hebben 8 waarnemingen, maar de middelste twee waarnemingen gelden als mediaan dus houden we 6 waarnemingen over, dat zijn: 1, 2, 5, 8, 9, 11
Voor Q1: 0,25(6 + 3) = 2,25
Voor Q3: 0,25(3 × 6 + 1) = 4,75
Met deze methode is:
Q1 = 0,75 × 2 + 0,25 × 5 = 2,75
Q3 = 0,25 × 8 + 0,75 × 9 = 8,75

Voorbeeld oneven aantal waarnemingsgetallen
1, 2, 4, 5, 7, 8, 9, 10, 12, 15, 16, 17, 20
Wij hebben 13 waarnemingen, maar de middelste is de mediaan dus houden we 12 waarnemingen over, dat zijn: 1, 2, 4, 5, 7, 8, 10, 12, 15, 16, 17, 20
Voor Q1: 0,25(12 + 1) = 3,25
Voor Q3: 0,25(3 × 12 + 1) = 9,25
Met deze methode is:
Q1 = 0,75 × 4 + 0,25 × 5 = 4,25
Q3 = 0,75 × 12 + 0,25 × 15 = 12,75

Overzicht methoden via tabel

Voorbeeld even aantal waarnemingen
Voorbeeld: 1, 2, 5, 6, 7, 8, 9, 11

Q1Q3
Tukey3,58,5
Moore & McCabe3,58,5
Mendenhall and Sincich29
Minitab2,758,75
Freund & Perles /=KWARTIEL.INC4,258,25
=KWARTIEL.EXC2,758,75

Voorbeeld oneven aantal waarnemingen
Voorbeeld: 1, 2, 4, 5, 7, 8, 9, 10, 12, 15, 16, 17, 20

Q1Q3
Tukey515
Moore & McCabe4,515,5
Mendenhall and Sincich515
Minitab4,515,5
Freund & Perles /=KWARTIEL.INC4,515
=KWARTIEL.EXC4,2512,75

Je ziet dat sommige methoden dezelfde waarden geven bij even, maar dan niet bij oneven en vice versa. Alle methoden geven dus verschillende uitkomsten.

Wat is nou de beste methode?

Misschien vind je het wel vreemd/raar/erg/vervelend dat er meerdere methoden in omloop zijn. Zeker als je in de derde klas zit van de middelbare school en zo ongeveer voor het eerst meemaakt dat er in de wiskunde geen eenduidige manier is om iets uit te rekenen. Dan wil ik je twee dingen meegeven:
Ten eerste: Het laat prachtig zien dat er bij de definitie van kwartielen (vier groepen van 25%) direct een onmogelijke opgave ontstaat bij een oneven aantal waarnemingen. Op die manier komen er vanzelf verschillende meningen en dus verschillende methoden. Echter zie je dat in de zoektocht naar betere formules voor het bepalen van die kwartielgrenzen ook verschuivingen optreden bij een reeks met een even aantal waarnemingen. Dit terwijl de manier van Tukey op het eerste gezicht zo logisch en zuiver lijkt, zeker bij een even aantal waarnemingen. Schijn bedriegt?
Ten tweede: Statistici werken meestal met grote datasets van >250 waarnemingen. De waarnemingen liggen daarom meestal zo dicht bij elkaar dat de verschillende methoden in de meeste gevallen precies dezelfde kwartielen geven. Het hele vraagstuk is meer een probleem voor de perfectionisten en de nieuwsgierige pietjes-precies. Statistici zelf kiezen gewoon op basis van voorkeur een van de genoemde methoden uit. Ter illustratie, als ik als voorbeeld 4, 4, 4, 4, 5, 5, 5, 6, 6, 6, 6 als datareeks had genomen, hadden alle methoden Q1 = 4 en Q3 = 6 gegeven.


Naar boven