Normalfordeling i statistikk - definisjon, eksempel, tolkning

Hva er normalfordeling i statistikk?

Normalfordeling er en klokkeformet frekvensfordelingskurve som hjelper til med å beskrive alle mulige verdier en tilfeldig variabel kan ta innenfor et gitt område med det meste av fordelingsområdet er i midten og få er i halene, ytterst. Denne fordelingen har to viktige parametere: gjennomsnittet (µ) og standardavviket (σ) som spiller nøkkelrolle i beregning av avkastning på eiendeler og i risikostyringsstrategi.

Hvordan tolke normalfordeling

Ovenstående figur viser at den statistiske normalfordelingen er en klokkeformet kurve. Utvalget av mulige utfall av denne fordelingen er hele reelle tall som ligger mellom -∞ til + ∞. Halekantene på bjelkekurven strekker seg på begge sider av diagrammet (+/-) uten grenser.

  • Omtrent 68% av all observasjon faller innenfor +/- ett standardavvik (σ)
  • Omtrent 95% av all observasjon faller innenfor +/- to standardavvik (σ)
  • Omtrent 99% av all observasjon faller innenfor +/- tre standardavvik (σ)

Den har en skjevhet på null (symmetri av en fordeling). Hvis fordelingen av data er asymmetrisk, er fordelingen ujevn hvis datasettet har skjevhet større enn null eller positiv skjevhet. Deretter er distribusjonens høyre hale lengre enn venstre, og for negativ skjevhet (mindre enn null) vil venstre hale være lengre enn høyre hale.

Den har en kurtose på 3 (måler peakedness av en distribusjon), noe som indikerer at distribusjonen verken er for peaked eller for tynn haler. Hvis kurtosen er mer enn tre enn fordelingen er mer topp med fetere haler, og hvis kurtosen er mindre enn tre, har den tynne haler, og toppunktet er lavere enn normalfordelingen.

Kjennetegn

  • De representerer en distribusjonsfamilie der gjennomsnitt og avvik bestemmer formen på fordelingen.
  • Gjennomsnittet, medianen og modusen til denne fordelingen er alle like.
  • Halvparten av verdiene er til venstre for sentrum og den andre halvparten til høyre.
  • Den totale verdien under standardkurven vil alltid være en.
  • Mest sannsynlig er distribusjonen i sentrum, og færre verdier ligger i halen.

Transformasjon (Z)

Sannsynlighetsdensitetsfunksjonen (PDF) for en tilfeldig variabel (X) etter fordeling er gitt av:

hvor -∞ <x <∞; -∞ <µ 0

Hvor,

  • F (x) = Normal sannsynlighet Funksjon
  • x = Tilfeldig variabel
  • µ = Gjennomsnitt for distribusjon
  • σ = Standardavvik for fordelingen
  • π = 3,14159
  • e = 2,71828

Transformasjonsformel

Hvor,

  • X = Tilfeldig variabel

Eksempler på normalfordeling i statistikk

La oss diskutere følgende eksempler.

Eksempel 1

Anta at et selskap har 10000 ansatte og flere lønnsstrukturer i henhold til jobbrollen som arbeidstakeren jobber i. Lønnene fordeles generelt med populasjonsgjennomsnittet på µ = $ 60 000, og populasjonsstandardavviket σ = $ 15000. Hva er sannsynligheten for at tilfeldig valgt ansatt har en lønn under $ 45000 årlig.

Løsning

Som vist i figuren ovenfor, må vi finne ut området under normalkurven fra 45 til venstre hale for å svare på dette spørsmålet. Vi må også bruke Z-tabellverdi for å få riktig svar.

For det første må vi konvertere det gitte gjennomsnittet og standardavviket til en standard normalfordeling med gjennomsnitt (µ) = 0 og standardavvik (σ) = 1 ved hjelp av transformasjonsformelen.

Etter konverteringen må vi slå opp Z-tabellen for å finne den tilsvarende verdien, noe som gir oss riktig svar.

Gitt,

  • Gjennomsnitt (µ) = $ 60.000
  • Standardavvik (σ) = $ 15000
  • Tilfeldig variabel (x) = $ 45000

Transformasjon (z) = (45000 - 60000/15000)

Transformasjon (z) = -1

Nå er verdien som tilsvarer -1 i Z-tabellen 0,1587, som representerer arealet under kurven fra 45 til vei mot venstre. Det indikerte at når vi tilfeldig velger en ansatt, er sannsynligheten for å tjene mindre enn $ 45000 i året 15,87%.

Eksempel 2

Nå med det samme scenariet som ovenfor, finn ut sannsynligheten for at tilfeldig valgt ansatt tjener mer enn $ 80 000 i året ved hjelp av normalfordelingen.

Løsning

Så i dette spørsmålet må vi finne ut det skyggelagte området fra 80 til høyre hale ved hjelp av samme formel.

Gitt,

  • Gjennomsnitt (µ) = $ 60.000
  • Standardavvik (σ) = $ 15000
  • Tilfeldig variabel (X) = $ 80.000

Transformasjon (z) = (80000 - 60000/15000)

Transformasjon (z) = 1,33

I henhold til Z-tabellen er ekvivalentverdien 1,33 0,9082 eller 90,82%, noe som viser at sannsynligheten for tilfeldig valg av ansatte som tjener mindre enn $ 80 000 årlig, er 90,82%.

Men ifølge spørsmålet, må vi bestemme sannsynligheten for at tilfeldige ansatte tjener mer enn $ 80 000 i året, så vi må trekke verdi fra 100.

  • Tilfeldig variabel (X) = 100% - 90,82%
  • Tilfeldig variabel (X) = 9,18%

Så sannsynligheten for at ansatte tjener mer enn $ 80 000 per år er 9,18%.

Bruker

  • Aksjemarkedets tekniske diagram er ofte en bjelkekurve, slik at analytikere og investorer kan gjøre statistiske konklusjoner om forventet avkastning og risiko for aksjer.
  • Den brukes i den virkelige verden, som å bestemme den mest sannsynlige tiden det tar av pizza-selskaper å levere pizza og mange flere virkelige applikasjoner.
  • Brukes til å sammenligne høyder for en gitt populasjonssett der folk flest vil ha en gjennomsnittsstørrelse med svært få mennesker som har over gjennomsnittet eller under gjennomsnittlig høyde.
  • De brukes til å bestemme den gjennomsnittlige akademiske ytelsen til studenter, noe som hjelper til å sammenligne studentenes rang.

Konklusjon

Normalfordeling finner applikasjoner innen datavitenskap og dataanalyse. Avanserte teknologier som kunstig intelligens og maskinlæring brukt sammen med denne distribusjonen kan gi bedre datakvalitet, noe som vil hjelpe enkeltpersoner og selskaper med effektiv beslutningstaking.

Interessante artikler...