Outlier-formelen gir et grafisk verktøy for å beregne dataene som ligger utenfor det gitte distribusjonssettet som kan være indre eller ytre side avhengig av variablene.
Hva er Outlier Formula?
En outlier er datapunktet for den gitte prøven eller gitt observasjon eller i en fordeling som skal ligge utenfor det generelle mønsteret. En vanlig brukt regel som sier at et datapunkt vil bli betraktet som en outlier hvis det har mer enn 1,5 IQR under første kvartil eller over tredje kvartil.
Sagt på en annen måte, skal lave avvikere ligge under Q1-1.5 IQR og høye avvikere skal ligge Q3 + 1.5IQR
Man trenger å beregne median, kvartiler, inkludert IQR, Q1 og Q3.
Outlierformelen er representert som følger,
Formelen for Q1 = ¼ (n + 1) th begrepet Formelen for Q3 = ¾ (n + 1) th begrepet Formelen for Q2 = Q3 - Q1

Steg for trinn-beregning av Outlier
Trinnene nedenfor må følges for å beregne Outlier.
- Trinn 1: Beregn først kvartilene, dvs. Q1, Q2 og interkvartil
- Trinn 2: Beregn nå verdien Q2 * 1.5
- Trinn 3: Trekk nå Q1-verdien fra verdien beregnet i trinn 2
- Trinn 4: Legg til Q3 med verdien beregnet i trinn 2
- Trinn 5: Opprett verdiområdet beregnet i trinn 3 og trinn 4
- Trinn 6: Ordne dataene i stigende rekkefølge
- Trinn 7: Sjekk om det er noen verdier som ligger under eller høyere enn området som ble opprettet i trinn 5.
Eksempel
Tenk på et datasett med følgende tall: 10, 2, 4, 7, 8, 5, 11, 3, 12. Du må beregne alle outliers.
Løsning:
Først må vi ordne data i stigende rekkefølge for å finne medianen, som vil være Q2 for oss.
2, 3, 4, 5, 7, 8, 10, 11, 12

Siden antallet observasjoner er merkelig, som er 9, vil medianen ligge på en femte posisjon, som er 7, og det samme vil være Q2 for dette eksemplet.
Derfor er beregningen av Q1 som følger -
Q1 = ¼ (9 + 1)
= ¼ (10)
Q1 blir -

Q1 = 2,5 termin
Dette betyr at Q1 er gjennomsnittet av de to nd og 3 rd stilling av observasjonene, som er 3 og 4 her, og et gjennomsnitt av de samme (3 + 4) / 2 = 3,5
Derfor er beregningen av Q3 som følger -

Q3 = ¾ (9 + 1)
= ¾ (10)
Q3 blir -

Q3 = 7,5 termin
Dette betyr at Q3 er gjennomsnittet av 7 th og 8 th stilling av observasjonene, som er 10 og 11 her, og et gjennomsnitt av de samme (10 + 11) / 2 = 10.5
Nå skal lave avvikere ligge under Q1-1.5IQR, og høye avvikere skal ligge Q3 + 1.5IQR
Verdiene er altså 3,5 - (1,5 * 7) = -7 og høyere område er 10,5 + (1,5 * 7) = 110,25.
Siden det ikke er noen observasjoner som ligger over eller under 110,25 og -7, har vi ikke noen avvik i dette eksemplet.
Eksempel på Outlier Formula i Excel (med Excel-mal)
Kreative coachingtimer vurderer å belønne studenter som er på topp 25%. De ønsker imidlertid å unngå eventuelle outliers. Dataene er for de 25 studentene. Bruk Outlier-ligningen for å bestemme om det er en outlier?
Løsning:
Nedenfor er gitt data for å beregne outlier.

Antallet observasjoner her er 25, og vårt første trinn ville være å konvertere rådataene i stigende rekkefølge.
Median vil være -

Medianverdien = ½ (n + 1)
= ½ = ½ (26)
= 13 th sikt
Q2 eller median er 68,00
Som er 50% av befolkningen.
Q1 blir -

Q1 = ¼ (n + 1) term
= ¼ (25 + 1)
= ¼ (26)
= 6,5 th sikt, noe som er ekvivalent med 7 th sikt
Q1 er 56,00, som er 25% lavere
Q3 blir -

Til slutt, Q3 = ¾ (n + 1) term
= ¾ (26)
= 19,50 begrep
Her gjennomsnitts må tas, noe som er av 19 th og 20 th betingelser som er 77 og 77, og gjennomsnittet av samme er (77 + 77) / 2 = 77,00
Q3 er 77, som er de 25% beste
Lav rekkevidde
Nå skal lave avvikere ligge under Q1-1.5IQR, og høye avvikere skal ligge Q3 + 1.5IQR

High Range -

Verdiene er altså 56 - (1,5 * 68) = -46 og høyere område er 77 + (1,5 * 68) = 179.
Det er ingen outliers.
Relevans og bruksområder
Formler for avvikere er veldig viktig å vite, da det kan være data som vil bli skjevt av en slik verdi. Ta et eksempel på observasjon 2, 4, 6, 101, og nå hvis noen tar et gjennomsnitt av disse verdiene, vil det være 28,25, men 75% av observasjonene ligger under 7, og derfor vil man være en feil beslutning om observasjoner av dette eksemplet.
Det kan bemerkes her at 101 tydelig ser ut til å skissere, og hvis dette fjernes, vil gjennomsnittet være 4, noe som sier om verdiene eller observasjonene at de ligger i området 4. Derfor er det veldig viktig å gjennomføre dette beregning for å unngå misbruk av ledende informasjon om dataene. Disse blir mye brukt av statistikere over hele verden når de forsker.