Lineær regresjon (definisjon, eksempler) - Hvordan tolke?

Innholdsfortegnelse

Hva er en lineær regresjon?

Hva er en lineær regresjon?

Lineær regresjon er i utgangspunktet en statistisk modelleringsteknikk som brukes til å vise forholdet mellom en avhengig variabel og en eller flere uavhengige variabler. Det er en av de vanligste typene prediktiv analyse. Denne typen distribusjon dannes i en linje, derfor kalles dette lineær regresjon. I denne artikkelen tar vi eksemplene på lineær regresjonsanalyse i Excel.

For å gjøre lineær regresjonsanalyse først, må vi legge til excel-tillegg ved å følge trinnene.

Klikk på File - Options (Dette åpner Excel Options Pop up for deg).

Klikk på tillegg - Velg Excel-tillegg fra Administrer rullegardin i excel, og klikk deretter på Gå.

Dette vil åpne tilleggsprogrammer. Velg Analysis ToolPak, og klikk deretter OK.

Tillegg for dataanalyse vises under Sett inn-fanen.

La oss forstå av nedenstående eksempler på lineær regresjonsanalyse i excel.

Eksempler på lineær regresjonsanalyse

Eksempel 1

Anta at vi har månedlig salg og brukt på markedsføring for i fjor, og nå må vi forutsi fremtidig salg på grunnlag av fjorårets salg og markedsføring brukt.

Måned	Reklame	Salg
Jan.	40937	502729
Feb	42376	507553
Mar	43355	516885
Apr	44126	528347
Kan	45060	537298
Jun	49546	544066
Jul	56105	553664
Aug	59322	563201
Sep	59877	568657
Okt	60481	569384
Nov	62356	573764
Des	63246	582746

Klikk på dataanalyse under datafanen, og dette åpner dataanalysen for deg.

Velg nå Regresjon fra listen og klikk Ok.

Pop-up med regresjon åpnes.

Velg salgsområde $ C $ 1: $ C $ 13 i Y-akse-boksen, da dette er den avhengige variabelen og $ B $ 1: $ B $ 14 i X-aksen ettersom annonseringen som brukes er den uavhengige variabelen.

Merk av i etikettboksen hvis du har valgt overskrifter i data ellers, det vil gi deg feilen.

Velg Utdataområde hvis du vil få verdien på det spesifikke området på regnearket, ellers velger du Nytt regnearklag: og dette vil legge til et nytt regneark og gi deg resultatet.

Merk deretter av i Residuals-boksen og klikk Ok.

Dette vil legge til regneark og gi deg følgende resultat.

La oss forstå resultatet.

Sammendrag Output

Multiple R: Dette representerer korrelasjonskoeffisienten. Verdien 1 viser et positivt forhold, og verdien 0 viser ingen sammenheng.

R Square: R Square representerer bestemmelseskoeffisienten. Dette forteller deg hvor mange prosentpoeng som faller på regresjonslinjen. 0,49 betyr at 49% av verdiene passer til modellen

Justert R-kvadrat : Dette justeres R-kvadrat, som krever når du har mer enn en X-variabel.

Standardfeil: Dette representerer et estimat av standardavviket for feil. Dette er presisjonen som regresjonskoeffisienten måles.

Observasjoner: Dette er antall observasjoner du har tatt i et utvalg.

ANOVA - Df: Grader av frihet

SS: Sum av firkanter.

MS: vi har to MS

Regresjon MS er regresjon SS / Regresjon Df.
Residual MS er gjennomsnittlig kvadratfeil (Residual SS / Residual Df).

F: F test for nullhypotesen.

Betydning F: P-verdier knyttet til betydning

Koeffisient: Koeffisient gir deg estimatet av minste kvadrater.

T-statistikk: T-statistikk for nullhypotese vs den alternative hypotesen.

P-verdi: Dette er p-verdien for hypotesetesten.

Nedre 95% og Øvre 95%: Dette er den nedre grensen og den øvre grensen for konfidensintervallet

Residuals Output .: Vi har 12 observasjoner basert på dataene. 2 ^nd kolonne representerer Forut salgs- og 3 ^rd kolonne Residualer. Rester er i utgangspunktet forskjellen i forventet salg fra den faktiske.

Eksempel 2

Velg den forventede salgs- og markedsføringskolonnen

Gå til kartgruppen under fanen Sett inn. Velg scatter-ikonet

Dette vil sette spredningsdiagrammet inn i excel. Se bildet nedenfor

Høyreklikk på et hvilket som helst punkt, og velg deretter Legg til Trendline i Excel. Dette vil legge til en trendlinje i diagrammet ditt.

Du kan formatere trendlinjen ved å høyreklikke hvor som helst på trendlinjen og deretter velge format trendlinje.
Du kan gjøre flere forbedringer i diagrammet. dvs. formatering av trendlinje, farge og endring av tittel osv
Du kan også vise formelen på grafen ved å sjekke inn skjermformelen på diagrammet og vise R-kvadratverdi på diagrammet.

Noen flere eksempler på lineær regresjonsanalyse:

Prediksjon av paraply solgt basert på regnet skjedde i området.
Prediksjon av AC solgt basert på temperaturen om sommeren.
I løpet av eksamenssesongen økte salget av Stationary i utgangspunktet salget av eksamensguider.
Prediksjon av salg når annonsering har gjort basert på High TRP-serie hvor en annonse blir utført, Popularity of Brand Ambassador, og Footfalls på stedet der en annonse publiseres.
Salg av et hus basert på lokalitet, område og pris.

Eksempel 3

Anta at vi har ni studenter med deres IQ-nivå og antallet de scoret på test.

Student	Testpoeng	IQ
RAM	100	145
Shyam	97	140
Kul	93	130
Kappu	91	125
Raju	89	115
Vishal	86	110
Vivek	82	100
Vinay	78	95
Kumar	75	90

Trinn 1: Finn først ut de avhengige og uavhengige variablene. Her er testpoeng den avhengige variabelen, og IQ er den uavhengige variabelen ettersom testpoengene varierer ettersom IQ blir endret.

Trinn 2: Gå til Data-fanen - Klikk på Dataanalyse - Velg regresjon - klikk Ok.

Dette åpner regresjonsvinduet for deg.

Trinn 3. Inngangstestresultatområde i Inndata Y-områdeboks og IQ i Inndata X-områdeboks. (Merk av på etiketter hvis du har overskrifter i dataområdet. Velg utdataalternativer, og sjekk deretter de ønskede reststoffene. Klikk Ok.

Du får oppsummeringsoutputtet vist i bildet nedenfor.

Trinn 4: Analysere regresjonen etter sammendrag

Sammendrag Output

Multiple R: Her er korrelasjonskoeffisienten 0,99, som er veldig nær 1, noe som betyr at det lineære forholdet er veldig positivt.

R Square: R Square verdi er 0,983, noe som betyr at 98,3% av verdiene passer til modellen.

P-verdi: Her er P-verdien 1,86881E-07, som er veldig mindre enn 0,1, noe som betyr at IQ har betydelige prediktive verdier.

Se diagrammet nedenfor.

Du kan se at nesten alle punktene faller på linje eller en nærliggende trendlinje.

Eksempel 4

Vi må forutsi salg av AC basert på salg og temperatur i en annen måned.

Måned	Temp	Salg
Jan.	25	38893
Feb	28	42254
Mar	31	42845
Apr	33	47917
Kan	37	51243
Jun	40	69588
Jul	38	56570
Aug	37	50000

Følg trinnene nedenfor for å få regresjonsresultatet.

Trinn 1: Finn først ut de avhengige og uavhengige variablene. Her er salg den avhengige variabelen, og temperaturen er en uavhengig variabel ettersom salget varierer ettersom temp blir endret.

Trinn 2: Gå til Data-fanen - Klikk på Dataanalyse - Velg regresjon - klikk Ok.

Dette åpner regresjonsvinduet for deg.

Trinn 3. Inngangssalg i Inndata Y Range Box og Temp i Input X Range Box. (Merk av på etiketter hvis du har overskrifter i dataområdet. Velg utdataalternativer, og sjekk deretter de ønskede reststoffene. Klikk Ok.

Dette vil gi deg et sammendrag som vist nedenfor.

Trinn 4: Analyser resultatet.

Multiple R: Her er korrelasjonskoeffisienten 0,877, som er nær 1, noe som betyr at det lineære forholdet er positivt.

R Square: R Square verdi er 0,770, noe som betyr at 77% av verdiene passer til modellen

P-verdi: Her er P-verdien 1,86881E-07, som er veldig mindre enn 0,1, noe som betyr at IQ har betydelige prediktive verdier.

Eksempel 5

La oss nå gjøre en regresjonsanalyse for flere uavhengige variabler:

Du må forutsi salget av en mobil som skal lanseres neste år. Du har prisen og befolkningen i landene som påvirker salg av mobiltelefoner.

Mobilversjon	Salg	Mengde	Befolkning
OSS	63860	858	823
Storbritannia	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
NZ	51075	728	661
RU	49019	689	778

Følg trinnene nedenfor for å få regresjonsresultatet.

Trinn 1. Finn først ut de avhengige og uavhengige variablene. Her er salg avhengig av variabel og mengde og populasjon. Begge er uavhengige variabler ettersom salget varierer med antall og befolkning i landet.

Trinn 2. Gå til Datafane - Klikk på Dataanalyse - Velg regresjon - klikk Ok.

Dette åpner regresjonsvinduet for deg.

Trinn 3. Inngangssalg i Inndata Y Range Box og velg antall og populasjon i Input X Range Box. (Merk av på etiketter hvis du har overskrifter i dataområdet. Velg utdataalternativer, og sjekk deretter de ønskede reststoffene. Klikk Ok.

Kjør nå regresjonen ved hjelp av dataanalyse under Data-fanen. Dette vil gi deg resultatet nedenfor.

Sammendrag Output

Multiple R: Her er korrelasjonskoeffisienten 0,93, som er veldig nær 1, noe som betyr at det lineære forholdet er veldig positivt.

R Square: R Square verdi er 0,866, noe som betyr at 86,7% av verdiene passer til modellen.

Betydning F: Betydning F er mindre enn .1, noe som betyr at regresjonsligningen har betydelig prediktiv verdi.

P-verdi : Hvis du ser på P-verdi for antall og befolkning, kan du se at verdiene er mindre enn .1, noe som betyr at mengde og populasjon har betydelig prediktiv verdi. De færre P-verdiene betyr at en variabel har mer signifikante prediktive verdier.

Imidlertid har både mengde og populasjon en betydelig prediktiv verdi, men hvis du ser på P-verdi for mengde og populasjon, kan du se at mengden har en mindre P-verdi i excel enn befolkning. Dette betyr at mengde har en mer betydelig prediktiv verdi enn befolkning.

Ting å huske

Sjekk alltid avhengige og uavhengige variabler når du velger data.
Lineær regresjonsanalyse vurderer forholdet mellom gjennomsnittet av variablene.
Dette modellerer bare forholdet mellom variablene som er lineære
Noen ganger passer det ikke best for et problem i den virkelige verden. For eksempel: (Alder og lønn). Mesteparten av tiden øker lønnen når alder øker. Etter pensjonering øker imidlertid alder, men lønningene går ned.