Lineær regresjon (definisjon, eksempler) - Hvordan tolke?

Innholdsfortegnelse

Hva er en lineær regresjon?

Lineær regresjon er i utgangspunktet en statistisk modelleringsteknikk som brukes til å vise forholdet mellom en avhengig variabel og en eller flere uavhengige variabler. Det er en av de vanligste typene prediktiv analyse. Denne typen distribusjon dannes i en linje, derfor kalles dette lineær regresjon. I denne artikkelen tar vi eksemplene på lineær regresjonsanalyse i Excel.

For å gjøre lineær regresjonsanalyse først, må vi legge til excel-tillegg ved å følge trinnene.

Klikk på File - Options (Dette åpner Excel Options Pop up for deg).

Klikk på tillegg - Velg Excel-tillegg fra Administrer rullegardin i excel, og klikk deretter på Gå.

Dette vil åpne tilleggsprogrammer. Velg Analysis ToolPak, og klikk deretter OK.

Tillegg for dataanalyse vises under Sett inn-fanen.

La oss forstå av nedenstående eksempler på lineær regresjonsanalyse i excel.

Eksempler på lineær regresjonsanalyse

Eksempel 1

Anta at vi har månedlig salg og brukt på markedsføring for i fjor, og nå må vi forutsi fremtidig salg på grunnlag av fjorårets salg og markedsføring brukt.

Måned Reklame Salg
Jan. 40937 502729
Feb 42376 507553
Mar 43355 516885
Apr 44126 528347
Kan 45060 537298
Jun 49546 544066
Jul 56105 553664
Aug 59322 563201
Sep 59877 568657
Okt 60481 569384
Nov 62356 573764
Des 63246 582746

Klikk på dataanalyse under datafanen, og dette åpner dataanalysen for deg.

Velg nå Regresjon fra listen og klikk Ok.

Pop-up med regresjon åpnes.

Velg salgsområde $ C $ 1: $ C $ 13 i Y-akse-boksen, da dette er den avhengige variabelen og $ B $ 1: $ B $ 14 i X-aksen ettersom annonseringen som brukes er den uavhengige variabelen.

Merk av i etikettboksen hvis du har valgt overskrifter i data ellers, det vil gi deg feilen.

Velg Utdataområde hvis du vil få verdien på det spesifikke området på regnearket, ellers velger du Nytt regnearklag: og dette vil legge til et nytt regneark og gi deg resultatet.

Merk deretter av i Residuals-boksen og klikk Ok.

Dette vil legge til regneark og gi deg følgende resultat.

La oss forstå resultatet.

Sammendrag Output

Multiple R: Dette representerer korrelasjonskoeffisienten. Verdien 1 viser et positivt forhold, og verdien 0 viser ingen sammenheng.

R Square: R Square representerer bestemmelseskoeffisienten. Dette forteller deg hvor mange prosentpoeng som faller på regresjonslinjen. 0,49 betyr at 49% av verdiene passer til modellen

Justert R-kvadrat : Dette justeres R-kvadrat, som krever når du har mer enn en X-variabel.

Standardfeil: Dette representerer et estimat av standardavviket for feil. Dette er presisjonen som regresjonskoeffisienten måles.

Observasjoner: Dette er antall observasjoner du har tatt i et utvalg.

ANOVA - Df: Grader av frihet

SS: Sum av firkanter.

MS: vi har to MS

  • Regresjon MS er regresjon SS / Regresjon Df.
  • Residual MS er gjennomsnittlig kvadratfeil (Residual SS / Residual Df).

F: F test for nullhypotesen.

Betydning F: P-verdier knyttet til betydning

Koeffisient: Koeffisient gir deg estimatet av minste kvadrater.

T-statistikk: T-statistikk for nullhypotese vs den alternative hypotesen.

P-verdi: Dette er p-verdien for hypotesetesten.

Nedre 95% og Øvre 95%: Dette er den nedre grensen og den øvre grensen for konfidensintervallet

Residuals Output .: Vi har 12 observasjoner basert på dataene. 2 nd kolonne representerer Forut salgs- og 3 rd kolonne Residualer. Rester er i utgangspunktet forskjellen i forventet salg fra den faktiske.

Eksempel 2

Velg den forventede salgs- og markedsføringskolonnen

Gå til kartgruppen under fanen Sett inn. Velg scatter-ikonet

Dette vil sette spredningsdiagrammet inn i excel. Se bildet nedenfor

Høyreklikk på et hvilket som helst punkt, og velg deretter Legg til Trendline i Excel. Dette vil legge til en trendlinje i diagrammet ditt.

  • Du kan formatere trendlinjen ved å høyreklikke hvor som helst på trendlinjen og deretter velge format trendlinje.
  • Du kan gjøre flere forbedringer i diagrammet. dvs. formatering av trendlinje, farge og endring av tittel osv
  • Du kan også vise formelen på grafen ved å sjekke inn skjermformelen på diagrammet og vise R-kvadratverdi på diagrammet.

Noen flere eksempler på lineær regresjonsanalyse:

  1. Prediksjon av paraply solgt basert på regnet skjedde i området.
  2. Prediksjon av AC solgt basert på temperaturen om sommeren.
  3. I løpet av eksamenssesongen økte salget av Stationary i utgangspunktet salget av eksamensguider.
  4. Prediksjon av salg når annonsering har gjort basert på High TRP-serie hvor en annonse blir utført, Popularity of Brand Ambassador, og Footfalls på stedet der en annonse publiseres.
  5. Salg av et hus basert på lokalitet, område og pris.

Eksempel 3

Anta at vi har ni studenter med deres IQ-nivå og antallet de scoret på test.

Student Testpoeng IQ
RAM 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Trinn 1: Finn først ut de avhengige og uavhengige variablene. Her er testpoeng den avhengige variabelen, og IQ er den uavhengige variabelen ettersom testpoengene varierer ettersom IQ blir endret.

Trinn 2: Gå til Data-fanen - Klikk på Dataanalyse - Velg regresjon - klikk Ok.

Dette åpner regresjonsvinduet for deg.

Trinn 3. Inngangstestresultatområde i Inndata Y-områdeboks og IQ i Inndata X-områdeboks. (Merk av på etiketter hvis du har overskrifter i dataområdet. Velg utdataalternativer, og sjekk deretter de ønskede reststoffene. Klikk Ok.

Du får oppsummeringsoutputtet vist i bildet nedenfor.

Trinn 4: Analysere regresjonen etter sammendrag

Sammendrag Output

Multiple R: Her er korrelasjonskoeffisienten 0,99, som er veldig nær 1, noe som betyr at det lineære forholdet er veldig positivt.

R Square: R Square verdi er 0,983, noe som betyr at 98,3% av verdiene passer til modellen.

P-verdi: Her er P-verdien 1,86881E-07, som er veldig mindre enn 0,1, noe som betyr at IQ har betydelige prediktive verdier.

Se diagrammet nedenfor.

Du kan se at nesten alle punktene faller på linje eller en nærliggende trendlinje.

Eksempel 4

Vi må forutsi salg av AC basert på salg og temperatur i en annen måned.

Måned Temp Salg
Jan. 25 38893
Feb 28 42254
Mar 31 42845
Apr 33 47917
Kan 37 51243
Jun 40 69588
Jul 38 56570
Aug 37 50000

Følg trinnene nedenfor for å få regresjonsresultatet.

Trinn 1: Finn først ut de avhengige og uavhengige variablene. Her er salg den avhengige variabelen, og temperaturen er en uavhengig variabel ettersom salget varierer ettersom temp blir endret.

Trinn 2: Gå til Data-fanen - Klikk på Dataanalyse - Velg regresjon - klikk Ok.

Dette åpner regresjonsvinduet for deg.

Trinn 3. Inngangssalg i Inndata Y Range Box og Temp i Input X Range Box. (Merk av på etiketter hvis du har overskrifter i dataområdet. Velg utdataalternativer, og sjekk deretter de ønskede reststoffene. Klikk Ok.

Dette vil gi deg et sammendrag som vist nedenfor.

Trinn 4: Analyser resultatet.

Multiple R: Her er korrelasjonskoeffisienten 0,877, som er nær 1, noe som betyr at det lineære forholdet er positivt.

R Square: R Square verdi er 0,770, noe som betyr at 77% av verdiene passer til modellen

P-verdi: Her er P-verdien 1,86881E-07, som er veldig mindre enn 0,1, noe som betyr at IQ har betydelige prediktive verdier.

Eksempel 5

La oss nå gjøre en regresjonsanalyse for flere uavhengige variabler:

Du må forutsi salget av en mobil som skal lanseres neste år. Du har prisen og befolkningen i landene som påvirker salg av mobiltelefoner.

Mobilversjon Salg Mengde Befolkning
OSS 63860 858 823
Storbritannia 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Følg trinnene nedenfor for å få regresjonsresultatet.

Trinn 1. Finn først ut de avhengige og uavhengige variablene. Her er salg avhengig av variabel og mengde og populasjon. Begge er uavhengige variabler ettersom salget varierer med antall og befolkning i landet.

Trinn 2. Gå til Datafane - Klikk på Dataanalyse - Velg regresjon - klikk Ok.

Dette åpner regresjonsvinduet for deg.

Trinn 3. Inngangssalg i Inndata Y Range Box og velg antall og populasjon i Input X Range Box. (Merk av på etiketter hvis du har overskrifter i dataområdet. Velg utdataalternativer, og sjekk deretter de ønskede reststoffene. Klikk Ok.

Kjør nå regresjonen ved hjelp av dataanalyse under Data-fanen. Dette vil gi deg resultatet nedenfor.

Sammendrag Output

Multiple R: Her er korrelasjonskoeffisienten 0,93, som er veldig nær 1, noe som betyr at det lineære forholdet er veldig positivt.

R Square: R Square verdi er 0,866, noe som betyr at 86,7% av verdiene passer til modellen.

Betydning F: Betydning F er mindre enn .1, noe som betyr at regresjonsligningen har betydelig prediktiv verdi.

P-verdi : Hvis du ser på P-verdi for antall og befolkning, kan du se at verdiene er mindre enn .1, noe som betyr at mengde og populasjon har betydelig prediktiv verdi. De færre P-verdiene betyr at en variabel har mer signifikante prediktive verdier.

Imidlertid har både mengde og populasjon en betydelig prediktiv verdi, men hvis du ser på P-verdi for mengde og populasjon, kan du se at mengden har en mindre P-verdi i excel enn befolkning. Dette betyr at mengde har en mer betydelig prediktiv verdi enn befolkning.

Ting å huske

  • Sjekk alltid avhengige og uavhengige variabler når du velger data.
  • Lineær regresjonsanalyse vurderer forholdet mellom gjennomsnittet av variablene.
  • Dette modellerer bare forholdet mellom variablene som er lineære
  • Noen ganger passer det ikke best for et problem i den virkelige verden. For eksempel: (Alder og lønn). Mesteparten av tiden øker lønnen når alder øker. Etter pensjonering øker imidlertid alder, men lønningene går ned.

Interessante artikler...