Statistisk signifikans: definition, begreb, signifikans, regressionsligninger og hypotesetestning

2024 Forfatter: Henry Conors | [email protected]. Sidst ændret: 2024-02-12 05:26

Statistik har længe været en integreret del af livet. Folk står over for det over alt. Baseret på statistikker drages konklusioner om, hvor og hvilke sygdomme der er almindelige, hvad der er mere efterspurgt i en bestemt region eller blandt et bestemt segment af befolkningen. Selv opbygningen af politiske programmer for kandidater til statslige organer er baseret på statistiske data. De bruges også af detailkæder, når de køber varer, og producenterne er vejledt af disse data i deres forslag.

Statistik spiller en vigtig rolle i samfundslivet og påvirker hvert enkelt af dets individuelle medlemmer, selv i små ting. For eksempel, hvis de fleste ifølge statistikker foretrækker mørke farver i tøj i en bestemt by eller region, så vil det være ekstremt svært at finde en lys gul regnfrakke med et blomsterprint i lokale forretninger. Men hvilke mængderhar disse data en sådan effekt? For eksempel, hvad er "statistisk signifikant"? Hvad menes der præcist med denne definition?

Hvad er det her?

Statistik som videnskab består af en kombination af forskellige mængder og begreber. En af dem er begrebet "statistisk signifikans". Dette er navnet på værdien af variabler, sandsynligheden for, at andre indikatorer dukker op, er ubetydelig.

For eksempel tager 9 ud af 10 personer gummisko på på fødderne under en morgenvandring efter svampe i efterårsskoven efter en regnfuld nat. Sandsynligheden for, at 8 af dem på et tidspunkt tager lærredsmokkasiner på, er ubetydelig. I dette særlige eksempel er tallet 9 det, der kaldes "statistisk signifikans."

Hvis vi videreudvikler det givne praktiske eksempel, køber skobutikker derfor gummistøvler i slutningen af sommersæsonen i større mængder end på andre tidspunkter af året. Således har størrelsen af den statistiske værdi en indflydelse på det almindelige liv.

I komplekse beregninger, f.eks. når man forudsiger spredning af vira, tages der naturligvis højde for et stort antal variable. Men selve essensen af at bestemme en signifikant indikator for statistiske data er ens, uanset kompleksiteten af beregningerne og antallet af variable værdier.

Hvordan beregnes det?

Bruges ved beregning af værdien af "statistisk signifikans"-indikator for ligningen. Det vil sige, man kan argumentere for, at alt i dette tilfælde afgøres af matematik. Den enkleste beregningsmulighed er en kæde af matematiske operationer, hvori følgende parametre er involveret:

to typer resultater opnået fra undersøgelser eller undersøgelse af objektive data, såsom mængden af køb, angivet med a og b;
prøvestørrelsesindikator for begge grupper – n;
værdien af den kombinerede prøveandel - p;
standardfejl - SE.

Det næste trin er at bestemme den overordnede testscore - t, dens værdi sammenlignes med tallet 1,96. 1,96 er gennemsnitsværdien, der giver et interval på 95 % i henhold til den studerendes t-fordelingsfunktion.

Spørgsmålet opstår ofte om, hvad der er forskellen mellem værdierne af n og p. Denne nuance er let at afklare med et eksempel. Lad os sige, at den statistiske signifikans af loyalitet over for ethvert produkt eller mærke af mænd og kvinder beregnes.

I dette tilfælde vil bogstaverne blive efterfulgt af følgende:

n - antal respondenter;
p - antal tilfredse med produktet.

Antallet af interviewede kvinder i denne sag vil blive udpeget som n1. Derfor mænd - n2. Den samme værdi vil have tallene "1" og "2" af symbolet p.

Sammenligning af testresultatet med gennemsnittet af Elevens regneark bliver det, der kaldes "statistisk signifikans".

Hvad menes der med verifikation?

Resultaterne af enhver matematisk beregning kan altid kontrolleres, dette undervises børn i folkeskolen. Det er logisk at antageat da statistikken bestemmes ved hjælp af kæden af beregninger, så kontrolleres de.

Test for statistisk signifikans er dog ikke kun matematik. Statistik beskæftiger sig med en lang række variable og forskellige sandsynligheder, som langt fra altid er egnede til beregning. Det vil sige, at hvis vi vender tilbage til eksemplet med gummisko i begyndelsen af artiklen, så kan den logiske konstruktion af statistiske data, som købere af varer til butikker vil stole på, blive forstyrret af tørt og varmt vejr, hvilket ikke er typisk for efteråret. Som et resultat af dette fænomen vil antallet af mennesker, der køber gummistøvler, falde, og forretninger vil lide tab. Selvfølgelig er en matematisk formel ikke i stand til at forudse en vejranomali. Dette øjeblik kaldes "fejl".

Værktøjer til statistisk datavisualisering

Det er kun sandsynligheden for sådanne fejl og tager hensyn til kontrollen af niveauet af beregnet signifikans. Den tager højde for både beregnede indikatorer og accepterede signifikansniveauer samt mængder, der traditionelt kaldes hypoteser.

Hvad er betydningsniveauet?

Begrebet "niveau" er inkluderet i hovedkriterierne for statistisk signifikans. Det bruges i anvendt og praktisk statistik. Dette er en slags værdi, der tager højde for sandsynligheden for mulige afvigelser eller fejl.

Niveauet er baseret på identifikation af forskelle i færdige prøver, det giver dig mulighed for at fastslå deres betydning eller omvendt tilfældighed. Dette begreb har ikke kun digitale betydninger, men også deres ejendommelige fortolkninger. De forklarerhvordan du skal forstå værdien, og selve niveauet bestemmes ved at sammenligne resultatet med gennemsnitsindekset, dette afslører graden af pålidelighed af forskellene.

Således kan vi forestille os konceptet med et niveau ganske enkelt - det er en indikator for en acceptabel, sandsynlig fejl eller fejl i konklusionerne fra de opnåede statistiske data.

Hvilke niveauer af betydning bruges?

Den statistiske signifikans af fejlsandsynlighedskoefficienter i praksis er baseret på tre grundlæggende niveauer.

Det første niveau er den tærskel, hvor værdien er 5 %. Det vil sige, at fejlsandsynligheden ikke overstiger signifikansniveauet på 5 %. Det betyder, at tilliden til upåklageligheden og ufejlbarligheden af de konklusioner, der er lavet på grundlag af statistiske forskningsdata, er 95%.

Det andet niveau er tærsklen på 1 %. I overensstemmelse hermed betyder dette tal, at man kan lade sig vejlede af data opnået under statistiske beregninger med 99 % sikkerhed.

Tredje niveau - 0,1 %. Med denne værdi er sandsynligheden for en fejl lig med en brøkdel af en procent, dvs. fejl er praktisk t alt elimineret.

Hvad er en hypotese i statistik?

Fejl som begreb er opdelt i to områder, vedrørende accept eller afvisning af nulhypotesen. En hypotese er et begreb, bag hvilket der ifølge definitionen er skjult et sæt undersøgelsesresultater, andre data eller udsagn. Det vil sige en beskrivelse af sandsynlighedsfordelingen af noget relateret til emnet statistisk regnskab.

Der er to hypoteser i simple beregninger - nul og alternativ. Forskellen mellem dem er, at nulhypotesen er baseret på ideen om, at der ikke er nogen fundamentale forskelle mellem de prøver, der er involveret i at bestemme den statistiske signifikans, og den alternative er fuldstændig modsat den. Det vil sige, at den alternative hypotese er baseret på tilstedeværelsen af en signifikant forskel i disse prøver.

Hvad er fejlene?

Fejl som begreb i statistik står i direkte proportion til accepten af den eller den hypotese som sand. De kan opdeles i to retninger eller typer:

den første type skyldes accepten af nulhypotesen, som viste sig at være forkert;
second - forårsaget af at følge alternativet.

Den første type fejl kaldes falsk positiv og er ret almindelig på alle områder, hvor der bruges statistik. Følgelig kaldes fejlen af den anden type en falsk negativ.

Hvorfor har vi brug for regression i statistik?

Den statistiske signifikans af regression er, at det med dens hjælp er muligt at fastslå, hvor meget modellen af forskellige afhængigheder beregnet på basis af dataene svarer til virkeligheden; giver dig mulighed for at identificere tilstrækkeligheden eller mangelen på faktorer til regnskab og konklusioner.

Regressionsværdien bestemmes ved at sammenligne resultaterne med dataene i Fisher-tabellerne. Eller ved at bruge variansanalyse. Regressionsindikatorer er vigtige hvornårkomplekse statistiske undersøgelser og beregninger, der involverer et stort antal variable, tilfældige data og sandsynlige ændringer.