Hipotezės bandymas

Paprastas ir trumpas hipotezės tikrinimo pamoka naudojant Python programą

Vaizdas iš: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

Šiame dienoraštyje pateiksiu trumpą hipotezės tikrinimo statistiniais metodais Python'e pamoką. Hipotezių tikrinimas yra mokslinio metodo, su kuriuo mes visi esame susipažinę, dalis, to, ko mes turbūt išmokome ankstyvaisiais švietimo metais. Tačiau statistikoje daugelis eksperimentų atliekama su populiacijos imtimi.

„Apskritai norint nustatyti, kas stebimų pavyzdžių rinkinyje pasakoja apie siūlomą paaiškinimą, reikia padaryti išvadą arba, kaip mes vadiname statistikais, priežastį su neapibrėžtumu. Priežastis neapibrėžtumu yra statistinių išvadų esmė ir paprastai atliekama naudojant metodą, vadinamą nulinės hipotezės reikšmingumo patikrinimu. “ -Krosnys.

Kaip šio tinklaraščio pavyzdį panaudosiu „Kaggle“ rastą Europos futbolo duomenų rinkinį ir atliksiu hipotezės testą. Duomenų rinkinį galite rasti čia.

1 žingsnis

Padarykite pastebėjimą

Pirmasis žingsnis yra stebėti reiškinius. Tokiu atveju bus: Ar gynybos agresija daro įtaką vidutiniškai leidžiamiems tikslams?

2 žingsnis

Išnagrinėkite tyrimus

Geras mąstymas yra protingesnis, o ne sunkiau. Vienas geras dalykas, kurį reikia padaryti, yra pamatyti, ar jau yra tyrimų, susijusių su jūsų stebėjimu. Jei taip, tai gali padėti atsakyti į mūsų klausimą. Jei žinosite apie jau atliktus tyrimus ar eksperimentus, padėsime geriau susisteminti savo eksperimentą, o gal net atsakyti į mūsų klausimą ir pirmiausia nereikės atlikti eksperimento.

3 žingsnis

Suformuokite nulinę hipotezę ir alternatyvią hipotezę

Alternatyvi hipotezė yra mūsų išsilavinęs spėjimas, o niekinė hipotezė yra tiesiog priešinga. Jei alternatyvi hipotezė teigia, kad tarp dviejų kintamųjų yra reikšmingas ryšys, nulinė hipotezė teigia, kad reikšmingo ryšio nėra.

Mūsų negaliojanti hipotezė bus: Komandų, kurių gynybinės agresijos reitingas yra didesnis arba lygus 65, palyginti su komandomis, jaunesnėmis nei 65, statistiniai tikslai negali skirtis.

Alternatyvi hipotezė: Yra statistinis įvarčių, skirtų komandoms, kurių gynybinės agresijos reitingas yra didesnis ar lygus 65 ar didesnis, skirtumas, palyginti su komandomis, jaunesnėmis nei 65.

4 žingsnis

Nustatykite, ar mūsų hipotezė yra vienos ar dviejų pusių testas.

Vienpusis testas

„Jei naudojate 0,05 reikšmingumo lygį, vienpusis testas leidžia visam jūsų alfa išbandyti statistinį reikšmingumą viena linkme.“ Vienpusio testo pavyzdys būtų „Futbolo komandos, kurių agresijos įvertinimas yra mažesnis nei 65, leidžia statistiškai reikšmingai daugiau įvarčių nei komandos, kurių reitingas yra žemesnis nei 65“.

Dvipusis testas

„Jei naudojate 0,05 reikšmingumo lygį, dvipusis testas leidžia pusei jūsų alfa patikrinti statistinį reikšmingumą viena kryptimi, o pusei jūsų alfa - tirti statistinį reikšmingumą kita kryptimi. Tai reiškia, kad 0,025 yra kiekvienoje jūsų bandymo statistikos pasiskirstymo uodegoje. “

Atlikdami dvipusį testą, jūs bandysite statistinį reikšmingumą abiem kryptimis. Mūsų atveju mes testuojame statistinį reikšmingumą abiem kryptimis.

5 žingsnis

Nustatykite slenksčio reikšmingumo lygį (alfa)

(alfa reikšmė): ribinis slenkstis, kurį pasiekus mes galime atmesti nulinę hipotezę. Alfa reikšmė gali būti bet kuri reikšmė, kurią nustatome nuo 0 iki 1. Tačiau moksle dažniausia alfa reikšmė yra 0,05. Jei alfa yra 0,05, reiškia, kad mes galime atmesti nulinę hipotezę, net jei yra 5% ar mažesnė tikimybė, kad rezultatai atsirado dėl atsitiktinumų.

P vertė: apskaičiuota tikimybė, kad atsitiktinai pateks į šiuos duomenis.

Jei apskaičiuotume p vertę ir ji būtų lygi 0,03, tai galime suprasti kaip sakančią: „Yra 3% tikimybė, kad rezultatai, kuriuos matau, iš tikrųjų atsiranda dėl atsitiktinumų ar grynos sėkmės“.

Vaizdas iš „Learn.co“

Mūsų tikslas yra apskaičiuoti p vertę ir palyginti ją su mūsų alfa. Kuo žemesnė alfa, tuo griežtesnis testas.

6 žingsnis

Atlikite mėginių ėmimą

Čia yra mūsų duomenų rinkinys, vadinamas futbolu. Testui atlikti reikia tik dviejų duomenų rinkinio stulpelių: „team_def_aggr_rating“ ir céles_allowed. Išfiltruosime juos į šiuos du stulpelius, tada sukursime du pogrupius komandoms, kurių gynybinės agresijos reitingas yra didesnis ar lygus 65, ir komandoms, kurių gynybinės agresijos reitingas yra mažesnis nei 65.

Tiesiog norėčiau pakartoti mūsų hipotezės testą:

Gynybos agresijos poveikis vidutiniškai leidžiamiems tikslams. Nulinė hipotezė: Komandų, kurių gynybinės agresijos reitingas yra didesnis nei arba lygus 65, komandų, kurių gynybos agresijos reitingas yra didesnis nei arba lygus 65, statistinis skirtumas netaikomas. Alternatyvi hipotezė: Yra statistinis įvarčių, kuriuos leidžia pasiekti komandos, kurių gynybos agresijos įvertinimas yra didesnis, skirtumai. mažesnis arba lygus 65, palyginti su komandomis, jaunesnėmis nei 65 metų. Dvipusis bandymo alfa testas: 0,05

Dabar turime du pavyzdžių sąrašus, kuriuose galime atlikti statistinius testus. Prieš šį veiksmą nubraižysiu du paskirstymus, kad gautume vaizdą.

7 žingsnis

Atlikite dviejų mėginių T testą

Dviejų imčių t-testas naudojamas norint nustatyti, ar dviejų populiacijų vidurkis yra lygus. Tam naudosime Python modulį, vadinamą statsmodels. Per daug nesigilinsiu į statistikos modelius, bet dokumentus galite pamatyti čia.

8 žingsnis

Įvertinkite ir padarykite išvadą

Prisiminkite, kad mūsų nustatyta alfa buvo a = 0,05. Kaip matome iš savo bandymų rezultatų, kad p-vertė yra mažesnė už mūsų alfa vertę. Mes galime atmesti mūsų niekinę hipotezę ir 95% pasitikėjimu sutikti su mūsų alternatyvia hipoteze.

Ačiū, kad skaitėte! Norėdami sužinoti daugiau apie hipotezių tikrinimą, galite sužinoti apie šį grupės projektą „GitHub“. Aš čia dalyvavau atliekant hipotezės testavimą.

Šaltiniai:

Orkaitės, Matas. „Statistika ir„ mokslinis metodas “, gauta iš„ YourStatsGuru “. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Įvadas į SAS. UCLA: statistinių konsultacijų grupė. iš https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (pasiekiama gegužės mėn. 2019 m. 16 d.).

Inžinerinės statistikos vadovas. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm