Tölfræði 10.52.04


Yfirlit yfir forverkefni haustið 2001

Verkefnin sýndu almennt séð að nemendur voru færir um að leysa verkefnið eins og það var lagt upp. Engu að síður var hægt að gera ýmsar athugasemdir eins og fram kemur hér að neðan. Markmið okkar, sameiginlega og hvers og eins, eru að hnika þessum atriðum í rétta átt.

Myndræn framsetning

Meðaltöl voru oftast birt á formi súlurita. Súlurit henta almennt illa til þessara nota, þótt þetta sé algeng notkun þeirra. Best henta súlurit fyrir fjöldatölur þar sem þær hafa ákveðinn núllpunkt sem viðmiðun.

Súlur skynjar augun sem lengd eða fjarlægð frá grunnlínunni. Meðaltöl er sjaldnast hægt að setja upp á þann hátt nema í þeim fáu tilvikum þar sem hægt er að láta lóðrétta ásinn byrja á núlli. Í stað súlurita hentar að nota myndrit eins og línurit eða skylda framsetningu. Þau skynjar augað sem mynstur, þ.e. ákveðin meðaltöl eru hærri eða lægri en önnur. Þetta mynstur grípur augað og sér í örskotsstundu hvert mynstrið er. Mynstrið verður eðlilega það sama hver sem grunnpunkturinn er fyrir lóðrétta ásinn, þ.e. hann þarf ekki að byrja á núlli.

Stöplarit henta til að sýna dreifingu breytu. Það hefur þó alvarlegan galla sem felst í því að lögun dreifingarinnar, eins og hún birtist á stöplaritinu, fer að mjög miklu leyti eftir því hve margir stöplar eru notaðir. Sumir áttu í erfiðleikum með fjölda stöpla í stöplaritunum, aðallega vegna þess að of fáir stöplar voru notaðir.

Önnur vandamál komu upp í tengslum við myndrit. Stundum voru ásar ekki auðkenndir en það er nauðsynlegt upp á rétta skynjun og skiljanleika myndarinnar. Í öðrum tilfellum vantaði lýsandi titil og númer á myndritin.

Töflur

Töflur voru oftar en ekki illa settar upp. Stundum voru þær afritaðar beint úr tölfræðiforritum svo sem SPSS. Slíkar töflur eru þó undantekningarlítið þannig að þær henta alls ekki ritaðri greinargerð. Í rituðum texta þurfa allar töflur að vera vel formaðar og ígrundaðar og eins einfaldar að allri framsetningu og mögulegt er.

Þetta er tilefni til að ræða hvaða upplýsingar ættu að vera í töflum. Hér hef ég í huga þessar algengu töflur sem gefa upp meðaltöl og sambærilega upplýsingar fyrir hólf sniðsins. Yfirleitt er miðað við að auk meðaltala séu gefin upp staðalfrávik og fjöldatölur, þó á þessu séu margar undantekningar. Það er hreint ekki auðvelt að koma öllum þessum upplýsingum fyrir svo vel fari, en með því að skoða dæmi úr rannsóknargreinum má fá hugmyndir um mögulegar útfærslur.

Rétt er að árétta að töflur (og myndir) þarfnast yfirlegu. Það þarf að ígrunda vel hvaða upplýsingar þær eiga að veita og gæta þess að ofhlaða þær ekki. Birting hrárra niðurstaðna í töflum, t.d. flókinna dreifigreiningartaflna teknar nánast beint úr tölfræðiforritum, er sjaldnast einföld og árangursrík leið til að koma nauðsynlegum upplýsingum til lesandans. Slíkar töflur geta verið sjálfssagðar og gagnlegar en þá þarf að leggjast yfir þær, forma þær vel og gæta þess að taflan innihaldi nauðsynlegar upplýsingar og ekkert umfram það.

Sá tími sem fer í að vanda myndir og töflur kemur yfirleitt til baka þegar textinn er ritaður. Velgerðar töflur og myndir geta stytt textann verulega auk þess sem höfundur textans hefur formað aðalatriðin betur í huga sér við það að ákveða hvernig töflum og myndritum skuli hagað.

Framsetning tölfræðilegra niðurstaðna

Þegar niðurstöður tölfræðiprófa eru kynntar, þarf að gefa upp talnalega niðurstöðu, frígráður og marktekt. Þetta þarf einnig að koma fram þegar prófið er ómarktækt en oft skorti á það í verkefnunum. Einnig voru frígráður stundum rangt tilgreindar eða jafnvel sleppt. Þessi atriði þurfa að vera í lagi.

Þetta tengist því hvernig við fjöllum um tölfræðilegar niðurstöður. Ef próf er marktækt, er okkur stætt á því að fullyrða að núlltilgátan sé röng. Engu að síður gætum við haft rangt fyrir okkur þannig að núlltilgátan sé rétt þó svo að prófið hafi verið marktækt.

Á sama hátt þá megum við ekki staðhæfa að núlltilgátan sé rétt þegar prófið er ómarktækt. Núlltilgátan gæti ýmist verið rétt eða röng, við einfaldlega getum ekkert staðhæft um það. Við þurfum því að forðast orðalag sem gefur til kynna að ómarktækt próf merki að núlltilgátan sé rétt. Við höfum engin efni til slíkrar ályktunar.

Andstyggilegheit gagnanna

Þetta voru fremur aðlaðandi gögn þó finna mætti stöku andstyggilegheit. Í ljós kom að nemendur höfðu, með heiðarlegum undantekningum, litla sem enga færni í að leita uppi og sýna andstyggilegheit. Þetta skapar í sjálfu sér engan vanda því eitt markmið námskeiðsins er að ræða þá eiginleika gagnanna sem skipta máli fyrir dreifigreiningu og hvaða eiginleikar eru varasamir.

Ýmis meint andstyggilegheit voru þó tilnefnd og höfðu nemendur þar ýmislegt til síns máls. Þó var víða máli hallað og jafnvel örlaði stundum á hreinum misskilningi. Hér vil ég nefna nokkur atriði sem þó hljóta að vera í áframhaldandi umræðu í vetur.

Ójafn fjöldi getur verið vandi í dreifigreiningu en þó síður í einhliða en marghliða greiningu. Algengt var að það hinn ójafni fjöldi í hópum sniðsins væri litin hornauga og jafnvel talið alvarlegt brot á forsendum dreifigreiningar. Þetta fer víðsfjarri; almennt séð er ekkert því til fyrirstöðu að vinna úr gögnum þar sem ójafnt er í hólfum. Þó er það rétt að við vissar aðstæður getur ójafn fjöldi skapað erfiðleika.

Ójafn fjöldi í hólfum sniðsins verður að jafnaði til að minnka afköst (power). Ef fjöldi í hólfum er valinn markvisst, er þó einnig hægt að auka afköst verulega (McClelland, 1997).

Ójafn fjöldi minnkar traustleika (robustness) dreifigreiningar, þ.e. hún verður næmari fyrir því ef forsendur hennar eru ekki fyrir hendi. Því er mikilvægara en ella að huga að því hvort villan er normaldreifð og einsleit (jöfn; homegeneous; homoscedastic). Ef þær forsendur eru uppfylltar er úrvinnslan fyllilega réttmæt en hafa ber jákvæð eða neikvæð áhrif á afköst í huga.

Úrtaksstærð var tilefni ýmissa athugasemda. Stór úrtök auka almennt séð traustleika en einnig eykst nákvæmni spátalna (estimates) og afköst. Að öðru leyti er ekkert rangt við það að nota lítil úrtök. Þvert á móti getur það verið skynsamlegt t.d. ef áhrif (effect) eru mikil.

Sumir töldu að stærra úrtak myndi lækka staðalfrávik í einstökum hólfum sniðsins. Það er rétt að því leyti að staðalfrávik í stóru úrtaki liggur að jafnaði nær þýðisstaðalfrávikinu heldur en í litlu úrtaki. En staðalfrávik litla úrtaksins þarf ekki að hafa verið of hátt miðað við þýðisstaðalfrávikið, heldur gæti það þvert á móti verið of lágt. Stærð fráviksins er í öfugu hlutfalli við kvaðratrótina af fjöldanum þannig að nákvæmnin eykst tiltölulega hægt. Ef minnsta hólfið er með langstærsta staðalfrávikið má hafa uppi ákveðnar grunsemdir, en engu að síður þarf að gæta vel að því hvernig þeim er komið í orð.

Í lokin er rétt að geta þess að ef efasemdir vakna um réttmæti þess að beita dreifigreiningu á tiltekin gögn, getur það ekki verið nein lausn að nota aðfallsgreiningu í staðinn. Báðar úrvinnsluaðferðir byggja á almenna línulega líkaninu (GLM) og eru því sama eðlis. Dreifigreining er undantekningarlaust framkvæmd á formi aðfallsgreiningar í nútíma tölfræðiforritum.

Uppbygging og form skýrslunnar

Engin ákvæði voru um uppbyggingu eða ytra form forverkefnisins og því eru ekki efni til að finna að þeim þætti. Í flestum tilvikum voru þau atriði í góðu eða viðunandi lagi.

Um verkefni námskeiðsins almennt er þó tilefni til að taka af hugsanlegan vafa. Gert er ráð fyrir að fylgt sé hefðbundnu formi eins og við á, þ.e. skýrslum sé skipt í Inngang, Aðferð, Niðurstöðu og Umræðu. Einnig er sú krafa mjög skýr að fylgt sé reglum APA út í ystu æsar.

Að lokum

Verkefnin báru með sér að nemendur hafa umtalsverða færni í mörgum mikilvægum atriðum tengdum dreifigreiningu. Það er mikilvægt að þetta liggi fyrir í upphafi námskeiðs. Suma færni skortir og aðra þarf að þjálfa frekar. Það er ekkert athugavert við það, væntanlega er það tilefni samvinnu okkar þetta misseri.

Heimildir

McClelland, G.H. (1997). Optimal design in psychological research. Psychological Methods, 2, 3-19.