Tölfræði IISpurt og svarað

Hér eru svör við nokkrum algengum spurningum nemenda í námskeiðinu. Þær eru lauslega flokkaðar eftir verkefnum og viðfangsefnum. Að jafnaði eru spurningarnar byggðar á raunverulegum spurningum frá nemendum, stundum lítillega breyttum.

Vegna ágalla í Internet Explorer 6 birtist valrammi rangt. Ég mæli með uppfærslu í nýrri vafra, t.d. Firefox.

Fyrirlestrar

Almennt

Inngangur að ályktunum

Ályktanir í tveimur hópum

Ályktanir um hlutföll

Krosstöflur

Einföld aðfallsgreining

Wilcoxon Mann-Whitney

Verkefni

SPSS, CrunchIt o.fl.

Almennt um skýrsluskrif

Marktektarpróf á meðaltöl

Hlutföll

Krosstöflur

Einföld aðfallsgreining

Almennt

Krossaprófin á netinu

Krossapróf á vefnum er ekki hluti af námskeiðsmati á þessu misseri [vormisseri 2008] og því er þessi fyrirspurn að mestu úrelt.

Hvernig er með krossaprófin, hvernig veit ég að kennarinn sé búinn að fá það í hendurnar, er hægt að taka endalaust af prófum þar til það heppnast og eru einhver tímamörk á þeim? Ég reiknaði eitt í rólegheitum og ætlaði að senda það þá kom error og ég fór aftur inní prófið og þá var bara komið allt annað próf.

Við munum búa til lista sem liggur frammi í kennslustundum. Fyrsti listinn kemur á þriðjudag eftir viku ef allt smellur saman. Ég fæ upplýsingarnar ekki fyrr en á laugardegi. [2006-01-30: Í dag er leitast við að senda yfirlit með tölvupóst, þ.e. til þeirra nemenda sem fara eftir fyrirmælum í námskeiðslýsingu. Það er enginn listi lengur lagður fram enda væri það tvíverknaður. ]

Það er hægt að taka eins mörg próf og hver kýs. Við mælum þó ekki með því heldur er skynsamlegt að stúdera efnið ef þetta gengur ekki í fyrstu umferð. Best er að stefna að því að ná þeim árangri sem stefnt er að í 2 - 3 setum (tilraunum).

Ef beðið er of lengi með að senda próf getur verið að þjónninn hinum megin loki á samskiptin. Ég hugsa að þú fáir rúman tíma en ekki endalausan. Eina leiðin er að prófa og sjá.

Það kemur alltaf nýtt prófí hvert sinn sem farið er inn í kerfið. Það kemur yfirleitt ekki að sök, því þau eru öll svipuð. Mér sýnist sem valið sé úr tiltölulega litlum potti og því verður næsta próf að stórum hluta sams konar en þó ekki alveg eins.

2005-02-21a

Tabula rasa og stórgáfaðir kennarar

Ég er aðeins að velta fyrir mér hvernig það eigi að svara efnisspurningum prófsins. Í Almennunni var ákveðinn þumalputtaregla að maður ætti að útskýra öll þau hugtök sem voru spurt um eða kom fram í svarinu, einnig var sagt að við ættum að svara líkt og við værum að búa til glósur fyrir menntaskólanemendur. Eigum við að útskýra öll hugtök sem er spurt um í spurningunni eða sem koma fram í svari okkar?

Til dæmis, ef spurt væri um hvaða áhrif staðalvilla hefði á type1/type2 error. Í svarinu mundi koma fram alls konar hugtök, t.d. núll/aðaltilgáta, úrtaksmeðaltal, staðalfrávik þýðis/úrtaks, p-gildi type 1/type 2 error, og staðalvilla. Hversu ítarlega ættum við að útskýra þessi hugtök? M.ö.o. erum við að útskýra hlutina fyrir einhvern sem ekkert veit eða fyrir stórgáfuðum kennurum Tölfræði II?

Því miður hef ég ekkert gott svar við þessu. Svarið þarf að vera skýrt svo við þurfum ekki að lesa á milli línanna, þ.e. þú þarft að segja okkur hvert svarið er en ekki við að lesa okkar eigin þekkingu út úr ófullburða svari þínu.

En er þetta að útskýra öll hugtök ekki fulllangt gengið? Myndi það gera svarið skýrara?

Væntanlega er rétt að fara bil beggja, þ.e. gera sér grein fyrir því að kennaranir séu jafn takmarkaðir og þeir í reynd eru. Það er alltaf skynsamlegt og stundum nauðsynlegt að útskýra hugtökin sem eru notuð en tæpast ástæða til að vera tæmandi í því efni. Útskýra þau lykilhugtök sem skipta máli—ekki endilega með formlegri skilgreiningu—og almennt haga svarinu þannig að það sé bæði ljóst hvað verið er að segja og að sá sem segir það hafi vald á efninu.

2005-05-12a

Lengd efnisspurninga

Hvað er reiknað með að efnisspurningarnar eigi að vera langar?

Það eru engar takmarkanir á lengd svara. Á prófinu færðu að jafnaði níu línur undir svarið, stundum meira og í stöku tilvikum minna (ef þannig skyldi raðast á blaðsíðuna).

Þetta nægir í flestum tilvikum ef svarið er skýrt og skorinort og úrlausnin ber með sér að viðkomandi nemandi kunni efnið vel. Margir kjósa þó að nýta spássíur og jafnvel að halda áfram aftan á blaðsíðunni. Í slíkum tilvikum þarftu að gefa skýrt til kynna að það sé framhald og hvar það er að finna.

Ófullkomin kunnátta birtist gjarnan í því að svarið er annað hvort örstutt eða óhóflega langt með alls konar útúrdúrum. Við hins vegar horfum fram hjá öllu slíku við yfirferð og horfum eingöngu á það hvort svar komi við úrlausnarefninu.

Flestir fara einhvern tíma út fyrir það pláss sem svarinu er ætlað svo þú ættir ekki að hika við það ef þú telur þig þurfa þess. Sumir skrifa langlokur aftan á öll blöð, það kemur ekki að sök en getur komið niður á skýrleika. Oft týnir nemandi úrlausnarefninu með langloku, svarar ekki úrlausnarefninu til fulls en ritar svör við ýmsu öðru sem ekki var spurt um.

Ég sem sé mæli með því að þú undirbúir þig undir að svara skýrt og skorinort, gætir að úrlausnarefnunum og komir svörum við þeim öllum að í svarinu. Í prófinu sjálfu er eðlilegt að lengja svarið eitthvað, til öryggis, svo fremi sem hugað sé að úrlausnarefninu sjálfu.

2008-05-08a

Útreikningar á prófi

Var að spá hvort það yrðu einhverjir útreikningar á prófinu?

Já, sbr. Töflu- og formúluheftið. Prentaðu það út og hafðu hjá þér við prófundirbúninginn. Leitast verður við að hafa útreikninga umfangslitla þannig að verkleg útfærsla tefji ekki prófúrlausn.

Auðvitað get ég ekki staðfest hvort það verði einhverjir útreikningar eða ekki, prófið er ósamið enn; það eina sem ég veit er að efnis- eða fjölvalsspurningar gætu krafist einhverra útreikninga.

2006-04-30a

Þarf að svara hverjum lið efnisspurnignar sér?

Er þess krafist að maður svari hverjum lið sér; a) blablabla.. b) blablabla? Má skrifa þetta í samfelldu máli?

Þetta er eins og í hverju öðru prófi, nemandi svarar eins og hann vill og kennarinn situr uppi með súpuna og þarf að greiða úr flækjunni.

Grínlaust, þá er alltaf best að hafa úrlausnina sem skipulegasta. Ef það er auðvelt að fara yfir svarið, er tryggara að matið verði sanngjarnt. Á sama hátt auðveldar skipuleg úrlausn nemandanum að ganga úr skugga um að öllum liðum verkefnisins hafi verið svarað í úrlausninni.

Síðan getur það verið matsatriði hvort þú talar um a-lið, b-lið o.s.frv. og jafnvel auðkennir svarið með sömu bókstöfum og í verkefninu sjálfu. Þetta fer hæglega eftir spurningum.

Í sumum spurningum myndi ég t.d. svara úrlausnarefnunum í sömu röð og liðirnir eru en sennilega ekki auðkenna þá. Þetta á við ef liðirnir eru mjög margir og þannig að það fer vel á því að svara fleirum en einum í sömu setningu.

Sumar spurningar eru þannig að t.d. erue a- og b-liður en síðan spurt um eitthvað tvennt í viðbót í framhaldinu. Það eru sem sé tiltölulega fá og afmörkuð úrlausnarefni. Ég myndi ekki hika við að auðkenna þau sem a-, b-, c- og d-lið og hafa þannig hvert úrlausnarefni sér.

Einfalda svarið: Ég myndi forðast að hafa alla úrlausnina í samfelldu máli en auðvitað er það heimilt. Þú hefur í huga sjónarmiðin fremst í þessu svari.

2008-03-06a

Forðast jarg, skilgreina hugtök?

Í stoðtíma var talað um að það ætti að forðast jarg og útskýra öll hugtök. Er nauðsynlegt að útskýra hugtök sem felast í spurningunum? T.d. ef spurning snýst um öryggisbil á þá að útskýra hvað öryggisbil er í svarinu?

Eins og í [spurningu á heimaprófi]: Hvers vegna verða sum bilin rauð en önnur svört? Á þá að útskýra fyrst hvað öryggisbil er og koma svo með svarið? Ég er ekki alveg að átta mig á hversu nákvæmt þetta þarf að vera.

Ég hef áður svarað svipaðri spurningu.

Spurningin snýst um að þú útskýrir hvað öryggisbil er, þú ert leidd í gegnum það með tilteknum spurningum. Ef þú svarar spurningunum rétt, veit ég ekki alveg hvort eitthvað vantar upp á útskýringuna.

En þú bætir bara því við sem þér finnst vanta upp á að öryggisbil séu fullskýrð; formleg skilgreining mun hins vegar litlu bæta við efnið, hún verður að miklu leyti fólgin í svörunum.

Ef einhver mikilvæg atriði vantar, þá einfaldlega bætir þú þeim við. Það rýrir aldrei svarið en gæti bætt það með því að tryggja að svarið taki örugglega til allra atriða úrlausnarefnisins. Farðu bara ekki allt of langt út fyrir efnið.

2008-03-07b

Millivísanir milli spurninga í prófi

Það var talað um það í stoðtímanum í dag að farið væri sérstaklega yfir hverja spurningu, þ.e. hvert svar lesið í samhengi við svör annarra við sömu spurningu. Við ættum við alltaf að útskýra í hverri spurningu öll hugtökin. Mér finnst svarið ekki vera nógu skýrt. Í dag var það svarið að við ættum hiklaust að gera það en ég er ekki alveg viss lengur.

IDW: Það sem ég átti við í stoðtímanum er að þegar verið er að svara einhverri tiltekinni spurningu má ekki vísa í svar við annarri spurningu þótt þar sé að finna hluta af svarinu. Ef þú ert til að mynda að svara spurningu 2 áttu ekki að vísa í svar þitt við spurningu 1 þótt þar standi eitthvað sem þú vilt að komi einnig fram í svar þínu við spurningu 2.

Stundum tengjast spurningar að einhverju leyti og þá þarf að endurtaka að hluta það sem hefur áður verið sagt.

2008-03-07c

Formúlur og útreikningar

Getum við verið örugg með að þurfa aðeins að reikna dæmi sem byggja á þeim formúlum sem eru á formúlublaði, þ.e.a.s að þurfa ekki að reikna t.d afköst, úrtaksstærðir miðað við vikmörk o.fl. sem ekki eru gefnar formúlur fyrir?

Já, þú átt að geta treyst því. Það geta verið einhverjir útreikningar sem eru það ómerkilegir að formúlur eru ekki gefnar upp í formúluheftinu. Afköst og úrtaksstærð miðað við æskileg vikmörk væru ekki dæmi um slíkt. Þú þarft hins vegar að vera umræðuhæf um afköst og því gæti verið gott að spekúlera í því hvernig þau eru reiknuð án þess að miða við að geta reiknað þau án formúla á prófinu.

2006-05-03a

Formúlublað og samlagðar dreifitölur

Þurfum við ekki að kunna að reikna öryggisbil fyrir samlagðar dreifitölur. Sú formúla er hvorki á glærum né á formúlublaði.

Formúlan fyrir öryggisbil í tveggja hópa t-prófi er heldur ekki á formúlublaðinu. Verður ekki spurt um þetta á prófinu?

Formúlan fyrir leiðréttar frígráður er á formúlublaðinu. Þurfum við að kunna að reikna þær út? Ég var nefnilegar að lesa í fyrirlestri frá Aðferðarfræði II í fyrra [2004] að við reiknuðum leiðréttar frígráður nær aldrei í höndunum heldur í tölfræðiforritum.

Staðalvilla miðað við samlagðar dreifitölur er undir striki undir millifyrirsögninni t-próf með samlögðum dreifitölum. Ég geri ráð fyrir því að þið munið sækja formúluna þangað og stinga henni inn í viðeigandi stað í öryggisbilaformúlunni.

Staðalvilluna fyrir tveggja hópa t-próf er að finna undir striki hjá viðeigandi t-prófi. Síðan er það bara að setja hana inn á réttum stað í formúlunni fyrir öryggisbil. Allar öryggisbilaformúlur eru í aðalatriðum eins; ég ætlast til þess að þið skiljið þær nægjanlega til að geta reiknað öll helstu öryggisbil fyrir meðaltöl þótt ég sýni ekki allar þessar næstum því nákvæmlega eins formúlur.

Formúlan fyrir leiðréttar frígráður er í heftinu svona til uppfyllingar. Ég geri ekki ráð fyrir því að það þurfi að beita henni.

2005-05-10b

Formúlublað: Staðalvilla fyrir hallatölu

Til að reikna öryggisbil fyrir hallatölu þarf maður að nota SEb. En formúlan fyrir það er ekki gefin upp á formúlublaðinu. Er þetta eitthvað sem yrði gefið upp, eða eigum við að vita hvernig á að gera það, ef svo hvernig þá?

Nei, ég geri ekki ráð fyrir því að þú munir leggja á þig að læra þessar formúlur utan að.

2006-05-11a

Formúlublað og hallatölur í aðfallsgreiningu

Gætum við þurft að reikna út hallatölu og skurðpunkt til að geta fundið út jöfnu bestu línu þ.e.a.s. ættum við að standa skil á formúlum fyrir slíka útreikninga?

Nei, ég geri ekki ráð fyrir því að þú munir leggja á þig að læra þessar formúlur utan að. Ég skil þig þannig að þú sért að tala um að reikna aðfallsgreininguna alfarið út í höndunum. Það er gott fyrir þig að kunna skil á því en ekki þannig að verkleg framkvæmd renni greiðlega frá þér á prófi.

Formúlurnar eru í töflu- og formúluheftinu. Sumar formúlur eru ekki þar en aðeins þær sem eru svo einfaldar að allir ættu að geta haft þær á hreinu. Formúlur til að reikna hallatölur á grundvelli frumgagna fellur ekki undir þá lýsingu að mínu mati.

2006-05-12a

Er hægt að fá glærur á PowerPoint formi?

Er möguleiki að glærurnar fyrir fyrirlestrana, sem eru settir á Ugluna,séu á Power Point formi? Þannig er mun betra að prenta úr 3 glærur á blaðsíðu og línur við hliðina á.

Því miður get ég ekki orðið við þessu. Ástæða þess að glærurnar eru á pfd-formi er sú að þetta er það form sem ég nota í kennslustundum.

Ég þyrfti því að setja glærurnar út í tveimur ólíkum formum svo þetta sé hægt sem þú biður um. Það hefði nokkra augljósa ókosti: (a) Það er aukaverk; ég skil vel að nemendur líti á það sem lítið viðvik, en slíkt er í reynd ótrúlegur tímaþjófur; (b) Það auðveldar misnotkun á glærum, þ.e. að einhverjir hagnýti sér mína vinnu, jafnvel skrumskælda, í eigin fyrirlestrum. Þetta síðarnefnda er mögulegt þrátt fyrir pdf-formið, en mun fyrirhafnarmeira og ákveðnum annmörkum háð. (c) Ef ég nota ekki PowerPoint, þá getur þú samt skoðað glærurnar, þar sem ég birti þær á pdf-sniði.

Sumir nemendur prenta tvær glærur langsum á blaðið; það lítur út eins og léleg nýting á blaðinu en hefur væntanlega þann kost að nóg pláss er fyrir athugasemdir. Sumum sést yfir að prenta báðum megin á blöðin en þannig gætirðu náð fjórum glærum á blaðið með miklu rými til athugasemda.

2008-01-21a

Er möguleiki að fá glærurnar sendar nokkrum tímum áður en fyrirlestur hefst?

Ég var að velta þessu fyrir mér þar sem ég bý á stúdentasvæðinu á Keflavíkurflugvelli og þarf oft að fara snemma í skólann þar sem rútuferðir hennta oft ekki tímasetningu við skólann. Þá er ég farin stnemma út og næ þar af leiðandi ekki að prenta út fyrirlesturinn sem ég hefði gjarnan viljað átt kost á?

Nemandi svarar: Þú getur fundið allar glærurnar inni á heimasíðu áfangans (www.gba.is - velur Tölfræði II), einnig er þar að finna fullt af frekara efni sem reynst getur vel fyrir námskeiðið. Þetta eru glærur sem notaðar hafa verið í námskeiðinu um nokkurt skeið og því eru allar glærur fyrir námskeiðið strax orðnar aðgengilegar, en eins og þú sérð fyrir glærusafn 1, þá hefur Guðmundur uppfært það fyrir áfangann í ár. Svo ef þú hleður niður öllum glærunum strax þá mæli ég með því að fylgjast með ef hann muni uppfæra eitthvað. :-)

Þetta er rétt, þú ættir að fá aðgang að glærunum einhverjum dögum og jafnvel vikum áður en þú ferð úr húsi.

Í upphafi misseris á ég stundum eftir að klára að fara yfir glærurnar. Oftast verða ekki neinar verulegar breytingar þótt glærur breytist vissulega lítillega og einhverjar bætast við eða falla brott. Breytingar á glærum eru auðkenndar með dagsetningu við hlið þeirra.

2008-01-21b

Prenta margar glærur á hvert blað

Hvernig getur maður prentað þetta út án þess að það fari heil síða í hverja glæru?

Það fer eftir prentarareklum. Hjá mér (HP Deskjet) fer ég í File / Print og smelli á Properties. Þar vel ég flipann Features og haka við Multiple Pages per Sheet.

Margir nemendur koma með glærurnar svona útprentaðar. Einfaldlega spurðu einhvern hvaða prentara hann er með. Það má búast við því að þetta fari að verulegu leyti eftir framleiðanda prentarans: Leitaðu að einhverjum sem er með prentara frá sama framleiðanda og þú (HP, Epson, Canon, …).

2008-01-28a

Varðandi fyrstu skýrsluna

Er hægt að fá lýsingu á fyrstu skýrslunni? Ég vildi fara að byrja á henni sem fyrst.

Við miðum við að birta verkefni rúmri viku áður en því skal skilað, þ.e. þetta 10–14 dögum áður. Þú virðist hins vegar vilja byrja á verkefninu þremur vikum áður.

Almennt getum við ekki lofað birtingu verkefna svo snemma. En í tilefni fyrirspurnar þinnar, hef ég ræst skilaverkefnavélina og vonast til að hún skili fullbúnu verkefni núna sem allra allra fyrst.

2008-02-04a

Hringir og stjörnur í kassaritum

Hver er munurinn á hring og stjörnu í kassaritum?

Athugaðu vel The 1.5 × IQR rule for suspected outliers í kafla 1.2.

Það er á reiki hvaða tölur eru notaðar en upprunalega miðaði Tukey við 1,5 fyrir útgildi og 3,0 fyrir mikil útgildi (extreme outside values).

Stjörnurnar og hringirnir eru til að gera greinarmun á þessu tvennu. Það er eilítið mismunandi milli forrita hvernig þetta er gert og nákvæmlega hvaða tölur er miðað við.

2008-05-12a

Kafli 6: Inngangur að ályktunum

Cohens d

Er Cohens d bara að maður þarf að vita viðmiðin sem sjást á glærunni Cohens d? Er það bara staðlaður mælikvarði á frávik frá núlltilgátunni?

Upplýsingar um Cohens d eru bundnar við það sem er á glærunni, það er ekkert um efnið í kennslubókinni svo ég viti.

Cohens d er staðlaður mælikvarði á frávikið frá núlltilgátunni og er því leiðbeining um það hvort hrifin sem við finnum séu umtalsverð eða ekki.

2005-05-10a

Fyrir hvað stendur β?

Hvað þýðir β?

β stendur fyrir líkindi fastheldnimistaka þegar rætt er um α-mistök og afköst. Þá er 1−β afköstin.

d2005-05-10c

Staðalvilla og úrtaksvilla

Hver er munurinn á staðalvillu (standard error) og úrtaksvillu (sampling error)?

Staðalvillan metur breytileika milli úrtaka, staðalfrávik einhverrar úrtakstölu t.d. úrtaksmeðaltals. Í okkar tilviki, t.d. þegar reiknuð eru meðaltöl yfir öll stök í úrtaki, þá er staðalvillan að meta stærð úrtaksvillunnar—breidd úrtakadreifingarinnar. Hún metur því staðalfrávik úrtaksmeðaltalsins mælt yfir óendanlega mörg tilviljunarúrtök dregnum úr einu og sama þýðinu.

2006-05-10a

Example 6.29 bls.402 (6. útgáfa kennslubókar)

Hér væri gott að fá hjálp! Í skrefi 2, þá erum við allt í einu að nota z-gildið 1,645 en marktektarmörkin eru samt 5%. Afhverju í ósköpunum er verið að nota 1,645?

Efst á bls. 403 stendur svo „be sure you understand why we use 1.645“, en engin útskýring á því afhverju það er gert.

Skoðaðu glæruna z-próf í fyrirlestrinum Inngangi að ályktunum.

Í litlu töflunni neðst á glærunni sérðu að vendigildið fyrir einhliða próf og α= 0,05 er 1,64 eða nákvæmlega 1,645 (raunar 1,644854… ef þú vilt hafa vendigildið algerlega nákvæmt).

Þú getur reiknað þessa og aðrar venditölur sjálf í töflureikni: Prófaðu að nota formúluna =NORMSINV(0,95) og breyta hlutfallinnu í sviganum eftir þörfum.

2008-02-09a

Líkindi þess að núlltilgátan sé rétt

Á Rökfræði tilgátuprófunar í Inngangi að ályktunum segir: „Við vitum því hverjar líkurnar eru á því að hafna núlltilgátu þegar hún er rétt. Þetta er ekki það sama og að vita líkurnar á því að hafna réttri núlltilgátu.“ Þetta skil ég ekki, þ.e. muninn á tilgátu þegar hún er rétt og réttri tilgátu. Hvað er átt við?

Þetta er eins og líkurnar á því að fussa yfir kaffi þegar það er kalt og því að fussa yfir köldu kaffi.

Ég ég fæ kalt kaffi, þá set ég upp skeifu og kvarta mikinn. Líkur þess að ég kvarti þegar kaffi er kalt er yfir 90%.

Hins vegar er mjög sjaldan sem ég kvarta yfir köldu kaffi. Það er einfaldlega gæfa lífs míns að ég fæ mjög sjaldan kalt kaffi.

Hið fyrra eru skilyrt líkindi (conditional probability). Ég kvarta yfirleitt þegar kaffið er kalt. Hið síðara eru óskilyrt líkindi. Þar sem kaffið er í reynd sjaldnast kalt, þá er niðurstaðan sú að í reynd kvarta ég sjaldan yfir kaffinu. Ég myndi kvarta ef það væri kalt en það er bara sjaldnast kalt.

Þetta má heimfæra yfir á tilgátuprófun. Þar gildir sams konar hugsun og sami greinarmunur á skilyrtum og óskilyrtum líkindum.

2008-03-08a

Meira um líkindi þess að núlltilgátan sé rétt

Eru eftirfarandi þrjár setningar ekki að segja allar það sama?

Þessu hef ég svarað með kaffilíkingunni hér að ofan. Samsvörunin er eftirfarandi:

Og þá er samhengið hin einfalda staðreynd (tilvísun til setninganna þriggja innan sviga): (1) Ef ég fussa í 90% tilvika þegar kaffið er kalt, fara (2) líkurnar á því að ég kvarti yfir köldu kaffi að miklu leyti eftir því (3) hversu oft kaffið mitt er kalt.

2008-05-10a

Túlkun á öryggisbilum

Hvernig er best að útskýra öryggisbil? Ef maður reiknar út eitt öryggisbil, er maður þá að túlka það eins og maður myndi taka mörg? Í glærum stendur að forðast skuli að nota orðið „propability,“ en samt sem áður stendur það á einum staðnum í bókinni: „…95% probability that the …“

Ef maður tekur eitt úrtak, þá getur maður sagt „með 95% öryggi getum við sagt að meðaltal þýðis lendi innan þessara bila,“ Ekki satt? En ég skil ekki hvað þetta kemur mörgum úrtökum við?

Ég skil því ekki tengslin milli eftirfarandi tveggja staðhæfinga um öryggisbil:

Svarið við þessu er að það er rétt hjá þér að þessar tvær staðhæfingar tengjast ekki beint. Ég fjalla aðeins um þetta í Orðgnótt og reyni þar að samræma þetta eins og ég best get. Kanski ættir þú að lesa umfjöllun um öryggisbil þar.

Fyrri staðhæfingin byggist á tíðninálgun (frequentist approach) sem byggist á því að líkindi sé hlutfallsleg tíðni. Hluturinn þarf því að vera teljanlegur til að það séu líkindi. Á því byggist það að það er ekki hægt að gefa upp líkindi þess að ég sé karl, því ég er aðeins eitt eintak, þótt hægt sé að tala um líkindi þess að ófætt barn verði sveinbarn.

Það sem við vitum er að aðferðin gefur okkur öryggisbil sem inniheldur þýðistöluna í 95% tilvika. Þar höfum við þessa fínu hlutfallstíðni því úrtökin eru teljanleg, það er hægt að taka mörg úrtök úr einu og sama þýðinu.

Þegar við erum með eitt öryggisbil gildir þessi nálgun ekki, því við höfum aðeins eitt öryggisbil. Það geta ekki verið nein 95% líkindi því það er ekkert sem getur gerst í 95% tilvika þegar tilvikið er aðeins eitt. Hins vegar getum við sagt að við berum mikið traust til til þess að bilið innihaldi þýðistöluna því aðferðin skilar „réttri“ niðurstöðu í 95% tilvika.

Ef ég treysti niðurstöðu sökum þess að aðferðin sem beitt er gefur rétta niðurstöðu í 95% tilvika, get ég þá sagt að niðurstaðan sé 95% örugg? Þetta úrlausnarefni er lykilaatriðið í þínum vangaveltum. Það er ljóst að við getum ekki talað um 95% líkur á því að niðurstaðan sé rétt. En 95% öryggi hefur heldur ekki skýra merkingu og leiðir ekki beint af 95% líkindum aðferðarinnar. En orðalagið er skaðlaust svo fremi sem við munum að merkingin vísar til aðferðarinnar og að líkur eiga ekki við þegar talað er um eitt einstakt öryggisbil.

Önnur nálgun að þessu viðfangsefni er að nálgast það út frá huglægum líkum og líta á öryggisbil sem trúverðugleikabil. Það er aðeins tæpt á því í Orðgnótt ef þú vilt kynna þér þá nálgun einnig.

2008-05-09a

Kafli 7: Ályktanir í tveimur hópum

Misleitni

Hvað er átt við með misleitni í hópum?

Það að staðalfrávik hópanna séu ólík í þýði.

2006-05-04a

Hvað merkir hugtakið afköst (power)?

Ég á svolítið erfitt með að skilja hugtakið afköst (power). Hvað þýðir það þegar afköst eru undir 0.8?

Afköst eru líkurnar á því að hafna núlltilgátunni ef eitthvert tiltekið ástand er í þýði. Ef þú veist að afköstin eru 0,8 (80%) og ef þú þekkir þær forsendur sem miðað er við, hefurðu þær upplýsingar að líkurnar á því að hafna núlltilgátunni ef þessar forsendur eru fyrir hendi eru 80%, þ.e. það gerist í 8 úrtökum af hverjum 10 sem þú dregur úr viðkomandi þýði. 1.

Ef munurinn er meiri, eða staðalfrávikið minna, verður hlutfallið hærra—en lægra ef munurinn er minni eða staðalfrávikið stærra. Algengast er að frávikið sé á formi Cohens d því þá þarf ekki að áætla bæði meðaltalsmun og staðalfrávik í senn heldur aðeins áhrifastærðina d. Skoðaðu vel afkastaforritlinginn á heimasvæði kennslubókarinnar—ekki hætta fyrr en þú bæði skilur hann og sérð hvaða áhrif hinar ólíku stærðir hafa á afköstin. Aðgættu að forritlingurinn miðast við eins hóps próf meðan dæmið mitt er t-próf í tveimur óháðum hópum.

Þegar afköst eru metin er rétt að miða við að þau séu reiknuð fyrir minnsta áhugaverða frávikið frá núlltilgátunni eða minnsta sennilega frávikið ef það er stærra.

Ef reiknuð afköst eru lægri en 80%, þýðir það að það eru minna en 80% líkur á marktækri niðurstöðu miðað við uppgefið ástand í þýði. Talan 80% er tilkomin vegna þess að Jacob Cohen sló þeirri tölu fram sem æskilegum afköstum og síðan hefur talan verið étin upp af þeim sem á eftir koma. Þú getur notað hana sem viðmið ef þú hefur engin önnur sjónarmið til að miða við.

2006-02-08a

Þarf ég að geta að reiknað afköst?

Nú er ég búin að vera að rembast við að skilja bls. 464-465 (5. útgáfa) og ég skil ekki hvernig á að reikna afköst. Ég skil hugtakið og það sem stendur fyrir en þarf ég að kunna að reikna það? Ég skil ekki stóran hluta af því hvað er verið að gera í þessu ferli þegar afköst eru reiknuð.

Þetta er ruglingslega framreitt í bókinni og einfaldara að skoða þetta fyrir z-prófið í kafla 6.4. Það er sérstaklega bagalegt að formúlan efst á bls. 465 er ruglingsleg og lítt útskýrð.

Lykilatriðin eru þessi: Þú ert að reikna líkurnar á því að fá marktækt próf miðað við ákveðnar aðstæður í þýði. Í kafla 7.1 og sýnidæmi 7.9 er ágætlega rökstutt að það sé eðlilegt að miða við að þýðismeðaltalið sé 1,0. Taktu vel eftir að höfundarnir benda á að áhrifin (frávikið frá núlltilgátunni) í þýði sé örugglega ekki minni en þetta og sennilega meiri. Þeir eru því að velja minnstu sennilegu áhrif og gæta þess að fara jafnvel niður fyrir það sem þeim finnst sennilegt. Þeir benda einnig á að þetta séu þó svo mikil áhrif að þú séu áhugaverð.

Þetta á almennt við um afköst: Við viljum miða við minnstu sennilegu frávikin frá núlltilgátunni (áhrifin) eða minnstu áhugaverðu áhrifin eftir því hvor eru stærri. Afköstin sem við reiknum miðast við þetta tiltekna ástand í þýði, áhrifin sem við völdum. Því þarf að vanda valið vel.

Því næst staðsetjum við úrtakadreifinguna á þeim stað sem áhrifin sem við völdum gefa til kynna. Í sýnidæminu felur þetta í sér að þýðismeðaltalið sé 1,0 og því staðsetjum við ferilinn þar, sbr. mynd 6.15. Við vitum að niðurstaða prófsins verður marktæk í hvert sinn sem úrtaksmeðaltal verður 0,580 eða hærra. Því er spurningin einfaldlega hversu oft þetta gerist. Þessu er svarað með því að athuga hvorsu oft t-dreifing sem er staðsett á 1,0 gefur meðaltal sem er 0,580 eða lægra miðað við frígráðurnar okkar og staðalfrávikið sem við veljum.

Ef þýðismeðaltalið er 1,0 þá er frávikið frá því og niður í 0,580 jafnt og (0,580−1,0)/(1,5×sqrt(20)). Hér þýðir sqrt(20) að þetta sé kvaðratrótin af 20, þ.e. fjöldanum. Ef ég reikna út úr formúlunni, kemst ég að því að þetta samsvarar t-i upp á −1,25. Ef ég skoða töflu D aftast í bókinni sé ég að það er erfitt að fletta upp nákvæmlega þessari niðurstöðu; Moore & McCabe svindla því lítillega og fletta þessu upp í Töflu A fremst í bókinni. Þar sjáum við að 10,56% eru undir þessari niðurstöðu og því eru 100−10,56= 89,4% yfir henni.

Einfaldast er að skilja þetta með því að horfa á normalferilinn efst á síðunni, ímynda sér að hann sé miðjaður á 1,0 og að við z séum við komin niður í 0,580. Til samanburðar væri niðurstaðan 89,7% ef við hefðum haft t-töflu sem væri jafn nákvæm og normaltölurnar í Töflu A.

Þú þarft að kunna að reikna þetta þó svo að svona útreikningar muni tæpast koma á lokaprófi námskeiðsins. Það er því skynsamlegt að fara í gegnum útreikningana þannig að maður skilji og treysti sér til að rifja þá upp ef maður þarf að kynna sér efnið seinna.

Það mikilvægasta er þó að skilja efnið til hlítar og æfa sig á góðum afkastahermi. Einnig er mikilvægt að átta sig á forritlingunum sem bent er á á tengslasíðu námskeiðsins því þá muntu þurfa að nota í framtíðinni þegar þú ætlar að reikna afköstin fyrir BA-verkefnið þitt. það væri sniðugt að finna nokkur dæmi um efnið í bókinni; reikna eitt í höndunum og ef það lukkast, reikna þá tvö til þrjú með forritlingunum. Æfa sig síðan vel með herminum. Þetta er mikilvægt hugtak og mikilvægir útreikningar.

2006-02-18a

Afköst fyrir tveggja hópa t-próf

Varðandi reikninga á afköstum á tveggja hópa t-prófi, þá eru þeir talsvert ólíkir því sem greint er frá í kafla 7.1 fyrir eins hóps t-próf. Í kafla 7.3 (bls 477–478 í 6. útgáfu) er sagt að maður eigi að fara beint í að reikna hjámiðjustuðulinn (noncentrality parameter) í stað þess að reikna fyrst t-gildið fyrir núlltilgátuna. Ég skil hvorki afhverju það er gert, né afhverju maður á síðan að draga hjámiðjustuðulinn frá t-gildinu.

Þetta er einfaldlega mjög ruglingslega fram sett.

Það sem er verið að segja er að annars vegar er hægt að reikna þetta mjög nákvæmlega út frá hjámiðjustuðlinum en hins vegar slumpa á þetta með normaldreifingu eins og sýnt var í kafla 7.1, bls. 433–435 í 6. útgáfu bókarinnar undir fyrirsögninni The power of the t-test.

2008-03-04a

Á að lesa stjörnumerktu kaflanna

Eigum við að lesa allan kafla 7, því það er svo mikið af stjörnumerktum köflum sem virðast ekki tengjast þessu mikið. Hvað er það þá sem á að sleppa að lesa?

Þetta svar miðast við 4. útgáfu bókarinnar og gæti því verið ónákvæmt fyrir síðari útgáfur.

Með skjótri yfirferð finn ég þrjá stjörnumerkta undirkafla í kafla 7.

The power of the t-test á bls. 505. Við fjöllum um það.

The pooled two-sample t procedures á bls. 537. Það eru glærur um einmitt þetta efni svo það er skýrt.

Kafli 7.3: Optional Topics in Comparing Distributions, bls. 553. Við fjöllum um afköst. En F-próf á mismun staðalfrávika er ekki á okkar dagskrá.

Almennt séð tilkynnum við ekki nákvæm blaðsíðutöl heldur þarftu að skoða kaflanna sjálfa með tilliti til efnistaka í fyrirlestrum og beita eigin dómgreind. T.d. fjalla ég ekki beinlínis um afköst t-prófa á glærum, en það er heill fyrirlestur um afköst almennt séð [Þetta efni er núna hluti af Inngangi að ályktunum.] og bent á marga forritlinga til að reikna afköst t-prófa á heimasvæði námskeiðsins www.gba.is/tol2 . Það ætti því ekki að fara á milli mála að afköst eru á dagskránni hjá okkur.

Til samanburðar er hvergi minnst á F-próf á mismun staðalfrávika (dreifitalna) og ekki minnst aukateknu orði á það í fyrirlestrum. Hins vegar hefur verið minnst á Próf Levenes sem prófar sömu tilgátu.

Sést mér yfir einhvern stjörnumerktan kafla—þú talar um að þeir séu margir en ég finn aðeins þrjá.

2005-02-17a

Formúlan fyrir z-próf

Á glærunni z-próf í Inngangi að ályktunum er formúlan svona: z = X(bar) - µ / (σ /√n).

Ég skil ekki alveg af hverju við deilum staðalfrávikinu með kvaðratrótinni af fjöldanum þarna ?

Það er vegna þess að SE= σ /√n.

Skoðaðu vel bls. 406-412 og bls. 360-361 (5. útgáfa), þar er þetta útskýrt nákvæmlega.

SE er hér staðalvilla meðaltala en það er annað nafn á staðalfráviki meðaltalanna (sem ekki má rugla saman við venjulegt staðalfrávik, þ.e. saman við staðalfrávik mælinganna sjálfra).

2008-02-06a

F-próf og tafla E

Í kafla 7.3 er talað um F-próf og dreifingu og vitnað í töflu E. Ekkert er um F-próf í glærum og engin tafla E í minni bók og heldur ekki á formúlublaðinu. Er þetta eitthvað sem má sleppa? Er eitthvað annað í bókinni sem má sleppa? Það væri mjög gott að fá upplýsingar um það í heild sinni, ég held að fæst okkar hafi tíma aflögu til að lesa eitthvað aukalega

Almennt séð er allt efni kennslubókar sem námskeiðslýsing vísar í til prófs

Það er þó skynsamlegt, sbr. hugsunina í fyrirspurninni, að hafa hliðsjón af áherslum í fyrirlestrum við lestur bókarinnar. Leggja mesta áherslu á aðalatriði úr fyrirlestrum og minni áherslu á annað efni.

Þú ert í fyrirspurninni væntanlega að vísa í bls. 473–479 (6. útgáfa), eða hvað? Um efnið hefur verið fjallað nokkuð rækilega í fyrirlestrum en ekki þó um F-prófið sem slíkt. Að því frádregnu að fjallað er um þetta tiltekna próf, þá er efni blaðsíðnanna sannarlega mikilvægt og gott að skilja út á hvað vandinn gengur.

Tafla E er í viðauka T í kennslubókinni.

Okkar áhersla er á Próf Levenes. Það er hugsað alveg nákvæmlega eins en þykir að vísu traustara gagnvart frávikum frá normaldreifingu heldur en F-prófið. Hugsunin, annmarkarnir og ráðleggingar kennslubókarinnar eiga að öðru leyti ágætlega við.

Þegar ég ræddi um efnið í fyrirlestri þá benti ég ykkur á að afstaða mín gegn svona forprófum sé að harðna. Mér hefur fundist í lagi að hafa ákveðna hliðsjón af Prófi Levenes en hafa fyrst og fremst hliðsjón af kassaritum, mismuni staðalfrávika og fræðilegum röksemdum. Nýlega hef ég þó færst nær M&M. Í dag álít ég að ef það er minnsti vafi, ætti að nota t-próf fyrir aðskildar dreifitölu.

F-ið og tafla E, er það kanski bara tímaeyðsla að kynna sér það? Nei, aldeilis ekki. Við munum fjalla um F og þú munt þurfa að skilja töflu E. Lestu því efnið vel og skildu það jafnvel þótt ég vilji alls ekki að þú notir F-próf til að bera saman staðalfrávik/dreifitölur í tengslum við t-próf.

Ég get ekki gefið eitthvað yfirlit um það sem eigi ekki að lesa. Það væri svo stutt að það væri ekkert yfirlit: Lestu allt það sem er tilgreint í námskeiðsyfirlitinu.

2008-02-28a

Hvernig finn ég vendigildið ef t-próf er einhliða?

Ef eg er að reikna tvíhliða t-próf og ætla að nota α= 5%, þá fer ég í töfluna og leita að n−1 í dálkunum sem eru yfir 95%. En hvað ef ég ætla að reikna einhliða t-próf með α= 5%, á ég þá að finna n−1 í einhverri annari röð en yfir 95%?

Nemandi svarar: Ef þú ætlar að reikna einhliða t-próf, þá er það áfram n−1 en þú ferð í %-dálkinn vinstra megin við t.d. 95%, þ.e þar sem eru tölur fyrir 90% gildi

2005-02-14a

Núlltilgátan og einhliða próf

Hvað er átt við með að núlltilgátan sé einhliða eða tveggja hliða?

Það er sennilega betra að hugsa það þannig að aðaltilgátan sé ýmist einhliða eða tvíhliða.

Ef ég vil athuga hvort líkamshæð karla og kvenna sé ólík, er það tvíhliða tilgáta. Það er hugsað einfaldlega þannig að öll frávik eru í samræmi við aðaltilgátuna, þ.e. hvort sem karlar eru hærri en konur eða konur hærri en karlar.

Einhliða tilgáta væri ef ég vildi kanna hvort karlar væru hærri en konur. Þá myndi munur körlum í hag samræmast aðaltilgátunni en ekki öfugur munur, þ.e. konum í hag. Hér er ég því með stefnu í tilgátunni og því er þetta líka stundum kallað stefnutilgáta (directional hypothesis).

Einhliða tilgáta getur verið í hvora átt sem er, þannig myndi það vera einhliða tilgáta ef ég vildi prófa hvort konur væru að meðaltal hærri en karlar. Þetta er augljóslega aðaltilgáta með öfuga stefnu við hina einhliða tilgátuna.

2008-02-15a

Neikvæð og jákvæð niðurstaða úr t-prófi

Ef prófniðurstaða í t-prófi er í mínus og við fáum ómarktæka niðurstöðu, er þá í lagi að fjarlægja mínusinn til að niðurstaðan verði marktæk? Okkur fannst eins og það hafi verið sagt í stoðtíma.

Ég átta mig ekki á því hvernig það getur breytt marktekt að nota tölugildið af niðurstöðunni. Ég ætla því að svara almennt um efnið.

Plús og mínus í niðurstöðunni fer eftir því í hvaða röð gögnin eru sett inn í forritið. Skoðaðu meðaltölin og notaðu þau til að meta stefnuna í sambandinu.

Það er gott að miða við það sem þér sýnist eðlilegast þegar þú ákveður hvort þú lætur niðurstöðuna vera mínus eða ekki. Plús táknar aukningu; ef ég t.d. er með hærra meðaltal fyrir meðferðarhóp heldur en samanburðarhóp en fæ t-prófið í mínus gæti það einfaldað framsetningu að birta það frekar í plús. Því get ég breytt með því ýmist að breyta röð hópanna, breyta kóðun þeirra eða einfaldlega breyta því hvernig ég birti niðurstöðurnar í skýrslunni.

Gættu þess einfaldlega að hugsa vel um það hvað þú ert að gera, að framsetningin sé skýrlega merkingarbær og niðurstöðurnar séu sem einfaldastar fyrir lesandann. Það er t.d. afleitt að lesa skýrslu þar sem lækkun felur í sér aukningu, ekki satt? Þá þyrfti a.m.k. að skýra málið, t.d. myndi fækkun einkenna skiljast greiðlega sem aukinn bati.

2008-02-22a

Ruglingslegt dæmi: Einhliða og tvíhliða próf

Ég skil ekki dæmi 7.61 í bókinni, þar er gefið upp að t= −3,11 og df=23 og spurt hvort hægt sé að hafna núlltilgátunni að þýðismeðaltölin séu þau sömu með tvíhliða prófi. Síðan er í b) lið spurt um p-gildið miðað við sömu forsendur miðað við að mismunur meðaltala sé stærri en núll (þ.e. prófið er nú einhliða).

Í svörunum er gefið upp að p-gildið í a-lið sé minna en 0,005 en að það sé 0,9975 í b-lið hvernig getur þetta staðist?

Þetta er einhliða próf. b-liðurinn tilgreinir að munur meðaltala sé jákvæður en það samræmist ekki því að prófniðurstaðan sé neikvæð. P= 0,005 fæst með því að fletta upp í töflu D og margfalda niðurstöðuna með tveimur. P= 0,9975 fæst með því að draga niðurstöðuna í töflu D frá einum.

Ef líkurnar eru 0,0025 að fá t(23)= −3,11 en ég er að gera ráð fyrir mismuni í hina áttina, eru líkurnar á því að fá þetta mikið eða meira frávik í plús 0,9975.

Þetta verða nú fljótt ruglingsleg fræði. Aðalatriðið er þó að niðurstaðan er í öfuga átt og því getur prófið ekki verið marktækt! Það er aðalatriðið í þessu. Ef þú vilt hins vegar skilja 99,75 prósentin, geturðu nálgast þetta svona. Hugsaður þetta þannig að það séu 0,0025 líkur á að fá svona mikið eða meira neikvætt frávik. Líkurnar á því að fá minna neikvætt eða jákvætt frávik eru þá 1−0,0025 eða 0,9975.

2006-05-09a

Dæmi 7.63 (6. útgáfa)

Ég skil ekki svar við spurningu 7.63, lið a. Þar er sagt að gögnin séu ekki normaldreifð einfaldlega vegna þess að um heilar tölur (integer) sé að ræða. Ef við myndum námunda hæð einstaklinga að heilum tölum, þá værum við samt með normaldreifingu á gögnum um hæð. Er ekki réttara svar að þessi gögn (þ.e. einkunnir úr prófi eða spurningalista) séu yfirleitt ekki normaldreifð, vegna eðli slíkra gagna?

Sá sem samdi spurninguna og svarið virðist hafa verið að reyna að fella einhverjar keilur.

Svarið er rétt svo langt sem það nær. Normaldreifing byggist á rauntölum, sbr. að normalferillinn er samfelldur. Þess vegna geta t.d. heiltölurnar 1, 2 og 3 aldrei normaldreifst.

En auðvitað hefur þú líka rétt fyrir þér. Líkamshæð í heilum cm væri ekki heldur normaldreift samkvæmt þessu því það væri alltaf rofin breyta sem normaldreifing er einmitt ekki. En þar sem hún væri tiltölulega lítið rofin myndum við samt sem áður tala um normaldreifingu og sennilega einnig líta á hana sem samfellda þótt strangt til tekið sé hún það ekki.

Svo hvernig ætti svarið að vera. Ef okkur finnst mikilvægt að koma þessari hugsun að myndum við (ég og þú) sennilega orða svarið einhvern veginn svona: Strangt til tekið geta heiltölurnar 0–6 ekki normaldreifst þar sem dreifingin er rofin. Dreifingin gæti líkst normaldreifingu en vegna þess hversu mikið rofin dreifingin er gæti hún aldrei orðið nákvæmlega eins og normaldreifing.

Nú þá spyrð þú væntanlega í framhaldinu hvort slík frávik skipti máli. Svarið væri að frávillingar eru alvarlegasta ógnin við t-próf. Dreifingin 0–6 er takmörkuð í báða enda og því er ekki vona á frávillingum (þykkum hölum). Þá er spurningin hvort skekkja gæti haft óæskileg áhrif. Skekkja er ekki alvarlegt vandamál í svona stórum úrtökum og því væri það væntanlega eingöngu ef það eru skýr og alvarleg rjáfur- eða gólfáhrif sem við þyrftum að íhuga það nánar.

Meðaltölin eru mjög há en það er einnig greinileg einhver dreifing þar sem staðalfrávikið er í kringum 1,2. Niðurstöðurnar eru einnig mjög afgerandi þannig að ég myndi telja að hér þurfi ekki að hafa neinar sérstakar áhyggjur.

Taktu eftir því að svarið við b-liðnum er í takt við ofangreint. En því miður vantar allt sem við á að éta og svar bókarinnar því óþarflega óljóst.

2008-03-03a

Kafli 8: Ályktanir um hlutföll

Hvenær á að nota leiðrétt öryggisbil?

Hvenær er betra að nota leiðrétt öryggisbil fremur en nomalnálgun? Mér finnst þetta ekki alveg nógu skýrt, er þetta kannski mats atriði hverju sinni?

Það eru engin skýr skil milli þess hvenær nota skuli leiðrétt öryggisbil og hvenær normalnálgun.

Þetta kemur til af því að leiðréttu öryggisbilin eru ekki ný aðferð með eigin forsendum sem keppir við normalnálgunina heldur tilraun til að leiðrétta öryggisbil normalnálguninnar. Það er því ekki hægt að taka leiðréttu öryggisbilin og þylja upp forsendur þeirra eins og við getum t.d. með t-próf. Það sem við höfum í staðinn eru viðmið. Viðmið eru reglur sem hafa sýnt sig að gefa góða raun í flestum tilvikum, þ.e. hafa mjög almenna skírskotun. Viðmið geta hins vegar brugðist í eihverjum tilvikum. Þetta er eflaust ástæðan fyrir því að þér finnst þetta fremur óskýrt—það er óskýrt.

Hafðu í huga viðmiðin eins og Moore & McCabe lýsa þeim. Þeir segja t.d. að nota megi normalnálgun fyrir öryggisbil fyrir eitt hlutfall ef fjöldinn í minni hópnum sé a.m.k. 15. Leiðrétta nálgun megi síðan nota niður í 10 í minni hópnum en þó ekki ef heildarúrtakið er mjög lítið. Bersýnilega þýðir þetta að leiðrétta öryggisbilið er betra í litlum úrtökum og þar sem annar hópurinn er mjög fámennur. En hversu lítil eru lítil úrtök? Því svara ekki M&M.

2006-03-12a

Hlutföll í öryggisbilum

Á glærunni Leiðrétt öryggisbil tveggja hlutfalla í Ályktunum og öryggisbil er talað um að normalnálgun verði mjög ónákvæm ef hlutföllin eru nálægt 0,0 eða 1,0. Á þetta ekki við um leiðrétt öryggisbil?

Jú, þetta er einnig vandamál þar þótt hann sé tiltölulega lítill miðað við normalnálgunina.

Normalnálgunin er virkilega slæm. Leiðréttu öryggisbilin eru virkilega góð en í ýktum aðstæðum geta þau einnig brugðist. Það eru til ögn betri öryggisbil en þau leiðréttu, einnig nefnd Agresti-Coull öryggisbil, en engin aðferð er til sem gefur öryggisbil með nákvæmlega réttu yfirgripi (coverage). Ef þú vilt fá nákvæmari niðurstöðu, ættirðu að velja Wilson Score Test, sbr. forritlinga á heimasvæði námskeiðsins.

2008-05-12b

Túlkun öryggisbila fyrir tvö hlutföll

Á glærunni Kynþroska unglinga í Ályktunum um hlutföll er talað um túlkun öryggisbila. Öryggisbilið í dæminu var milli −27% og 42% (um þroskamismun kynjanna) og þá var sagt „mismunurinn er á bilinu 27 prósentustigum stúlkum í hag og 42% drengjum í hag.“ Hvernig eru neðri og efri mörk öryggisbils hópunum í hag?

Nemandi svarar: Þegar þú reiknar mismun hlutfallanna í þessu dæmi er hlutfall kvk dregið frá kk: D= pkkpkvk og öryggisbilið fyrir þetta hlutfall er frá −0,27 til +0,42. Mismunur hlutfallanna gæti legið á þessu bili. Ef mismunurinn er −0,27 þá er hlutfall karla lægra en hlutfall kvenna (og það er körlum „í óhag“ og þá um leið konum „í hag“ ef þannig má að orði komast. Ef mismunur á hlutfalli karla og kvenna í plús 0,42 þá er það körlum „í hag.“

Það er frekar snúið að túlka öryggisbilin þegar önnur tala er í mínus, a.m.k. finnst mér það.

2008-05-13a

Lágmarksfjöldi í hópum og undirhópum

Hvað merkir það að stærð minni hóps þurfi að vera a.m.k 5 fyrir báða hópa? Mér finnst það ekki passa miðað við dæmið sem er gefið á Kynþroska unglinga. Þar segir að augljóslega passi upplýsingar ekki fyrir normalnálgun en ég myndi halda að það myndi passa þar sem hóparnir eru 12 stúlkur og 12 strákar

Það lítur út fyrir að við séum að horfa á „töldu“ gildin, sem sagt fjórir strákar og þrjár stelpur. En þau ná ekki gildinu til að vera a.m.k 5, og heldur ekki þegar bætt hefur verið 1 staki í hvorn hóp.

Hér þyrfti að gera greinarmun á undirhópi og hópi (úrtaki). Ensku hugtökin eru number of successes, number of failures og sample size.

Á bls. 506–207 í 6. útgáfu bókarinnar (bls. 556 í 5. útgáfu) er samantekt fyrir normalnálgun öryggisbils fyrir tvö hlutföll. Þar er gefið upp það viðmið að það þurfi að vera 10 í hvorum undirhópi fyrir hvort hlutfall fyrir sig, þ.e. fjöldi þeirra sem eru taldir (number of succcesses) þurfa að vera a.m.k. 10 og einnig fjöldi þeirra sem ekki eru taldir (number of failures).

Þetta finnst mér orðað býsna skýrt á Öryggisbilum tveggja hlutfalla. Þar er sagt að það þurfi að vera a.m.k. 10 í minnsta undirhópnum. Það eru aðeins þrír í minnsta undirhópnum og því stenst þetta ekki viðmiðið.

Þegar um leiðrétt öryggisbil er að ræða, þarf úrtaksstærðin að vera a.m.k. fimm. Báðir hóparnir eru með 12 einstaklingum sem klárlega er hærra en fimm.

Niðurstaðan er því að viðmið normalnálgunar er fjarri því að vera fyrir hendi en viðmið fyrir leiðrétt öryggisbil eru klárlega fyrir hendi.

2008-05-14a

Meira um fjölda í hópum og undirhópum

Í kennslubókinni stendur að fjöldi af „success“ og „failure“ þurfi að vera a.m.k 15 en ekki 10 eins og þú nefnir hér að ofan.

Athugaðu að þetta eru aðeins viðmið og þau eru breytileg þar sem þau fara eftir því hversu mikil frávik við sættum okkur við.

En ef við höldum okkur við bókina og látum félaganna tvo, Moore og McCabe, vera leiðtoga lífs okkar, þá myndi þetta vera eftirfarandi sbr. einnig textann á glærum námskeiðsins.

Normalnálgun
Eitt hlutfall
Textareitur á bls. 489 í 6. útgáfu bókarinnar (bls. 537 í 5. útgáfu M&M) og glæran Öryggisbil í stórum úrtökum: A.m.k. 15 manns í minni hópnum.

Samanburður tveggja hlutfalla
Textareitur á bls. 506–507 í 6. útgáfu (bls. 556 í 5. útgáfu) og glæran Öryggisbil tveggja hlutfalla: A.m.k. 10 manns í minnsta undirhópnum.

Annars er asnalegt að láta kennarann í svona textafræðilega túlkun. Hann hefur svo sem gott af því að fletta þessu upp en hins vegar myndu nemendur græða enn meira á því. Þetta er sem sé svart á hvítu í bæði kennslubók og á glærum, það þarf hins vegar dálitla yfirlegu til að meðtaka þetta rétt.

En enn og aftur vil ég árétta að þetta eru aðeins viðmið og viðmiðin hafa breyst yfir tíma. Hafið því hliðsjón af ofangreindu en lítið ekki á þetta sem forsendur sem tryggja rétta niðurstöðu.

2008-05-15a

Hvernig eru niðurstöður z-prófs settar fram?

Setjum við fram niðurstöðurnar í z-prófi fram eins og hjá t-prófi, þ.e. t(df)= ##,#, p < 0,05 þar sem frígráðurnar koma þar sem df er og prófniðurstaðan í staðinn fyrir ##,#. Setjum við z-prófið þá kanski fram svona: z= ##,#, p < 0,05? Ég er að velta þessu fyrir mér því þetta hefur verið svo skýrt fram sett varðandi t-próf en ég er ekki viss um framsetninguna á z-prófi.

Þetta er held ég alveg rétt skilið hjá þér. z-próf er ekki með frígráður og því er engin svigi eins og er hjá t-prófi.

Dæmigerð niðurstaða væri því svona: „Konur reyndust detta sjaldnar (17,0%) í það heldur en karlar (22,7%), z= 9,4, p < 0,001.“

2008-03-15a

Kafli 9: Krosstöflur

Lesa kafla 9.3?

Eigum við að lesa kafla 9.3* og geta reiknað í höndunum?

Þessi fyrirspurn beinist að 4. útgáfu bókarinnar.

Þú þarft að lesa kafla 9.3.

Ég á ekki von á því að þú þurfir að reikna í höndunum. En þú þarft að vita hvernig kíkvaðratpróf er reiknað, hvernig frígráður eru fundnar og almennt þekkja til þeirrar umræðu sem er að finna í þessum undirkafla.

2005-03-20a

Að setja upp krosstöflur

Þú talaðir um að það tæki u.þ.b 20-40 mín. að búa til krosstöflur. Hvernig á að setja þær upp? Er það gert í SPSS eða Excel?

Ég nota yfirleitt Word til að setja upp töflur. Einfaldast er að búa til grunn að töflu með réttum fjölda dálka og lína, t.d. með Table/Insert/Table…. Síðan er einfaldlega farið í Table/Table Autoformat…, valið Simple 1 og hakið tekið af Color. Þar með er töflugerðin næstum alveg komin.

Ef taflan þarf að vera flóknari, getur verið gott að smella á táknmyndina fyrir Tables and Borders en hana má einnig fá með View/Toolbars/Table and Borders. Þar er hægt að bæta við eða fjarlægja línur, fella saman hólf eða skipta einu hólfi í mörg.

Ef þú þarft að bæta við hólfi, línu eða dálki, gerirðu það með Tables/Insert skipuninni.

2005-03-26a

Sameiginleg og skilyrt dreifing

Á glærunni Sameiginleg og skilyrt dreifing er sýndur tvennskonar útreikningur í töflu. Ef ég hef skilið rétt þá er verið að tala um fjölda einstaklinga í seinni töflunni en %-hlutfall í þeirri efri. Hvernig er farið að því að finna út fjölda einstaklinga t.d. sem svara já í neðri töflunni ?

Efri taflan sýnir sameiginlega dreifingu en sú neðri skilyrtar dreifingar innan kynferðis. Báðar töflurnar eru í prósentum.

Fjölda þeirra sem svara „Já“ í neðri töflunni má finna með því að margfalda heildarfjöldann 19.096 með 0,194 en þá fæst fjöldinn 3.317 sem vegna rúnnunar er of hár sem nemur þremur einstaklingum. Það er vegna þess að hlutfall þeirra sem segja „Já“ er nákvæmlega 3.314/17.096= 0,1938465… sem rúnnast upp í 19,4% í töflunum á glærunni.

2005-03-26b

p-gildi, gildið sem við finnum í töflunni og α

í krossaprófinu var verið að spyrja um p-gildi í kí-kvaðrat prófi, er það gildið sem við finnum í töflunni undir viðeigandi alfa? ef ekki hvað þá?

Þú finnur upplýsingar um þetta efni í Spurðu og svöruðu í Aðferðafræði II. Skoðaðu umfjöllunina undir Hvað er vendigildi og p-gildi, α og vendigildi.

2005-04-05a

Kafli 10: Einföld aðfallsgreining

β

Þegar ég er að vinna með β í formúlu þá er ég með allar upplýsingar í þýðinu. Er ég þá nokkuð að spá um mæligildi einstaklingsins eða þýðismeðaltalið, veit ég þau ekki af því að ég er með allar upplýsingarnar? Það stendur nefninlega á glærunni Ólík form á jöfnunni að maður sé að spá?

Það er vandræðalegt í aðfallsgreiningu að við erum í raun með tvöfalda spá. Ef við þekkjum hallastuðlana og þar með tengslin, þarf ég ekki að spá fyrir um tengslin. Eftir sem áður er hver einstaklingur með sína villu, εi, sem við vitum ekki hversu stór er í hverju tilviki fyrir sig. Af þeim sökum þarf ég að spá fyrir um mæligildi hvers einstaklings jafnvel þótt ég þekki tengslin og því μ fyrir þau gildi sem frumbreyturnar hafa í viðkomandi tilviki.

Við þurfum því eftir sem áður að spá fyrir um mæligildi hvers einstaklings. Það er hins vegar rétt hjá þér að ég þarf ekki að spá fyrir um þýðismeðaltalið heldur einfaldlega reikna ég það út á grundvelli aðfallsjöfnunnar.

2004-11-29a

Normaldreifing leifar

Þegar verið er að tala um forsendu aðfallsgreiningar að leifin sé normaldreifð, hvort er verið að meina að hún sé normaldreifð yfir alla flokka frumbreyta (sem sagt leifin er fundin fyrir hvert gildi og athugað hvort hún sé normaldreifð án þess að taka inn í það flokk frumbreyta) eða er verið að meina að hún eigi að vera normaldreifð fyrir hvern flokk frumbreyta?

Það er átt við að hún þurfi að vera normaldreifð í hverju hólfi sniðsins fyrir sig.

Í reynd geta hins vegar verið frávik í einstökum hópum einfaldlega vegna þess að þeir séu fámennir og því verður að fara varlega í að meta frávik sem birtast í einstökum hópum en öðrum ekki—sérstaklega ef þátttakendur eru fáir.

Athugaðu að leifin þarf ekki að vera normaldreifð heldur villan. Við skoðum leifina eingöngu vegna þess að hún er mat okkar á villunni og því gerum við ráð fyrir því að eiginleikar villunnar birtist okkur í leifinni.

2004-12-04a

Áhrif ofmats eða vanmats á hallatölu

Öryggisbil er breiðast til endanna en minnst á miðju frumbreytunnar. Miðað við formúla mætti halda að það ætti að vera minnst þar frumbreytan er lægst (gildi frumbreytu * hallatala) en mest þar sem hún er hæst (þar sem vitlaust mat hefur þar mest áhrif). Afhverju er þetta svo?

Þú ert væntanlega að tala um öryggisbil fyrir meðaltöl aðfallslínunnar eða öryggisbil forspárgilda.

Það mætti útskýra þetta stærðfræðilega en meikar það ekki líka sens að þar sem við höfum mestar upplýsingar vitum við mest um spágildið. Þegar fjær dregur meðaltali frumbreytunnar því minna vitum við um spágildið og því verður öryggisbilið breiðara.

2004-12-04b

Forsendur aðfallsgreiningar

Hverjar eru forsendur þess að við getum gert aðfallsgreiningu?

Eru þetta ekki fyrstu þrjár glærur fyrirlestrarins, Einföld aðfallsgreining, Aðfallsjafnan og Aðfallsjafnan sem röð meðaltala og síðan glærurnar Mat á leifinni og Normalrit af leif sem koma síðar í fyrirlestrinum—svona fljótt á litið? Síðan er það auðvitað kennslubókin sem fer nákvæmlega í þetta.

2005-04-14a

Munurinn á villu og leif

Hver er munurinn á villu og leif, mér finnast þessi orð vera notuð sitt á hvað á glærunum? Er verið að tala um frávik hvers gildis frá réttu línunni í þýðinu annarsvegar og hinsvegar frávik hvers gildis frá einhverri áætlaðri línu? Hvort er þá hvað?

Þetta er einmitt eins og þú lýsir því. Þú sérð þetta ágætlega með því að pæla í gegnum textann á Ólíkum formum á jöfnunni og skoða táknin á Helstu táknum.

Villan er frávik mæligildis frá línunni í þýði, þ.e. réttu línunni. Dæmi um villu sérðu á Aðfallsjöfnunni, þ.e. bláu punktalínuna merkta með ε. Þessari línu er lýst með efstu formúlunni á Ólíkum formum á jöfnunni.

Leifin er aftur á móti frávikið frá reiknuðu (metnu) línunni. Henni er lýst með síðustu formúlunni á Ólíkum formum á jöfnunni. Við vitum ekki hversu nálægt réttu línunni (þýðislínunni) reiknaða (metna) línan er. Við gerum hins vegar ráð fyrir að frávik hvers mæligildis (hvers einstaklings) frá reiknuðu (metnu) línunni gefi að jafnaði góða mynd af fráviki þess (hans) frá (réttu) línunni í þýði.

Á þennan hátt er leifin í úrtakinu sambærileg við villuna í þýðinu, sbr. Helstu tákn. Við getum því notað leifina sem mat (spá) okkar á villunni.

Skoðaðu vel Mat á leifinni.

Þú segir að hugtökin séu notuð sitt á hvað í glærunum. Myndir þú ekki lesa glærurnar aftur yfir með hlíðsjón af þessum útskýringum og láta mig vita ef hugtakanotkun hefur farið einhvers staðar á flakk í glærunum. Láttu mig vita ef þér virðist sem þeim sé víxlað á einhverjum stað.

2005-04-21a

Leiðrétt leif

Hvað er leiðrétt leif? Ég er búin að skoða glærurunar og bókina fór einnig í Spurt og svarað úr eldri áföngum en næ þessu ekki enn.

Þetta er mjög löng útskýring. Það getur verið að þú eigir eftir að sjá eftir því að hafa spurt, því hér kemur mjög ítarlegt og flókið svar. Ástæða þess að þú fannst enga skýringu er sú að skýringin er svo flókin að ég hef yfirleitt sleppt henni alveg.

Leiðrétt leif í aðfallsgreiningu er nefnd Studentized deleted residual í SPSS. Þessi leif hefur þá eiginleika að hún er stöðluð, þ.e. með meðaltalið 0,0 og staðalfrávikið 1,0.

Vandinn við venjulega staðlaða leif er sá að henni er ætlað að meta villuna. Villan er innbyrðis óháð, þ.e. frávik eins einstaklings frá réttu línunni segir ekkert til um frávik annars einstaklings. Hún er einnig alls staðar með sömu dreifingu, þ.e. að jafnaði jafnmikil hvar sem litið er á línuna.

Þessar forsendur standast ekki þegar litið er til leifarinnar. Þetta sést best á því að meðaltal leifar í úrtak er alltaf 0,0. Til samanburðar er meðaltal villunnar einnig 0,0 en ef þú reiknar meðaltalið fyrir lítinn hóp einstaklinga er alls óvíst hvort meðaltalið fyrir þá einstaklinga sé 0,0. Það er einungis átt við að meðaltalið nálgast núll meira og meira eftir því sem við reiknum meðaltalið yfir fleiri einstaklinga.

Við skulum spá þyngd minni, þinni og Hafrúnar út frá hæð. Ef ég er 4 kg fyrir ofan reiknuðu línuna, þú er 3 kg fyrir neðan línuna, þá hlýtur Hafrún að vera 1 kg fyrir neðan línuna, því leifin leggst alltaf saman í 0,0. Ef við miðum við að línan sé reiknuð í úrtaki okkar þriggja, hlýtur leifin fyrir eitt okkar að ákvarðast af leif hinna. Við getum því ekki sagt að leifin fyrir Hafrúnu sé óháð leifinni fyrir okkur tvö. Athugaðu að miðað við réttu línuna getum við öll verið fyrir ofan línuna, öll fyrir neðan eða hvaða mynstur sem vera skal—villan fyrir okkur þrjú þarf ekki að leggjast saman í 0.0.

Forsendan um að villan sé alls staðar jöfn að stærð stenst ekki heldur fyrir leifina. Það er flóknari skýring á því sem ég kýs að fara ekki í. Í aðalatriðum snýst þetta um það að sum mæligildi toga línuna til sín, hafa mikið vogarafl (leverage), og því verður frávikið (leifin) minna fyrir þau.

Lausnin á þessu felst í því að leiðrétta staðalvillu hvers mæligildis í samræmi við áhrif þess á reiknuðu línuna. Þannig fæst stöðluð leif sem er alls staðar jafn stór að jafnaði, þ.e. breidd dreifingarinnar er alls staðar sú sama. Auk þess er leifin gerð óháð með því að reikna fjarlægð mæligildis frá reiknuðu línunni þannig að mæligildið sé fjarlægt úr gagnasafninu, línan reiknuð upp á nýtt og fjarlægð mæligildisins frá þessari nýju línu er notað sem leif. Þetta þarf að gera fyrir hvert og eitt einasta mæligildi.

Leiðrétt leif er kölluð studentized sem vísar til þess að staðalvillan hefur verið leiðrétt fyrir mismikið vogarafl. Hún er sögð deleted sem þýðir að leifin hefur verið reiknuð út miðað við reiknaða línu sem byggist ekki á viðkomandi mæligildi heldur aðeins á öllum hinum mæligildunum—viðkomandi mæligildi er fjarlægt úr útreikningi línunnar þegar leifin fyrir það er ákvörðuð.

Skiptir þetta máli? Yfirleitt alls engu. Ef forritið hins vegar gefur val, er best að fá besta fáanlega mat á villuna en það fæst með leiðréttri leif. Í lang langflestum tilvikum get ég hins vegar notað venjulega staðlaða leif í stað leiðréttrar leifar eða jafnvel óstaðlaða leif.

2005-04-25a

Vendigildi þegar nákvæmar frígráður eru milli talna í töflunni

Þegar við erum með frígráður sem eru á milli talna í töflunni eins og df= 38, hvort förum við eftir df 30 eða 40 í töflunni?

Nemandi svarar: Mér finnst eðlilegra að nota 30 af því að þá er maður öruggari með túlkun á niðurstöðum, þótt munurinn sé ekki mikill á milli þeirra p-gilda sem maður fær. Minnir að ég hafi séð þetta gert svona einhversstaðar í bókinni. Ég fékk samt krossadæmi á netinu sem gaf mér ekki alveg rétta útkomu þegar ég valdi lægri töluna en gaf mér rétta tölu þegar ég valdi hærri töluna. Þetta er örugglega einhver villa á netinu

Nemandi svarar: Ok en ef við erum með n= 100 og gerum df= 100−1= 99 eigum við þá að leita niður í 60?

Það er ekkert eitt rétt í þessu. Þú getur (a) rúnnað að nálægustu tölu, (b) farið í næstu tölu fyrir neðan eða (c) beitt línulegri nálgun.

Línuleg nálgun er það að taka t.d. 80 og 100, segja að 99 sé 19/20 af fjarlægðinni frá 80 (eða 1/20 af fjarlægðinni frá 100). Taka mismun vendigildanna fyrir 80 og 100 og bæta 1/20 við vendigildið fyrir 100 frígráður. [Þetta hljómar flóknara en það er í framkvæmd.]

Það er ekki hægt að fullyrða hvaða leið sé best en línulega nálgunin er vissulega nákvæmasta aðferðin og sú sem ég notaði í gamla daga þegar ég var upp á uppflettitöflur kominn.

Aðferð b, það að velja næstu frígráðu fyrir neðan, er íhaldsöm í þeim skilningi að þá verður marktekt síður vegna „rangrar“ uppflettingar. Hins vegar minnka afköstin einnig svo kostir aðferðarinnar eru umdeilanlegir. Þetta er samt mjög algeng ráðlegging.

Þú getur einnig reiknað þetta nákvæmlega í töflureikni. Einfaldlega notaðu formúluna =FINV(0,05;1;99) sem gefur niðurstöðuna 3,94. Þessi nákvæma niðurstaða sýnir auðvitað hve varhugavert er í þessu tilviki að fara í næstu frígráður fyrir neðan: =FINV(0,05;1;60) gefur 4,00 meðan =FINV(0,05;1;100) gefur 3,94. Þegar við erum svona nálægt uppgefnum frígráðum í töflunni þá er greinilega réttast að námunda að nálægustu frígráðum.

Svo er annað mál hvað próf á neti gerir ráð fyrir, það er náttúrulega sér úrlausnarefni.

2008-05-13b

Kafli 15: Mann-Whitney Wilcoxon

Er nóg að lesa glærurnar?

Eigum við að lesa 15. kafla sem er á geisladiskinum og fjallar um Wilcoxon Mann - Whitney prófið eða er nóg að lesa bara glærurnar úr því efni?

Því miður get ég ekki sagt til um hvað sé nóg að lesa. Varðandi 15. kafla bendi ég þó á að lesa hann með hliðsjón af glærum, þ.e. aðeins þá undirkafla sem tengjast efni glæranna—Mann-Whitney Wilcoxon prófinu sem slíku.

2005-05-10d

Fletta summu raðtalna upp í töflu

Það stendur í glærum að maður eigi að taka summu raðtalna sem er lægri en í bókinni stendur að nota eigi þá sem er hærri. Hvort er rétt?

Ég er ekki með bókina hjá mér. Aðalatriðið hér er þó hvernig taflan er gerð sem flett er upp í. Flestar töflur, held ég, miða við lægri summuna, en samkvæmt þér þá miðast taflan í bókinni við hærri summuna.

Þetta er því ekki ósamræmi í reynd, aðalatriðið er að átta sig á því í hverju tilviki fyrir sig hvernig taflan er sett upp.

2008-05-10b

Mynd á glærunni Göllum Wilcoxon Mann-Whitney

Er það rétt skilið hjá mér að myndin á Göllum Wilcoxon Mann-Whitney sem sýnir 3 mismunandi myndir séu allt dæmi þegar ekki er æskilegt að nota WMW prófið eða er það bara miðjumyndin?

WMW er til vandræða sökum þess að það prófar aðra núlltilgátu en t-próf.

Á fyrstu myndinni er allt í húrrandi velsæld, það er munur á miðsækni og svipuð dreifing í báðum hópum. Á miðjumyndinni er breidd dreifinganna ólík, misleitni, og því er ekki hægt að treysta WMW. Síðasta myndin er einnig vandamál, því þar er ólík breidd sem leiðir til þess að WMW er ekki að treysta.

En ekki taka þó myndirnar of bókstaflega. Það sem skiptir máli er einsleitni / misleitni í þýði en þetta sýnir niðurstöður í úrtaki. Myndirnar voru einfaldlega hugsaðar sem sýnishorn af aðstæðum þar sem við gætum efast um traustleika WMW.

Eins og segir í textanum þá er ekki hægt að líta svo á að WMW prófi staðsetningu nema dreifingin sé eins í báðum hópum og þá þarf að líta bæði til breiddar og lögunar dreifinganna.

2008-05-14b

Spurningar varðandi SPSS, CrunchIt o.fl.

Forritlingar fyrir staðalfrávik

Ég var að prufa alla þessa forritlinga. Gat ekki séð að neinn þeirra reiknaði út staðalfrávikið fyrir mig. Hefur mér kanski sést yfir það´'

t-prófsforritlingarnir gefa flestir staðalfrávik í viðkomandi hópum, kanski nægir það þér.

Einnig eru nokkrir forritlingar á vefnum sem gera þetta, t.d.: http://www.assumption.edu/users/avadum/applets/MeanSTD/descriptive.html og http://graphpad.com/quickcalcs/CImean1.cfm?Format=C

Þú getur einnig notað CrunchIt (StatCrunch). Einfaldlega sláðu inn viðkomandi tölur í dálk, farðu í Stat/Columns, veldu dálkinn sem þú vilt vinna með og smelltu á Calculate.

2005-02-10a

Hvernig opna ég forritlingana?

Ég get ekki opnað þessa forritlinga. Þarf maður að hafa SPSS-forritið til þess, eða hvernig gerir maður?

Þú smellir einfaldlega á tengiorðið fyrir forritlinginn og þá á hann að opnast.

Forritlingarnir eru af ýmsu tagi og því hlýtur þú að geta opnað a.m.k. einhverja þeirra. Sumir eru vefsíður með hnöppum og krefjast JavaScript. Aðrir nota Java. Enn aðrir eru með forrit sem keyra á þjóninum hinum megin.

Ef þetta er áframhaldandi vandamál, þarftu að láta einhvern fróðan félaga líta á uppsetninguna hjá þér. Það er hugsanlegt—en ólíklegt—að þú sért að loka fyrir annað hvort Javascript eða Java. Þá væri einfalt að kippa þessu í lag.

Best er þó að nota einföldu og tryggu regluna. (1) Prófa aftur seinna, (2) prófa í annarri tölvu og (3) spyrja næsta mann hvort hann geti þetta og vilji sýna þér eða prófa að gera það í þinni tölvu.

2005-02-14b

Niðurstaðan er alltaf bara NaN

Ég er að lenda í veseni með forritið á netinu sem á að reikna afköst, alltaf ef ég set tölur inn og ýti á reikna þá kemur bara Nan.Nan í power reitinn. Ég er búina að prófa að downloada javascript en það breytir engu. Hvað á ég að gera til að fá þetta til að virka?

Viðbót síðar: Ég er búin að finna út úr þessu; það má bara ekki nota kommu aðeins punkta þegar sett er inn í reitina.

Ekki rugla saman Java og javascript. Þrátt fyrir nöfnin tengist þetta ekkert. Javascript er í vafranum og er því ekki hlaðið niður.

Eins þú hefur fundið út stendur Nan fyrir ensku orðin „Not a number.“ Reikniföllin líta svo á að t.d. 193,2 sé ekki tala sökum kommunnar og býst við að slíkar tölur séu ritaðar sem 193.2.

Þetta er svipað og að taka kvaðratrót af mínustölu, niðurstaðan er engin. Það má líkja þessu við að margfalda epli með appelsínu, það er óvíst hver niðurstaðan er en þó er víst að niðurstaðan er ekki í tölum, þ.e. NaN.

2008-03-07a

Hvar finn ég öryggisbilið í CrunchIt?

Hvar reikna ég öryggisbiið í Crunch It?

Til að reikna öryggisbil í CrunchIt þarf fyrst að velja hvers konar marktektarpróf þú ætlar að nota. Marktektarprófið velur þú undir flipanum „Stat.“ Þegar þú ert búin að fylla inn í fyrsta gluggann sem opnast áttu að ýta á „next“ og í næsta glugga er hægt að haka við „Confidence Interval“ neðst.

TLT: 2006-02-22a

Tvö kassarit saman á mynd

Hvernig er hægt að gera kassarit í SPSS þannig að tvö kassarit verði inná sömu myndinn?x

Hægt er að hafa 2 kassarit inn á sömu mynd með því að fara í Graphs > Boxplot, velja þar Simple og Summaries of separate variables.

TLT: 2006-02-22b

Marktektarpróf í WebStat (CrunchIT)

Þegar ég notaði Webstat [nú kallað CrunchIt] til að framkvæma marktektarpróf voru þau gildi sem ég fékk allt önnur en þegar ég reiknaði þetta í höndunum, kannist þið við þetta? Ætti útkoman ekki að vera nákvæmlega sú sama?

Þú átt að fá svipuð gildi þegar þú reiknar í höndum og þegar þú notar WebStat [CrunchIt]. Aðalvandinn við handútreikninga er að ekki séu nægilega margir merkingabærir tölustafir í milliniðurstöðum. Miðaðu við að nota u.þ.b. fjóra merkingabæra tölustafi í öllum milliniðurstöðum en þá er ég að tala um tölustafina sem koma á eftir öllum núllunum. Talan 0,00021 er með tvo merkingarbæra tölustafi, 0,000207 eru með þrjá.

Ég hef ekki handreiknað marktektarprófið en gerði það í Excel. Þá fæ ég mjög áþekkar niðurstöður en ekki nákvæmlega þær sömu og í WebStat [CrunchIt]. Frávikið hjá mér er í fjórða merkingabæra tölustaf fyrir z-prófið en í öðrum merkingabærum tölustaf fyrir öryggisbilið. Ástæðan getur verið einhver ónákvæmni í WebStat [CrunchIt] eða það að aðrar formúlur séu notaðar.

Almennt séð: Hafðu ekki áhyggjur þótt þínar niðurstöður séu eilítið frábrugnar því sem forritlingarnir gefa. Gættu þess að nota nægilega marga merkingabæra stafi í milliniðurstöðum og hafðu í huga að niðurstöður ættu að vera áþekkar þeim sem fást með forritlingunum.

Athugaðu einnig að ef þú finnur forritling á tenglasíðu námskeiðsins eða glæru sem gerir viðkomandi útreikninga, er sjálfsagt að nota þá og láta handútreikning eiga sig—samanburðinn einnig. Okkur sýnist þó að ekki verði komist hjá einhverjum útreikningum í höndum.

2005-03-21b

Krosstöflur í CrunchIt

hvernig á eigilega að setja gögnin inn í WebStat [CrunchIt]? Ég finn engar krosstöflur þar.

Þegar þú ert komin í Webstat [CrunchIt], þá ferðu í Stat og þar velurðu undir Tables.

IDW: 2005-04-09a

CrunchIt og staðalvilla

Af hverju birtir CrunchIt mismunandi staðalvillu í niðurstöðutöflunum þegar maður reiknar hlutfalla próf (proportions - two sample - with summary) fyrir z-gildið og fyrir öryggisbilið, þótt að maður noti sömu mæligildin í reitina sem maður á að fylla út.

Eitt dæmi um þetta er Mismunur hlutfalla í Crunch It í Ályktunum um hlutföll. Staðalvillan fyrir marktektarprófið er 0,0061 meðan hún er 0,0062 fyrir öryggisbilið.

Skýringuna á þessu fáum við með því að skoða formúlurnar fyrir staðalvilluna á annars vegar Öryggisbilum tveggja hlutfalla og Marktektarprófi á mismun lutfalla hins vegar.

Við marktektarpróf notum við viðmiðsgildin samkvæmt núlltilgátunni við að ákvarða staðalvilluna. Þetta myndi samsvara því ef við ætluðum að reikna öryggisbil í kringum viðmiðsgildið. Þegar við hins vegar reiknum öryggisbilið notum við hlutföllin í úrtakinu, enda ætlum við að reikna öryggisbil samkvæmt okkar besta mati á mismuni þýðishlutfalla. Okkar besta mat (estimate) á mismuni þýðishlutfalla er ekki jafnt viðmiðsgildinu og því fáum við ólíkar staðalvillur eftir því hvort við reiknum marktektarpróf eða öryggisbil fyrir mismun hlutfalla.

Á Mismuni hlutfalla í Crunch It munar mjög litlu á staðalvillunum, þ.e. nánast engu. Það er vegna þess að mat okkar á mismuni hlutfallanna er aðeins 0,057 sem er það nálægt 0,0 að staðalvillan verður nánast sú sama en þó ekki nákvæmlega sú sama.

2006-03-23a

Descriptives/explore, marktekt o.fl.

Descriptives/Explore gefur okkur marktekt og fleira á leifina. Normalrit á leif er ekki fengið þannig er það?

Descriptives/Explore er einföld leið til að fá normal- og kassarit t.d. fyrir leifina eða hvaða breytu sem við kjósum að tilgreina.

Það er sýnt nákvæmlega á Helstu myndritum aðfallsgreiningar hvernig hægt er að fá normalrit af leif; notaðu tengiorðið neðst á heimasíðu námskeiðsins www.gba.is/tol2 . Athugaðu að valmyndirnar eru eilítið breyttar frá þeirri útgáfu sem var notuð til að gera leiðbeiningarblöðin. Notaðu því Analyze/Descriptives/Explore en ekki þá leið sem sýnd er á leiðbeiningarblaðinu.

Það kemur alls konar tölfræðilegt rusl með myndritunum. Það má minnka með því að velja Display/Plots í upphafsvalglugganum fyrir Explore. Ég mæli einnig með uppháum stígvélum til að fá ekki allt slorið á sig.

2005-04-23a

Normalrit og Graphs-QQ Plots

Er Descriptives/explore sambærilegt við að nota Graphs/QQ Plots og velja svo studentized residual?

Þú færð sambærilegt myndrit með Graphs/Q-Q en ekki nákvæmlega það sama.

Munurinn liggur í því að á normalriti ertu með væntigildi normaldreifingar á lóðrétta ásnum. Þannig rit færðu með Analyze/Descriptives/Explore. Ef þú notar Graphs/Q-Q færðu rit þar sem lóðrétti ásinn sýnir það gildi sem breytan ætti að hafa ef hún væri normaldreifð. Munurinn er sem sé hvort lóðrétti ásinn er í staðalfrávikum eða á sama kvarða og breytan á lárétta ásnum.

Á Graphs/Q-Q er hægt að haka við og fá þannig báða kvarðana í staðalfrávikum en ekki samtímis lóðrétta ásinn í staðalfrávikum og þann lárétta í upprunalegum gildum eins og á hefðbundnum normalritum.

Myndirnar líta eins út hvort sem þú notar Analyze/Descriptives/Explore eða Graphs/Q-Q, það er aðeins kvarðinn á lóðrétta ásnum sem breytist. Ég mæli með því að þið notið hefðbundin normalrit, þ.e. Analyze/Descriptives/Explore.

2005-04-24a

Normalrit af mismuni tveggja hópa

Hvernig gerum við normalrit á mismun tveggja hópa eins og sést á Pöruðu t-prófi sem prófi í einum hópi í t-prófum á meðaltöl?

SAS svarar: Ef þú ætlar að skoða mismun á tveimur mælingum, þá þarftu að búa til nýja breytu þar sem þú dregur seinni mælinguna frá þeirri fyrri. Svo getur þú búið til normalrit af þeirri breytu.

SAS: 2008-02-20b

Leifarit: Hvað á að vera á x-ás og hvað á y-ás?

Ég var að velta því fyrir mér að þegar ég er að reyna að gera leifarit, þá fer ég í analyse regression linear og ýti á plots. Á ég að setja spágildið zpred á x-ás? Hvað á ég setja í y-ás, er það zresid, dresid, sresid eða sdresid?

Þú setur ADJPRED (adjusted predicted values) á X-ás og SDRESID (studentized deleted residual) á Y-ás. Myndin hjálpar o kkur að meta hvort villan sé alls staðar jafnmikil. Athugaðu að þetta rit er ekki normalrit.

UDT: 2006-04-22a

Súlurit í SPSS

Á Hvernig birtast tengsl í krosstöflu? í fyrirlestrinum Krosstöflur er mynd af súluriti. Getur einhver gefið leiðbeiningar um hvernig gera á slíka mynd í SPSS?

SAS svarar: Þú getur í fyrsta lagi gert myndina í Excel the OpenOffice Calc. Þá býrð þú til krosstöflu þar útfrá töflunni þinni í SPSS. Einnig getur þú gert súluritið í SPSS Með Graphs/ Bar/ Clustered og svo skilgreinir þú klasana útfrá frumbreytunni. Ég er ekki fyrir framan nýjasta SPSS mig minnir að valmöguleikarnir séu eitthvað öðruvísi þar en þá getur þú nýtt Help/topics/search og slegið in „bar“ eða eitthvað álíka og fundið út úr því þar.

Nemandi sem spurði bætir við: Ég fann reyndar enn auðveldari leið: Analyze – descriptives – crosstabs, haka þar við display clustered bar charts og bingó, þetta fína súlurit sprettur fram.

Vandinn við þessa leið er að SPSS teiknar súluritið rangt, lætur dálkabreytuna skilgreina klasana. Við látum frumbreytuna í dálkana og viljum því að hún skilgreini láréttu línuna á myndinni en línubreytan skilgreini klasana.

Ef þú ferð í tölvukennsluefnið í Aðferðafræði II, www.gba.is/adf/ttimar og velur verkefni 6 færðu stutt yfirlit yfir krosstöflur og klasarit í SPSS.

SAS bætir við: Bara til þess að fyrirbyggja misskilning þá erum við að tala um að frumbreytan sé á lárétta ásnum (x-ásnum). Þá eru súlurnar jafnmargar og flokkar fylgibreytunnar (fyrir hvert gildi sem frumbreytan tekur). T.d. væru þá einn klasi fyrir konur með öllum flokkum fylgibreytunnar og annar klasi fyrir karla með öllum flokkum fylgibreytunnar.

2008-04-03a

Öryggisbil óháðra hlutfalla

Þegar reiknuð eru öryggisbil í CrunchIT og SPSS reikna forritin þá öryggisbilin miðað við normalnálgun eða koma þau leiðrétt?

Ekki er hægt að reikna út öryggisbil í SPSS þar sem við höfum ekki gagnasafn. Við getum aftur á móti reiknað út öryggisbil í CrunchIt. CrunchIt gefur öryggisbil miðað við normalnálgun.

Til að fá leiðrétt öryggisbil getur þú farið á VassarStats vefsíðuna. Þar ferðu í Prorportions í valseðlinum og síðan í confidence interval for the difference between tvo independent proportions. Veldu þær niðurstöður þar sem stendur no continuity correction. Þá færðu forritling sem reiknar þetta út fyrir þig.

Athugaðu að forritlingurinn notar Wilsons score-aðferð sem er sams konar en mun nákvæmari heldur en breytt Wald próf.

UDT: 2006-03-15a

Almennnt um skýrsluskrif

Uppbygging skýrslunnar

Ég er í smá veseni með innganginn. Hvað er ætlast til að maður tali um þar og á maður e-ð að tala um t-próf?

Miðað er við að verkefnið sé á APA-formi, þ.e. með Inngangi, Aðferð, Niðurstöðum og Umræðu, að svo miklu leyti sem við getur átt.

Notaðu Inngang til að skapa umgjörð um verkefnið. Skýrðu frá stöðu verkefnisins sem nemendaverkefnis í námskeiði, fjallaðu um kaffi, koffín og neyslu þess, geðlægð o.s.frv. miðað við almenna bakgrunnsþekkingu þína og gerðu grein fyrir rannsóknarspurningunni og mikilvægi hennar.

Notaðu Aðferð til að gera grein fyrir gögnunum, þ.e. hvaðan þau eru komin, hverjir þátttakendur eru, hverjar breyturnar eru og öðrum atriðum sem tengjast gagnasafninu og eiginleikum þess og breytanna.

Í Niðurstöðum gerir þú grein fyrir talnalegum og myndrænum niðurstöðum úrvinnslunnar. Hér gerir þú grein fyrir flestum liðum verkefnisins samanber yfirlitið.

Í Umræðu setur þú fram heildarályktun á mannamáli byggðri á niðurstöðunum. Hér gerir þú einnig grein fyrir því ef einhverjir veikleikar eru í gögnum eða úrvinnslu.

Á að tala um tölfræðileg efni eins og t-próf eða annað slíkt? Það er álitamál en er oft gert og fer gjarnan vel í verkefni. Slíkt efni getur farið ýmist í Inngang eða Aðferð eftir atvikum. Þetta getur einfaldað verkefnið að öðru leyti, þar sem hægt er að vísa til baka í þessa umfjöllun til að rökstyðja hvaða leiðir eru farnar í úrvinnslu. T.d. ef frávillingur er í gögnunum sem bregðast þarf við á einhvern hátt, er gott að hafa fjallað um frávillinga og viðbrögð við þeim í Inngangi. Ef hins vegar enginn frávillingur er til staðar, væri slík umfjöllun kanski aðeins til þess að teygja lopann. Ef ég nota annað hvort t-próf í óháðum hópum eða parað t-próf, gæti verið auðveldara að rökstyðja það ef nokkrum orðum hefur verið farið um slík próf í Inngangi. Þannig er hugsanlega auðveldara að gera grein fyrir því hvernig úrvinnsluaðferðin var valin og hvaða sjónarmið lágu því að baki.

Aðalatriðið er þó það að þú vilt gera velheppnað verkefni. Það er engin ein uppskrift af því en við leitumst við að kannast við slík verkefni þegar þau berast í öllum þeim myndum sem þau birtast. Ég vonast samt til þess að ofangreint umfjöllun hjálpi þér til þess að gera þitt verkefni að slíku.

2005-02-24a

Þarf að hafa inngang?

Ef skýrslu er skilað á APA formi, er nauðsynlegt að hafa inngang? Mér finnst við ekki hafa nægar upplýsingar til að gera inngang!

Í inngangi setur þú verkefnið í rétt samhengi svo lesandi skilji það í heild sinni. Það getur verið ákveðið smekksatriði hvað þú hefur í inngangi en eftirfarandi eru nokkur atriði sem gjarnan eru sett þar.

Þetta er ekki endilega í réttri röð og aðeins nokkur atriði sem mér koma í hug þessa stundina. Mér getur sést yfir eitthvað en einnig er hægt að gera góðan inngang á ýmsa vegu. Eftirfarandi er þó sennilega í einhverri mynd í öllum inngöngum sem standa undir nafni.

Inngangur vefst oft fyrir nemendum og því höfum við töluvert þol hvað hann varðar. Síðar munum við gera afdráttarlausari kröfur og því er gott að stefna að góðum inngangi strax í fyrstu verkefnunum.

2004-09-25b

Fyrri rannsóknir í Inngangi

Eigum við að vera eitthvað að leita að fyrri rannsóknum varðandi þetta efni og nefna í Inngangi, vegna þess að samkvæmt Gagnfræðakveri á það að koma fram í Inngangi. En eigum við ekki að tala um hlutföll, marktektarpróf mismun hlutfalla, og öryggisbil og föstudaginn 13?

Ekki gera það. Þetta á að vera verkefni sem stendur fyllilega undir sér og því með Inngang, Aðferð, Niðurstöður og Umræðu eins og vera ber. En ekki gera þetta að sjálfstæðri vísindaritgerð. Byggðu innganginn því á þinni forþekkingu, því sem þú veist um hlutföll og markmiðum rannsóknarinnar. Passaðu þig að þetta sé inngangur en ekki fara að reyna að hafa eitthvert efni sem byggist á sjálfsstæðri heimildarvinnu.

Það er mjög algengt að nemendur noti Inngang til að fjalla m.a. um þessi atriði sem þú nefnir. Það hefur þann kost að þú festir þau betur í huga þér og ert því í reynd að læra þessa hluti. Væntanlega myndi það síðan nýtast þér á lokaprófinu.

2005-03-21a

Á að vera útdráttur?

Undir verkefnið stendur að skýrslan þarf að vera á APA-formi, þ.e. með Inngangi, Aðferð, Niðurstöðum og Umræðu. En hvað með úrdrátt?

SAS svarar: Almennt séð þarf að vera útdráttur þegar þið skrifið skýrslu skv. APA. EN í Tölfræði II og III er ekki gerð krafa um útdrátt þótt hann megi að sjálfsögðu vera með.

SAS: 2008-02-20a

Heimildir og lengd skýrslu

Ég var að velta því fyrir mér hvernig inngangurinn ætti að vera, hvort leita skuli heimilda og ef svo er, hversu margar eigi að nota. Einnig þætti mér gott að vita hvort einhver lágmarks lengd sé á verkefninu. Jafnframt vil ég vita hvort útskýra eigi hugtök á borð við tvíblindni (Double Blind) og þunglyndiskvarða Becks út í hörgul.

SAS svarar: Inngangurinn er aðallega hugsaður sem kynning á þeirri tölfræði sem notast er við í verkefninu (s.s. marktektarpróf og hvað þau eru) með tengingu við efnið sem er svipuð þeirri sem kemur fram í verkefnalýsingunni. Þú þarft ekki að útskýra tvíblindar rannsóknir eða kvarða Becks neitt umfram það sem kemur fram í verkefnalýsingunni. Þið þurfið ekki að nota neinar aðrar heimildir en kennslubókina og fyrirlestra nema þið endilega viljið.

Ég vil einnig benda á ítarleg svör við svipuðum spurningum hér á Spurðu og svöruðu.

SAS: 2008-02-12a

Fara svör við spurningu í umræðu eða niðurstöður?

Á að svara spurningunum sem settar eru fram í verkefnislýsingu í umræðu eða í niðurstöðukafla? Á ekki bara að hafa tölulegar upplýsingar í niðurstöðum og svara þar af leiðandi flestu í umræðukafla?

SAS svarar: Því sem þú svarar í orðum kemur þú fyrir að mestu leyti í umræðukafla. En niðurstöður og tilheyrandi útskýring á hvað myndir og töflur eru að sýna eiga heima í niðurstöðum. Aðalatriðið hér í tölfræði er að öllum spurningum sé svarað í skýrslunni og settar á þann stað sem þú telur að þær eigi best heima sbr vinnulagið og spurt og svarað á heimasíðu námskeiðsins.

SAS: 2008-02-22b

Hvernig myndrit á að nota

Hvernig myndrit er ætlast til að maður noti og er í lagi að nota Excel ef maður kann ekki á SPSS? Er ætlast til að öryggisbil o.fl. sé reiknað í „höndunum“ eða með því að nota forrit?

HK svarar: Það er í lagi að nota Excel ef þú kannt ekki á SPSS eða hvað annað forrit sem þú kýst.

Það er í raun ekki ætlast til að þú notir eitt myndrit fram yfir annað heldur áttu bara að lýsa gögnunum eins vel og þú getur. Í þessu er í raun ekki eitthvað eitt rétt eða rangt.

Þið ráðið hvort þið reiknið öryggisbil o.fl. (eins og þú orðar það) í höndunum eða notir SPSS, Excel eða eitthvað af þeim forritum sem Guðmundur hefur bent á á síðunni sinni. Það er alla vega mun minni vinna að láta eitthvert forrit reikna þetta fyrir sig. Við viljum bara fá niðurstöður—hvernig þú kemst að þeim er þitt val.

2005-02-23a

Texti í skýrslu

Er ætlast til að við skrifum okkar eigin texta í skýrsluna (til að lýsa tilrauninni og þannig) eða má nota þann sem er í lýsingunni.

Þegar maður er að skrifa sinn eigin texta og styðjast við þann sem er í verkefninu er stundum mjög erfitt að finna aðra leið til að skrifa það sem stendur í verkefninu. Er alveg bannað að hafa eina og eina setningu eins? Ég tek það farm að ég er ekki að spyrja hvort megi ekki bara skrifa textann sem er í verkefninu.

Já, þú átt að skrifa þinn eigin texta í skýrsluna. Þú getur auðvitað stuðst við þann texta sem fylgir verkefninu en passaðu þig á því að taka hann ekki upp orðrétt.

Þú mátt ekki taka upp heilu setningarnar og hafa þær eins. Þú verður að umorða. Auðvitað á textinn þinn eftir að líkjast textanum úr verkefninu þar sem sömu hlutir verða að koma fram en þú verður samt breyta orðalaginu.

TLT: 2006-02-21a

Hvernig fæ ég rétt APA útlit á töflur?

Hvaða útlit á að velja í Table looks til að fylgja APA-stöðlunum? Við heyrðum eitthvað talað um að það ætti að vera academic en það er um nokkur að velja, m.a. academic narrow, academic 2 o.s.frv. Þetta stendur ekki í gagnfræðakverinu!

Academic kemst nokkuð nærri APA töflum. Veldu Academic eða Academic VGA því hinir Academic valkostirnir eru með tvöföldum línum, a.m.k. hjá mér.

Þetta er almennt slæmur kostur því töflur í SPSS eru yfirleitt afar illa lukkaðar og með mörgum óþörfum viðbótarupplýsingum. Í staðinn ættir þú að búa til töflu í ritvinnsluforritinu þínu (t.d. Word), færa aðeins þær upplýsingar sem skipta máli í hana; klippa og skeyta eða jafnvel handslá inn tölurnar. Þetta gerum við hin, virkar vel og er fljótlegt.

Ef þú ert síðan löt, svona eins og ég, og notar Word þá ferðu í Table/Table Autoformat, velur þar Simple 1 og tekur ógeðslega græna litinn af. Ef þú síðan vilt hafa þetta fínt, t.d. hafa neðstu línuna í töflunni grennri en þá efstu eins og APA vill, ferðu í View/Toolbars/Tables and Borders. Þar geturðu notað blýantinn og einn af fellilistunum til að breyta línunum eftir þörfum. Þetta gæti litið öðru vísi út hjá þér; ég er með Office 2000. En þú finnur örugglega út úr þessu.

2006-02-25a

Á ég að vera með skilgreiningar?

Þarf að koma fram textabókarskilgreining á tölfræðiaðferðunum sem við notum, eða dugar okkur að telja þær upp og færa rök fyrir notkun þeirra á tölurnar sem við erum að vinna með?

Skoðaðu svar við svipaðri fyrirspurn sem að vísu snýst um prófsspurningar. Almennt séð eru kennslubókarskilgreiningar ekki vinsælar enda sýna þær ekki endilega að þú hafir vald á efninu. Færðu frekar sem skýrust rök fyrir máli þínu og athugaðu hvort það muni duga.

En auðvitað læturðu skýringar fljóta með þar sem þér finnst það við eiga en bara helst ekki beint úr bókinni heldur þá með þínum eigin orðum og þinni eigin hugsun.

2006-02-26a

Tvær saman um skilaverkefni: Þarf að skila tveimur eintökum?

Ef við erum að vinna 2 og 2 saman eigum við þá að skila 2 eintökum af skýrslunni eða bara einu eintaki?

Við biðjum ykkur einlæglega um að skila aðeins einu eintaki en með nöfnum ykkar beggja á forsíðu. Það verður gefin ein einkunn fyrir verkefnið.

Ef þið skilið tveimur samhljóða eða svipuðum eintökum, myndi það líta út eins og prófsvindl, er það ekki?

2005-02-25b

Nægir ein úrlausn þótt tveir séu höfundar?

Dugar að skila einni skýrslu ef við erum tvö að vinna verkefnið saman?

Já, þið skilið bara einni skýrslu.

TLT: 2006-02-26b

Hvert tel ég sambandið vera?

Þegar ég á að setja fram hvert ég tel sambandið vera án stuðnings við gögn hvar á ég þá að hafa þá umfjöllun? Á þetta heima í inngangi og mega tilgáturnar þá koma í kjölfarið eða eiga tilgáturnar heima einhversstaðar allt annars staðar? Á þessi umræða um það sem ég hefði haldið kanski frekar heima í umræðu þegar niðurstöður liggja fyrir?

Hugmyndir þínar um sambandið eiga heima í inngangi. Tilgáturnar eiga einnig heima í inngangi. Þú getur fjallað um í umræðu hvort sú niðurstaða sem þú fékkst sé í samræmi eða mótstöðu við þessar fyrirfram hugmyndir.

UDT: 2006-03-15b

Þarf að umorða tilgátur?

Er í lagi að setja tilgáturnar beint inn í skýrsluna úr verkefnislýsingunni eða þurfum við að umorða þær?

Ritstuldur úr verkefnislýsingu er ekki alvarlegt afbrot. Metnaðarfullur nemandi leitast hins vegar alltaf við að setja hlutina fram með sínu eigin orðalagi.

Gættu þess að ganga ekki of langt í að endurorða tilgátur, því þær eru nú þegar í mjög knöppum stíl í verkefnislýsingunni. Þú reynir samt að hafa þær t.d. ekki í viðtengingarhætti og fella þær almennt inn í texta þíns verkefnis.

2006-03-18a

Tilvitnanir í glærur

Getur einhver sagt mér hvaða reglur gilda hjá APA þegar verið er að vitna óbeint í glærur kennara úr kennslustund?

Ekki vitna í glærur nema brýna nauðsyn beri til.

Almennt séð áttu að líta á glærur sem hverja aðra kennslu, þú átt að þekkja til efni þeirra án þess að þurfa að vísa sérstaklega til þeirra.

Ef þú metur það þannig að þú þurfir vísun, vísaðu þá í þær sem óbirt gögn. Þú getur t.d. tilgreint að þetta séu óbirtar glærur í námskeiðinu Tölfræði II við sálfræðiskor félagsvísindadeildar Háskóla Íslands. Einfaldlega mitt nafn sem höfund, ártalið sem gefið er upp á glærunum, heiti fyrirlesturins skáletrað og síðan ofangreindur texti innan sviga.

2006-03-20b

Hvað ætti að koma í inngang í verkefni um aðfallsgreiningu?

Hvaða tölfræðiaðferðir ætti að fjalla um í aðfallsgreiningarverkefninu? Er nóg að tala um einfalda aðfallsgreiningu eða þarf að fjallu um hallatölu, r², leifarit, fylgnirit, normalrit og fleira?

Það er undir þér komið, en hins vegar tel ég að umfjöllun um einfalda aðfallsgreiningu hljóti að taka á skýrðri dreifingu, hallatölu (áhrif) og jafnvel villunni (eða leif í úrtaki).

IDW: 2006-04-04a

Útlit á myndum í úrlausnum verkefna

Geturðu sagt okkur nákvæmlega hvernig fylgniritin eiga að líta út á APA-formi, er einhver regla á letri, hvernig punktarnir eiga að vera, hvort ritið eigi að vera hvítt eða grátt og fleira?

Ég er búin að fá athugasemd um að myndir eigi ekki að vera í lit samkvæmt APA í tölfræðiskýrslu. Mér skildist að myndir ættu að vera svartar og hvítar (hvítur bakgrunnur og svartar útlínur, engar auka rendur eða svoleiðis inná myndinni).

Það er allt í lagi að hafa myndir í lit, það gerir skýrsluna aðeins líflegri. Hins vegar er gott að hafa í huga að hægt sé að lesa hana í svart hvítu því það væri nauðsynlegt ef þú ætlaðir að fá hana birta. Flest tímarit hafa ekki lit og því er nauðsynlegt að hafa þetta í huga—við gerum hins vegar eðlilega minna veður út af slíku.

Bakgrunnur á að vera sem einfaldastur. Nánast undantekningarlaust er hann hvítur á vísindalegum myndritum og því ættir þú að hafa hann þannig líka.

Það eru dálítið skiptar skoðanir varðandi rendurnar. Láréttar línur sjást aldrei í þeim mæli sem t.d. Excel notar. Algengast er að hafa engar láréttar línur (grid) en sumir fræðimenn vilja hafa nokkrar línur til hliðsjónar fyrir augað en þá er aðeins verið að tala um þetta 2–4 láréttar línur og stundum annað eins af lóðréttum.

Þegar á allt er litið sýnist mér athugasemdirnar sem þú fékkst hafi verið réttar og þér til gagns að fara eftir þeim. Eina sem gæti verið að fara á milli mála er að vissulega mega myndirnar vera í lit, með þeim fyrirvara um tímarit sem aðeins eru svart hvít, en bakgrunnur ætti að vera hvítur.

2006-04-06a

Töflur með niðurstöðum aðfallsgreiningar

Þarf að birta töflunar í niðurstöðum aðfallsgreiningarinnar, eða er nóg að segja frá og hallastuðlum?

Ég veit ekki alveg hvaða töflur þú átt við. Það er takmarkað sem hægt er að segja frá í einfaldri aðfallsgreiningu, heildar F, p-gildi, , hallastuðull, öryggisbil o.s.frv. Ég sé ekki að neitt af þessu krefjist töflu né að það sé endilega betra að birta það í töflu.

Ef töflurnar eru töflurnar í SPSS þá segi ég bara NEI NEI NEI. Hlífðu okkur við ljótum SPSS töflum. Búðu frekar til þínar eigin með aðeins þeim upplýsingum sem þú telur mikilvægar og hafðu þær á APA formi.

En eins og ég sagði, þá sé ég ekki í fljótu bragði að töflur séu nauðsynlegar þótt auðvitað megir þú hafa eina eða fleiri smekklegar töflur með niðurstöðum aðfallsgreiningarinnar ef þér finnst það skýrara.

2006-04-09a

Verkefni: Marktektarpróf á meðaltöl

Eftirfarandi spurningar og svör beinast að skilaverkefni sem notað hefur verið í námskeiðinu. Verkefni breytast milli ára. Þeim er ýmist breytt eða ný verkefni koma í stað eldri verkefna. Því þarf að meta hverju sinni að hvaða marki gamlar fyrirspurnir og svör eru upplýsandi fyrir úrlausnir núverandi skilaverkefna.

Einhliða eða tvíhiða próf?

(1) Á að tala um parað t-próf í innganginum? Á maður ekki bara að tala um það í aðferðarkaflanum?? (2) Og á ekki að reikna einhliða marktektarpróf en ekki tvíhliða eins og fram kom í stoðtímanum? Ef maður skoðar verkefnið þá á maður alltaf að svara því hvort að fráhvarfseinkenni aukist!

Í verkefnislýsingu segir: „Gerð var rannsókn á því hvort að geðlægð myndi aukast þegar koffínfíklar hættu neyslu koffíns.“

Í spurningunum neðst segir: „Athugaðu hvort dýpt geðlægðar eykst þegar þátttakendur fá ekki sitt venjulega koffínmagn.“

Hvort felur þetta í sér stefnutilgátu eða stefnulausa tilgátu, þ.e. hvort er rannsóknarspurningin prófuð með einhliða eða tvíhliða marktektarprófi? Mér finnst svarið augljóst en kýs að steinhalda kjafti.

2005-02-24b

Öryggisbil fyrir tvíhliða próf

Ég er ekki alveg viss að ég sé að skilja öryggisbil rétt á tvíhliða prófi, er það meðalgeðlægð í þýðinu, eða meðalbreyting á geðlægð í þýðinu, eða eitthvað allt annað kannski?

Ég er hræddur um að þú þurfir að segja meira. Fyrir nákvæmlega hvað ertu að reikna öryggisbil? Hvað kemur það málinu við hvort prófið er tvíhliða eða einhliða?

Athugaðu að tilgátuprófun er einn hlutur og bilspá annar. Í öðru tilvikinu er ég að prófa eina tiltekna staðhæfingu, í hinni er ég að meta sennilegasta gildið í þýði. Próf geta verið einhliða eða tvíhliða. En einhliða öryggisbil…? Tja, allt er hugsanlegt en það væri dálítið skrýtið, eða hvað?

2005-02-25a

Forsendan um normaldreifingu í þýði

Stenst sú forsenda marktektarprófsins að það sé normaldreifing í þýði? Ég spyr því við höfum ekki upplýsingar um þýðið en hef heyrt talað um að breytur eins og tilfinningar normaldreifist í þýði.

HK svarar: Meta verður hvort að sú forsenda standist út frá þeim gögnum sem þú hefur því við höfum ekki upplýsingar um þýðið. Flestir mannlegir eiginleikar normaldreifast. Eins og við vitum eru fáir mjög langt niðri, fáir eru syngjandi glaðir allan sólahringin en flestum líður bara svona ágætlega—eða hvað?

GBA bætir við: Þetta með normalferilinn er fullbratt. Sú trú að breytur normaldreifing, t.d. persónueinkenni, er mjög algeng. Margt bendir þó til þess að það sé beinlínis rangt. Frægasta greinin um þetta efni er eftir Miccerri: The unicorn, the normal curve, and other improbable creatures. Það er óvíst að tengiorðið virki til langframar en þú ættir að geta fundið greinina á Web of Science eða álíka heimildarleit.

Flest marktektarpróf eru traust fyrir minniháttar frávikum frá normaldreifingu en umtalsverð frávik geta haft áhrif sérstaklega á afköst prófsins.

2005-02-25c

Normaldreifing og skekkja

Ef öll gildi breytunnar dreifast um bilið núll til 24, en skalinn nær upp í 63, er þá talað um jákvæða skekkju þó svo að það sé normaldreifing á því bili sem gildin eru á?

Það skiptir ekki öllu hvert talnasviðið er, þ.e. lægsta mögulega upp í hæsta mögulega gildi. Við lítum á það talnabil sem er í úrtakinu sjálfu og gerum ráð fyrir að það gefi upplýsingar um samsvarandi talnabil í þýði. Ef dreifingin í úrtakinu er nokkurn veginn samhverf án áberandi jaðargilda, lítum við svo á að forsendan um normaldreifingu sé sennileg. Þá skiptir engu máli þótt mæligildin safnist öll í neðri hluta talnabilsins—svo fremi að engin stök jaðargildi sé að finna í efri hluta bilsins.

Tökum dæmi þar sem mæligildi dreifast um neðri hluta mun víðara talnabils. Mánaðartekjur Íslendinga eru einhvers staðar á bilinu 0 kr. upp í (segjum) 3 milljónir króna. Ef hins vegar mánaðartekjur 35 nemenda í Tölfræði II normaldreifast með meðaltalið kr. 40.000 (miðað við febrúarmánuð) þá álítum við það sennilegt að þýðið (allir nemendur námskeiðsins) normaldreifist, jafnvel þótt þótt skalinn nái upp í 3.000.000 en tekjur þessara 35 dreifist aðeins á bilið (segjum) 0 kr. til 80.000. Dreifingin væri þá ekki skekkt.

2005-02-27a

Varðandi frávillinga

Ég var að velta því fyrir mér hvort fjarlægja mætti frávilling úr einungis einum hópi, það er að segja, að n verði jafnt og 11 í samanburðarhópi en einungis 10 í tilraunahópi? Tíðkast slíkt, eða gæti það skekkt niðurstöður í marktektarprófi?

Ef þetta eru tveir óháðir hópar, þá er fátt því til fyrirstöðu að hafa eilítið ójafnan fjölda í þeim. En eru þetta tveir óháðir hópar? Skoðaðu vel lýsinguna á rannsóknarsniðinu og mátaðu hana við dæmin í t-próf á meðaltöl.

Þegar þú hefur áttað þig á rannsóknarsniðinu ættirðu að geta fundið úrvinnsludæmi í fyrirlestrinum.

Almennt varðandi frávillinga: Sýndu íhaldsemi í því að fjarlægja frávillinga. Best er ef þú hefur skýran rökstuðning fyrir því, þ.e. að þetta séu í einhverjum skilningi röng gildi eða einstaklingar sem tilheyra öðru þýði.

Á hinn bóginn ef þetta er eingöngu fráviksgildi, getur þrautalendingin verið að skoða úrvinnsluna með og án fráviksins og kanna þannig hvort gildið breyti miklu fyrir niðurstöðuna. Athugaðu að það að ómarktæk niðurstaða (t.d. p= 0,056) verði marktækt (t.d. p= 0,047) er ekki endilega mikil breyting á niðurstöðu!

2008-02-12b

Kassarit af mismun eða hvorum hópi fyrir sig?

Eigum við að gera kassarit á mismun fyrir þunglyndiskvarða Becks? Hvort er rétta leiðin að fara í graphs/interactive/boxplot og svo setja mismun á y-ás? Og viljið þið líka fá kassarit þar sem við berum saman með koffín og án koffíns.

SAS svarar: Nóg er að fara aðra leiðina. Þið skoðið mismuninn ef þið eru með tvo háða hópa en hvorn hóp fyrir sig ef þíð eruð með tvo óháða hópa.

Sjálfri finnst mér þægilegast að fá kassarit með því að nota analyze/ descripitves/ explore og velja both fyrir hvort ég vil statistics eða plots. Þar getur þú líka beðið um normalrit í options minnir mig (er ekki með SPSS fyrir framan mig).

SAS: 2008-02-20c

Verkefni: Hlutföll

Eftirfarandi spurningar og svör beinast að skilaverkefni sem notað hefur verið í námskeiðinu. Verkefni breytast milli ára. Þeim er ýmist breytt eða ný verkefni koma í stað eldri verkefna. Því þarf að meta hverju sinni að hvaða marki gamlar fyrirspurnir og svör eru upplýsandi fyrir úrlausnir núverandi skilaverkefna.

Endalaus núll í útreikningum

Er ég eitthvað að misskilja eða eru þetta alltof háar tolur til að hægt sé að setja þær inn í forritlingana? Ég fæ ekkert nema endalaus 0 þegar ég geri þetta í hondum.

IDW svarar: Um er að ræða mjög lágt hlutfall og því eðlilegt að núllinn séu mörg. Það ætti ekki að vera mál að setja þetta inn í forritlinga, ég hef heyrt af nemendum sem hafa notað þá í útreikningum.

2005-03-19a

Of lágar tölur fyrir Excel

Ég er búin að reyna að fá út eitthvað myndrænt í Excel en ekkert gengur. Eru tölurnar ekki bara allt of lágar?

IDW svarar: Þegar reynt er að fá myndir í Excel af þessum hlutföllum er líklegt að það þurfi að breyta skala myndritsins á Y-ás til þess að svo lágar tölur birtist.

2005-03-19b

Eiga útreikningar að fylgja með?

Eigum við að láta útreikningana koma einhvers staðar fram? Er í lagi þá að láta handskrifað blað fylgja sem viðauka?

IDW svarar: Þeir ættu alla vega ekki að koma fram í niðurstöðum. Ef þú lætur þá fylgja með þá myndi ég setja það sem viðauka.

2005-03-21c

Fjöldi aukastafa í milliniðurstöðum

Er nógu mikil nákvæmni að námunda að tveimur aukastöfum í milliútreikningum við útreikning öryggisbila?

Ég myndi nota a.m.k. þrjá merkingarbæra tölustafi og jafnvel fjóra.

Í því felst að ég myndi rita 2/3 sem 0,6667 og 2/3000 sem 0,0006667. Taktu eftir því að í seinna tilvikinu horfi ég fram hjá núllunum fremst í tölunni og hef fjóra tölustafi eftir að núllarununni lýkur.

Því myndi ég reikna svona: 3000 × 2/3000= 3000 × 0,0006667= 2,0001≈ 2,0

Ef ég notaði fjóra aukastafi, þ.e. ekki fjóra merkingarbæra aukastafi, myndi ég reikna svona: 3000 × 2/3000= 3000 × 0,0007= 2,1000= 2,1 . Niðurstaðan er klárlega röng og ástæðan sú að of fáir aukastafir voru notaðir, þ.e. aðeins einn merkingarbær tölustafur.

2008-03-25a

Stærð leiðrétts öryggisbils

Á leiðrétta öryggisbilið ekki alltaf að vera þrengra en normalnálgunaröryggisbilið? Ef maður fær út normalnálgunaröryggisbil sem er þrengra er maður þá ekki að gera eitthvað vitlaust?

Yfirgrip (coverage) fer eftir bæði stærð bilsins en ekki síður staðsetningu. Leiðrétta öryggisbilið er almennt þrengra en betur staðsett. Þess vegna hefur það að jafnaði meira yfirgrip þrátt fyrir að vera þrengra.

Í okkar tilviki erum við hins vegar með mjög lágt hlutfall. Þegar hlutfallið er mjög nálægt 0,0 eða 1,0 getur normalnálgunin gefið of þröngt bil. Í þeim tilvikum verður leiðrétta öryggisbilið víðara en það sem fæst með normalnálguninni—Sem sé víðara en einnig betur staðsett.

Niðurstaðan er því að yfirgrip fer bæði eftir lengd öryggisbilsins og staðsetningu þess. Í mörgum tilvikum gefur leiðrétt bil meira yfirgrip þrátt fyrir að vera þrengra, vegna betri staðsetningar. Í öðrum tilvikum er yfirgripið meira samfara víðara bili. Allt fer þetta eftir því því hve nálægt 0,0 og 1,0 hlutfallið er og því hve stórt úrtakið er. Niðurstaða þín getur því alveg staðist.

2005-03-22a

Rannsóknarsnið

Ég skil ekki hvað á að setja þarna. Hvaða rannsóknarsnið erum við að nota? Þarf þessi kafli að vera?

Er þetta ekki bara fylgnirannsókn? Það mætti kanski kalla þetta hálftilraun (quasi-experimental design) en þá er kanski seilst full langt.

Eðlilegast er að líta svo á að þarna séu bornir saman náttúrulegir hópar og því ekkert eiginlegt inngrip til staðar.

2006-03-20a

Verkefni: Krosstöflur

Eftirfarandi spurningar og svör beinast að skilaverkefni sem notað hefur verið í námskeiðinu. Verkefni breytast milli ára. Þeim er ýmist breytt eða ný verkefni koma í stað eldri verkefna. Því þarf að meta hverju sinni að hvaða marki gamlar fyrirspurnir og svör eru upplýsandi fyrir úrlausnir núverandi skilaverkefna.

Væntitíðni sem forsenda kíkvaðratsprófs

Þegar fleiri en 20% hólfanna eru með væntitíðni undir 5 er brestur á forsendunum, er það ekki rétt skilið hjá mér? Sama með þær forsendur um að væntitíðnin þarf að vera 1,0 eða hærri í öllum hólfunum?

Hvað gerum við þá? Má túlka niðurstöðurnar eins og ekkert sé að en nefna að það sé brestur á forsendunum eða getum við þá kanski ekkert sagt um niðurstöðurnar?

SAS svarar: Ef það er brestur á forsendum fyrir kíkvaðrat ætlumst við til þess að þú bregðist við því. Í fyrirlestri er fjallað um leiðir til að bregðast við slíku. Eðlilegast er að byrja á að íhuga að fella saman flokka.

SAS: 2008-04-02a

Að fella saman breytur

Ef það á að fella saman breytur á þá ekki að fara í recode into same variables?

SAS svarar: Jú þú getur gert það, en oftast búum við frekar til nýja breytu til þess að geta borið þær saman og athugað að allt hafi farið eins og skyldi. Það er einnig gott að eiga upprunalegu breytuna ef þú myndir síðar vilja nota hana í upphaflegri útgáfu fyrir einhverja aðra úrvinnslu.

GBA svarar: Það er góður siður að geyma upprunalegu breytuna eins og Steinunn bendir á og því ættirðu að kóða inn í nýja breytu.

Ég hef einnig bent á að það sé skynsamlegt að biðja um krosstöflu í kjölfar endurkóðunar, þ.e. hafa upprunalegu breytuna í línum og þá kóðuðu í dálkum. Með því að skoða krosstöfluna er hægt að ganga úr skugga um að rétt hafi verið kóðað.

Ef samfelld breyta er kóðuð má gera það sama með Means, þ.e. hafa samfelldu breytuna fylgibreytu og kóðuðu (rofnu) breytuna sem frumbreytu. Þá væri skynsamlegt að biðja um hæsta og lægsta gildi í stað meðaltals.

Kóðun er uppspretta margra vandræðalegra mistaka og því mæli ég með því að hún sé ætíð tvítékkuð með ofangreindum hætti.

2008-04-03b

Niðurstaða kíkvaðratprófs

Á maður að skila niðurstöðunum sem χ² = (df, N =39) = ____ ? Er kanski nóg að segja bara „niðurstöður kíkvaðratprófsins voru ____“ ?

Ég myndi skila þeim svona; χ²(df, N=39) = ?.

IDW: 2005-04-09b

Dugar Crunchit fyrir verkefnið?

Á að vera hægt að framkvæma það sem nauðsynlegt er fyrir verkefnið í Crunchit forritinu

Ég gat sótt gagnaskrána og fengið "contingency table" með námsgrein og launaflokkum en ekki með kyni og námsgrein (kom bara plop hljóð). Auk þess kann ég ekki að fella neitt saman eða slíkt. Ég er ekki í sálfræði og kann ekkert á SPSS. Allur dagurinn fór í tilraunir.

Ég fæ ekkert svona PLOP auk þess sem taflan kom án vandræða. Ég notaði launaflokkar breytuna því lfl hefur valdið mér vandræðum: Kerfið frýs, kanski tilfallandi en ég er að reyna að forðast hana.

Ég sé tvö vandamál við að nota CrunchIt. Annað er að fella saman flokka eins og þú nefnir. Það er engin einföld leið til að gera það í CrunchIt.

Ef þú vilt samt reyna, hef ég getað farið í Data / Evaluate Formula og notað formúlur eins og eftirfarandi:

Prófaðu þær, niðuirstöðurnar birtast sem aukadálkar lengst til hægri sem þú getur síðan endurskírt. Fyrri formúlan fellir saman launaflokka 1 og 2, gakktu úr skugga um það sjálf. Seinni formúlan fellir Engineering saman við Acriculture. Ekki líta á þetta sem gáfulegustu aðgerðir í heimi, heldur sem ógáfuleg sýnishorn.

if fallið tekur það sem er fremst og athugar hvort fullyrðingin sé rétt. Ef hún er rétt, er tekið gildið sem er fyrir aftan fyrstu kommuna en annars það sem er fyrir aftan seinni kommuna.

Ég er ekki að segja að þú eigir að nota þessa aðferð, aðeins að hún er til.

Hinn möguleikinn er að breyta gagnaskránni. Dragðu hana inn í Notepad og notaðu Replace til að skipta út einu gildi fyrir annað. Passaðu þig að velja ekki Replace ALL eða álíka, heldur segðu já og nei við hverri breytingu svo þú sért viss um að þetta verði allt rétt. Vistaðu hana síðan undir nýju nafni. Gættu einnig vel að uppsetningu skránna, ekki hrófla við kommum milli dálka né gæsalöppum utan um textagildi.

Hinn vandinn við CrunchIt er að það gefur okkur ekki væntigildi og ekki leif. Ef þú ert lagin, geturðu auðvitað reiknað væntigildin í töflureikni og leifina einnig. Ef þú vilt nota leiðrétta leif, er engin einföld leið til að fá hana. Þú sleppir því þá bara; ef þú vilt vera örugg, nefnirðu bara ástæðuna t.d. í neðanmálsgrein.

Þá er það vandinn, kanski er auðveldara að gera þetta bara í SPSS. Þú þarft bara að tvísmella á skrána til að opna hana og síðan eru leiðbeiningar á glærunum og í Spurðu og svöruðu. Kanski ertu flótari þannig en að reyna að berjast við að nota CrunchIt. Þitt er valið.

Ef þú vilt nota SPSS, geturðu nálgast kennsluefni í SPSS í Aðferðafræði II. Endurkóðun er sýnd í verkefni 3.

2011-03-30a

Verkefni: Einföld aðfallsgreining

Eftirfarandi spurningar og svör beinast að skilaverkefni sem notað hefur verið í námskeiðinu. Verkefni breytast milli ára. Þeim er ýmist breytt eða ný verkefni koma í stað eldri verkefna. Því þarf að meta hverju sinni að hvaða marki gamlar fyrirspurnir og svör eru upplýsandi fyrir úrlausnir núverandi skilaverkefna.

Hvernig bý ég til breytuna í lið 3?

Ég er að reyna að gera skilaverkefni 1 en lenti í vandræðum með lið 3, að búa til nýja breytu. Ég er bæði búin að prófa transform-compute og að gera þetta í syntax en forritið virðist ekki vilja taka þessa jöfnu sem gefin er upp (DKGhlutfall=(fjöldi drykkja)/(þyngd-20 kg)).

Athugaðu hvað viðkomandi breytur heita og notaðu þau heiti í jöfnuna. Þannig er Fjöldi drykkja ekki breytuheiti, né heldur Þyngd. Skammstöfuninni Kg er einnig ofaukið.

Þannig er það almennt þegar þú færð jöfnur sem slíkar að þú þarft að laga þær til fyrir tölfræðiforritið og nota þau breytuheiti sem eru í SPSS gagnaskránni.

2004-09-21b

Besta spá

Ég er að vinna skilaverkefni 4 og mér er ómögulegt að finna út úr því hvernig maður finnur út bestu spá um alkóhólmagn í blóði manneskju sem drakk þrjá drykki og er 63,63 kíló í SPSS?

Best er að setja þetta bara inn í formúluna Y = b0 + b1x þar sem b0 er skurðpuntur og b1 er hallatala. X væri þá dkg hlutfall manneskju sem er 63,33 kg og drakk 4 glös.

p.s. Y-ið í formúlunni hér að ofan á að vera með spáhatti yfir þar sem við erum spá fyrir um gildi einstaklings

2004-09-22a

Normalrit af leif?

Þegar maður gerir normalrit af leif, þarf það að vera eins og í glærum eða getur það verið hvernig sem er? Hvernig gerir maður normalrit af leif eins og er í glærum í SPSS? Er z-score alltaf á x ás? Þarf að búa til breytu sem er z-score?

Það er útskýrt í leiðbeiningarblaðinu Helstu myndrit aðfallsgreiningar hvernig normalrit er gert. Forsendan er að vista leifina en aðferðin við það er sýnd fremst í leiðbeiningarblaðinu.

Þú getur ýmist vistað óstaðlaða leif eða staðlaða leif (Studentized deleted residual). Ef þú notar staðlaða leið, birtist leifin á formi z-talna á x-ásnum en annars verður hún á kvarða fylgibreytunnar.

Það skiptir engu máli hvort þú notar staðlaða eða óstaðlaða leif í normalritinu. Staðlaða leifin hefur þann kost að þú sérð á z-gildinu hversu langt úti á jaðri dreifingarinnar mæligildið er, en það sérðu hvort sem er miklu betur með því að skoða væntigildi normaldreifingar á y-ásnum fyrir viðkomandi mæligildi.

2004-09-22b

Myndrit?

Hvernig myndrit á að nota spurningu 4?

Þú notar í raun bara það myndrit sem þú telur hjálpi þér mest í að svara spurningunni þ.e. hvort aldur hafi áhrif á alkahólmagn í blóði

2004-09-22c

Spurning um X í bestu spá dæmi 3, lið 5

Ég skil ekki hvaða tala X er í jöfnunni um bestu spá, þ.e hvar finn ég dkg hlutfall manneskju sem er 63,63 kg og drakk 4 glös? (Sé ég það í gögnunum eða reikna ég það og þá hvernig?)

X væri þá DKG hlutfall manneskju sem er 63,63 kg og drakk 3 glös (þú talar um 4 en í verkefninu er talað um 3). X væri þá = 3/(63,63-20)

2004-09-25a

Hvernig bý ég til nýja breytu

Hverni bý ég til nýja breytu s.br spufningu 3 í skilaverkefni 4?

Þú notar Transform - Compute. Setur nafnið á nýju breytunni í Target variable og svo jöfnuna sem upp er gefin í Numeric expression þ.e. fldr/(kg-20)

2004-09-25c

Mælieiningar – prómill eða eitthvað annað?

Mér finnst dálítið erfitt að átta mig á þessum mælieiningum. Í gagnasafninu er hæsta gildi 0,130 og sá einstaklingur hafði drukkið sex 120 ml hvítvínsglös og ætti þar af leiðandi að vera yfir leyfilegum mörkum til að t.d. keyra bíl. Á lögregluvefnum fann ég að sviptingarmörk væru 0,50 prómill. Mér finnst svo mikið ósamræmi í þessum tölum. Erum við með aðra mælieiningu en prómill?

Ég held að það megi alveg ganga út frá því að niðurstöðurnar séu í prósentum. Viðmið umferðalaga, 0,5 prómill, væri þá 0,05.

Hæsta gildið, 0,13, væri þá samkvæmt þessu 1,3 prómill. Sá þátttakandi væri því óhæfur til að stjórna ökutæki eins og það er orðað í 3. mgr. 45. gr. Umferðalaga nr. 50/1987.

Ef þú vilt fara djúpt í þetta, þá ruglar það myndina að í íslenskum lögum er miðað við helmingi lægri mörk í lofti heldur en í blóði. Ef við miðum við að áfengi mælist helmingi lægra í lofti en í blóði myndi talan sem þú nefnir samsvara 2,6 prómillum í blóði sem væri sannarlega mjög mikil ölvun. En sex hvítvínsglös eru auðvita heil flaska (6×120ml= 720ml= 0,96 flöskur) og því er kanski raunsætt að miða við tvöföldun til að fá blóðgildin.

En allt er þetta nú fremur óskýrt í EESEE. En með þessar upplýsingar treysti ég því að þú sjáir þetta allt út og náir að tala um niðurstöðurnar af bæði skynsemi og viti. Við ætlumst sannarlega ekki til þess að þú sért neinn sérfræðingur í alkóhólmælingum svo þessar pælingar allar skipta ekki sköpum.

2008-04-14a

Marktekt einfaldrar aðfallsgreiningar

Þegar keyrð er aðfallsgreining í SPSS kemur annars vegar tafla sem heitir ANOVA með F-gildi og hins vegar tafla sem heitir Coefficients, með t-gildi.

t-prófið á við hallatöluna, ekki satt? En hvað segir F-prófið mér? Er ég eitthvað að nota upplýsingar úr ANOVA í þessu verkefni?

F-prófið prófar þá núlltilgátu að allir hallastuðlarnir séu núll í þýði. Með öllum er hér átt við alla að fastanum undanskildum. t-prófin prófa hins vegar þá núlltilgátu að viðkomandi hallastuðull sé núll í þýði.

Þessi greinarmunur skiptir máli þegar um marghliða aðfallsgreiningu er að ræða en í verkefninu er aðeins beðið um einfalda aðfallsgreiningu.

Þar sem hallastuðullinn er aðeins einn (að fastanum undanskildum) í einfaldri aðfallsgreiningu þá er verið að prófa sömu tilgátu með báðum prófum. Þetta sést m.a. á því að fyrri frígráðan er 1 í F-prófinu og að kvaðratrótin af niðurstöðu F-prófsins er jöfn niðurstöðu t-prófsins: sqrt(231,894)= 15,228.

Það er ástæða til að stagla þetta aðeins: Það er aðeins í einfaldri aðfallsgreiningu sem þessi samsvörun er á milli t-prófs á hallastuðulinn og F-prófs á líkaninu í heild sinni.

2008-04-16a

Náðu þér í Firefox!