Amor Gignit Amorem Forum - Powered by XMB


	Niet ingelogd [inloggen ]

Zoek

FAQ

Leden lijst posts van vandaag

Vandaag gepost Forum Stats

Stats

Terug naar:

Amor Gignit Amorem Forum » Achtergrondartikelen » Signaaltheorie, Fourier en zo verder... » De ABX-test en de relatie "aantal trials" - type II fout.

Printbare versie

dekkersj

Junior Member

Posts: 48
Registreerde: 28-10-2012
lid Is Offline

Gepost op 27-3-2013 op 12:41 AM

De ABX-test en de relatie "aantal trials" - type II fout.

Beste lezer,

Dit achtergrondartikel zal gaan over een mogelijkheid om het onderscheidend vermogen van de ABX-test te verbeteren. Duidelijk zal worden dat "het aantal pogingen tot succes" of "trials" hierbij van cruciaal belang is. Een belangrijke aanname in dit verhaal is dat de test uitgevoerd wordt met het beste wat er is. Dus er is geen beperking in de set waarmee getest wordt, geen beperking mbt de lengte van de fragmenten, de deelnemers zijn optimaal getraind, etc. Kortom, als er een verschil is, wordt dit gegarandeerd gedetecteerd, mits het aantal trials voldoende is. Met andere woorden, de test wordt geïdealiseerd met uitzondering van het aantal pogingen tot succes.

Om het geheugen even op te frissen, zetten we een aantal uitgangspunten van de ABX-test nog even kort uiteen. Op basis van een aantal trials, waarin de deelnemers moeten kiezen of X in hun beleving door A of door B wordt gerepresenteerd, wordt statistisch getoetst of er wel of geen verschil is tussen A en B. Formeel schrijven we dat als volgt op:

Nulhypothese: er is geen verschil hoorbaar
Alternatieve hypothese: er is wel verschil hoorbaar

Van belang is dat er bij iedere statistische toets een kans is om de nulhypothese onterecht te verwerpen (type I fout) en om de nulhypothese onterecht niet te verwerpen (type II fout). Uitgaande van het feit dat de luisteraar uit slechts twee alternatieven moet kiezen, A of B, wordt de kansverdeling wiskundig beschreven door de zogenaamde binomiale verdeling. De eerste twee momenten van deze verdeling zijn (hier zijn meer achtergronden te vinden):

het gemiddelde = n*p
de variantie = n*p*(1 - p)

Waarbij n het aantal trials van de test is en dus het grote vraagteken in dit artikel. De p is de kans op succes in het experiment. Het gemiddelde is een zogenaamde "centrummaat" en de variantie een "spreidingsmaat". De variantie geeft daarmee aan hoe verspreid de uitkomsten rond het gemiddelde te vinden zijn. Om goed te kunnen rekenen aan dit model, is er voor gekozen om de binomiale verdeling te benaderen met de Normale- of Gaussiche verdeling. Dat mag wanneer het gemiddelde en de variantie groter zijn dan 5. Voor kleinere en grotere waarden van p is de binomiale verdeling te scheef om door de "symmetrische" Normale verdeling goed te kunnen worden benaderd.

Een belangrijk verschil is dat de binomiale verdeling een discrete verdeling is en de Normale verdeling een continue. Discreet houdt in dat het aantal pogingen bestaat uit gehele of discrete getallen. De grafiek van de binomiale verdeling zal daarom een trapvorm hebben, terwijl de normale verdeling een vloeiende lijn zal laten zien.

Om een zo hoog mogelijk onderscheidend vermogen in de toets te hebben, is het van belang dat de kansverdeling onder de nulhypothese en de kansverdeling onder de alternatieve hypothese (1) zo ver mogelijk uit elkaar liggen en (2) zo verschillend mogelijk van vorm zijn. Omdat de nulhypothese uitgaat van de situatie dat er geen verschil is, wordt deze kansverdeling gekenmerkt door een mooie symmetrische "bel" waarbij er 50% kans is dat er wel een verschil wordt gehoord en 50% kans dat er geen verschil wordt gehoord. Onder de alternatieve hypothese hopen we op de zeer gunstigste situatie dat in 90% van de trials een verschil wordt waargenomen.

In de onderstaande figuur zijn beide kansverdelingen weergegeven (voor n = 10). Eigenlijk is de kansverdeling van de alternatieve hypothese te scheef om normaal te kunnen worden benaderd, maar het maakt wel duidelijk hoe de kansverdeling zich tot elkaar verhouden.

De blauwe curve is de kansverdeling onder de nulhypothese, dat wil zeggen het geval er geen verschil te horen is. De oppervlakte onder de curve is gelijk aan 1 of 100% (logisch). In formulevorm:

De rode curve is de kansverdeling onder de alternatieve hypothese, dat wil zeggen als er wel een verschil te horen is. Ook hier is de oppervlakte onder de curve netjes 1. De variantie is 2 keer genomen om het verlies te compenseren dat er maar de helft van de hoed is gebruikt vanwege de het feit dat hier de binomiale verdeling zich slecht laat benaderen door de normale verdeling. In formulevorm is de rode curve:

Overigens kan de vorm van de rode curve naar believen gewijzigd worden, het principe blijft gelijk. Alleen de uitkomsten kunnen veranderen.

Wat nu opvalt, is de zeer grote overlap tussen de beide curves. Deze overlap sluier vertroebelt de uitkomst en is de oorzaak van het lage onderscheidend vermogen en de hoge type II fout van de toets. Met andere woorden, door de sterke overlap is de kans zeer groot dat er onterecht wordt geconcludeerd dat er geen verschillen zijn. De oppervlakte van hetgeen de beide curves gemeen hebben, is de type II fout. Het zal blijken dat het verhogen van het aantal trials dè remedie is om dit probleem adequaat aan te pakken.

Overigens kan de type I fout ook in de figuur worden opgenomen. De type I fout of "significance level" is gelijk aan de kans die wij onszelf durven te geven dat de goede uitkomst van een trial ook door gokken kan worden behaald. Deze fout wordt weergegeven in de beide uitlopende staarten van de blauwe curve en we kunnen hier bijvoorbeeld 0,05 of 5% voor nemen. Nu wordt ook duidelijk dat er een verband bestaat tussen de type I en de type II fout: hoe kleiner de kans op een type I fout, hoe groter de kans op een type II fout. Maar laten we nog wat rekenen aan de type II fout, wat overigens in Mathematica gedaan is, en waarbij we de type I fout laten voor wat die is.

Het snijpunt van de blauwe en van de rode curve is gevonden door het oplossen van een stelsel en is aangegeven in de volgende figuur:

De oppervlakte is dan de som van uitkomsten bij "Out[13]" en "Out[14]":

Deze oppervlakte (alfa in de volgende formule) is vervolgens een gewenste grootheid, bv 0,05 of 0,01. Hangt af van de wens die er is met betrekking tot de grootte van de type II fout. Het aantal trials als functie van deze alfa wordt dan

Of met een aantal standaardwaarden voor alfa:
0,1: 31 trials
0,05: 41 trials
0,01: 67 trials
0,001: 105 trials

Wat we zien is dat het aantal trials van zeer grote invloed is op de type II fout: hoe groter het aantal trials, hoe lager de kans op een type 2 fout en hoe onderscheidender de toets of ABX-test kan worden uitgevoerd. Het verdrievoudigen van het aantal trials leidt ertoe dat de kans op een type II fout met een factor 100 afneemt. Degenen die al eens aan een ABX-test hebben meegedaan, weten dat het luisteren naar de fragmenten een vermoeiende bezigheid is. Het verhogen van het aantal trials naar bijvoorbeeld 100 is dan ook geen sinecure voor wat betreft het slagen van de test. Gekozen zou kunnen worden om de trials te verdelen over een aantal weken om deze vermoeidheidsverschijnselen tegen te gaan. Vanzelfsprekend moeten dan de andere variabelen van de test hetzelfde worden gehouden: de set, de fragmenten, de luisterruimte en het luisterpanel.

Groet,

Jacco
Tirillo

Edit:
22 november 2008: spelfout.

********************************************************
Aanvulling dd 29 juli 2012:

Doorgerekend wat het zou betekenen als we uitgaan van een symmetrische Normale verdeling van de alternatieve hypothese. De formulering van de hypothesen zou dan als volgt gedaan kunnen worden:
Nulhypothese: de keuze van de onbekende X is willekeurig (blauwe curve)
Alternatieve hypothese: de keuze van X volgt een consequente voorkeur (rode curve)

Ofwel, de nulhypothese is nu geformuleerd alsof het totale willekeur betreft, het zou net zo goed gedaan kunnen worden zonder A of B gehoord te hebben. Gewoon at random invullen en klaar is Kees. De alternatieve hypothese geeft een consequente voorkeur aan waarbij de antwoorden zowel fout als goed kunnen zijn, als het maar consequent is. Het gaat dus meer om de herhaalbaarheid dan om het aantal juiste antwoorden. De grafieken zijn als volgt te visualiseren:

Normaal verdeelde stochasten voor n = 10.

De oppervlakte onder beide grafieken, een soort paars in het plaatje en alfa in de volgende formule, is vervolgens een gewenste grootheid, bv 0,05 of 0,01. Hangt af van de wens die er is met betrekking tot de grootte van de type II fout. Het aantal trials als functie van deze alfa wordt dan:

Of met een aantal standaardwaarden voor alfa:
0,1: 16 trials
0,05: 21 trials
0,01: 32 trials
0,001: 49 trials

Waarbij de conclusie getrokken kan worden dat het ABX testen met de bovenstaande formuleringen vwb de nul- en alternatieve hypothese gedaan moet worden met minimaal 21 trials (gegeven de 5% grens). Hierop doorburdurend zou je dus een standaard kunnen definieren met 21 trials. Dan kun je met 95% zekerheid de uitkomst "claimen". Stel, je hebt van de 21 trials er 15 consequent gekozen, dan kun je dus met 95% zekerheid zeggen dat er maximaal met 3,9% gegokt is.

Groet,
Jacco

dekkersj

Junior Member

Posts: 48
Registreerde: 28-10-2012
lid Is Offline

Gepost op 27-3-2013 op 12:58 AM

Het gedachte-experiment is het volgende: stel dat de deelnemers goed zijn in wat ze doen en dat alle probleem-genererende zaken als externe factor worden beschouwd. Dit werkt dan als een ruis door de hele meting. Die is uniform verdeeld en de vraag is dan om het aantal trials te bepalen in aanwezigheid van deze allesoverschreeuwende ruis. In werkelijkheid zijn de deelnemers zelf een mengeling van perfect functionerende beslissers en die ruis. Voor het model heb ik die apart beschouwd en doe de analyse wat die ruis betekent voor het aantal trials wat gedaan moet worden om met een zekere foutkans boven die ruis uit te komen. Voor n = 10 ziet het model er zo uit:

De type II fout blijkt te zijn:

(type II fout versus het aantal trials, uniform verdeelde ruis met dichtheid = 1/n)

Gigantisch veel trials zijn dus nodig om een fout van beta = 0,05 te garanderen: ca. 4000 trials. Nou, maak je borst maar nat lieve ABX-kijkbuiskindertjes...

Groet,
Jacco

Amor Gignit Amorem Forum » Achtergrondartikelen » Signaaltheorie, Fourier en zo verder... » De ABX-test en de relatie "aantal trials" - type II fout.