dekkersj
Junior Member

Posts: 48
Registreerde: 28-10-2012
lid Is Offline
|
|
De ABX-test en de relatie "aantal trials" - type II fout.
Beste lezer,
Dit achtergrondartikel zal gaan over een mogelijkheid om het onderscheidend vermogen van de ABX-test te verbeteren. Duidelijk zal worden dat "het
aantal pogingen tot succes" of "trials" hierbij van cruciaal belang is. Een belangrijke aanname in dit verhaal is dat de test uitgevoerd wordt met het
beste wat er is. Dus er is geen beperking in de set waarmee getest wordt, geen beperking mbt de lengte van de fragmenten, de deelnemers zijn optimaal
getraind, etc. Kortom, als er een verschil is, wordt dit gegarandeerd gedetecteerd, mits het aantal trials voldoende is. Met andere woorden, de test
wordt geďdealiseerd met uitzondering van het aantal pogingen tot succes.
Om het geheugen even op te frissen, zetten we een aantal uitgangspunten van de ABX-test nog even kort uiteen. Op basis van een aantal trials, waarin
de deelnemers moeten kiezen of X in hun beleving door A of door B wordt gerepresenteerd, wordt statistisch getoetst of er wel of geen verschil is
tussen A en B. Formeel schrijven we dat als volgt op:
Nulhypothese: er is geen verschil hoorbaar
Alternatieve hypothese: er is wel verschil hoorbaar
Van belang is dat er bij iedere statistische toets een kans is om de nulhypothese onterecht te verwerpen (type I fout) en om de nulhypothese onterecht
niet te verwerpen (type II fout). Uitgaande van het feit dat de luisteraar uit slechts twee alternatieven moet kiezen, A of B, wordt de kansverdeling
wiskundig beschreven door de zogenaamde binomiale verdeling. De eerste twee momenten van deze verdeling zijn (hier zijn meer achtergronden te vinden):
het gemiddelde = n*p
de variantie = n*p*(1 - p)
Waarbij n het aantal trials van de test is en dus het grote vraagteken in dit artikel. De p is de kans op succes in het experiment. Het gemiddelde is
een zogenaamde "centrummaat" en de variantie een "spreidingsmaat". De variantie geeft daarmee aan hoe verspreid de uitkomsten rond het gemiddelde te
vinden zijn. Om goed te kunnen rekenen aan dit model, is er voor gekozen om de binomiale verdeling te benaderen met de Normale- of Gaussiche
verdeling. Dat mag wanneer het gemiddelde en de variantie groter zijn dan 5. Voor kleinere en grotere waarden van p is de binomiale verdeling te
scheef om door de "symmetrische" Normale verdeling goed te kunnen worden benaderd.
Een belangrijk verschil is dat de binomiale verdeling een discrete verdeling is en de Normale verdeling een continue. Discreet houdt in dat het aantal
pogingen bestaat uit gehele of discrete getallen. De grafiek van de binomiale verdeling zal daarom een trapvorm hebben, terwijl de normale verdeling
een vloeiende lijn zal laten zien.
Om een zo hoog mogelijk onderscheidend vermogen in de toets te hebben, is het van belang dat de kansverdeling onder de nulhypothese en de
kansverdeling onder de alternatieve hypothese (1) zo ver mogelijk uit elkaar liggen en (2) zo verschillend mogelijk van vorm zijn. Omdat de
nulhypothese uitgaat van de situatie dat er geen verschil is, wordt deze kansverdeling gekenmerkt door een mooie symmetrische "bel" waarbij er 50%
kans is dat er wel een verschil wordt gehoord en 50% kans dat er geen verschil wordt gehoord. Onder de alternatieve hypothese hopen we op de zeer
gunstigste situatie dat in 90% van de trials een verschil wordt waargenomen.
In de onderstaande figuur zijn beide kansverdelingen weergegeven (voor n = 10). Eigenlijk is de kansverdeling van de alternatieve hypothese te scheef
om normaal te kunnen worden benaderd, maar het maakt wel duidelijk hoe de kansverdeling zich tot elkaar verhouden.

De blauwe curve is de kansverdeling onder de nulhypothese, dat wil zeggen het geval er geen verschil te horen is. De oppervlakte onder de curve is
gelijk aan 1 of 100% (logisch). In formulevorm:

De rode curve is de kansverdeling onder de alternatieve hypothese, dat wil zeggen als er wel een verschil te horen is. Ook hier is de oppervlakte
onder de curve netjes 1. De variantie is 2 keer genomen om het verlies te compenseren dat er maar de helft van de hoed is gebruikt vanwege de het feit
dat hier de binomiale verdeling zich slecht laat benaderen door de normale verdeling. In formulevorm is de rode curve:

Overigens kan de vorm van de rode curve naar believen gewijzigd worden, het principe blijft gelijk. Alleen de uitkomsten kunnen veranderen.
Wat nu opvalt, is de zeer grote overlap tussen de beide curves. Deze overlap sluier vertroebelt de uitkomst en is de oorzaak van het lage
onderscheidend vermogen en de hoge type II fout van de toets. Met andere woorden, door de sterke overlap is de kans zeer groot dat er onterecht wordt
geconcludeerd dat er geen verschillen zijn. De oppervlakte van hetgeen de beide curves gemeen hebben, is de type II fout. Het zal blijken dat het
verhogen van het aantal trials dč remedie is om dit probleem adequaat aan te pakken.
Overigens kan de type I fout ook in de figuur worden opgenomen. De type I fout of "significance level" is gelijk aan de kans die wij onszelf durven te
geven dat de goede uitkomst van een trial ook door gokken kan worden behaald. Deze fout wordt weergegeven in de beide uitlopende staarten van de
blauwe curve en we kunnen hier bijvoorbeeld 0,05 of 5% voor nemen. Nu wordt ook duidelijk dat er een verband bestaat tussen de type I en de type II
fout: hoe kleiner de kans op een type I fout, hoe groter de kans op een type II fout. Maar laten we nog wat rekenen aan de type II fout, wat overigens
in Mathematica gedaan is, en waarbij we de type I fout laten voor wat die is.
Het snijpunt van de blauwe en van de rode curve is gevonden door het oplossen van een stelsel en is aangegeven in de volgende figuur:

De oppervlakte is dan de som van uitkomsten bij "Out[13]" en "Out[14]":

Deze oppervlakte (alfa in de volgende formule) is vervolgens een gewenste grootheid, bv 0,05 of 0,01. Hangt af van de wens die er is met betrekking
tot de grootte van de type II fout. Het aantal trials als functie van deze alfa wordt dan

Of met een aantal standaardwaarden voor alfa:
0,1: 31 trials
0,05: 41 trials
0,01: 67 trials
0,001: 105 trials
Wat we zien is dat het aantal trials van zeer grote invloed is op de type II fout: hoe groter het aantal trials, hoe lager de kans op een type 2 fout
en hoe onderscheidender de toets of ABX-test kan worden uitgevoerd. Het verdrievoudigen van het aantal trials leidt ertoe dat de kans op een type II
fout met een factor 100 afneemt. Degenen die al eens aan een ABX-test hebben meegedaan, weten dat het luisteren naar de fragmenten een vermoeiende
bezigheid is. Het verhogen van het aantal trials naar bijvoorbeeld 100 is dan ook geen sinecure voor wat betreft het slagen van de test. Gekozen zou
kunnen worden om de trials te verdelen over een aantal weken om deze vermoeidheidsverschijnselen tegen te gaan. Vanzelfsprekend moeten dan de andere
variabelen van de test hetzelfde worden gehouden: de set, de fragmenten, de luisterruimte en het luisterpanel.
Groet,
Jacco
Tirillo
Edit:
22 november 2008: spelfout.
********************************************************
Aanvulling dd 29 juli 2012:
Doorgerekend wat het zou betekenen als we uitgaan van een symmetrische Normale verdeling van de alternatieve hypothese. De formulering van de
hypothesen zou dan als volgt gedaan kunnen worden:
Nulhypothese: de keuze van de onbekende X is willekeurig (blauwe curve)
Alternatieve hypothese: de keuze van X volgt een consequente voorkeur (rode curve)
Ofwel, de nulhypothese is nu geformuleerd alsof het totale willekeur betreft, het zou net zo goed gedaan kunnen worden zonder A of B gehoord te
hebben. Gewoon at random invullen en klaar is Kees. De alternatieve hypothese geeft een consequente voorkeur aan waarbij de antwoorden zowel fout als
goed kunnen zijn, als het maar consequent is. Het gaat dus meer om de herhaalbaarheid dan om het aantal juiste antwoorden. De grafieken zijn als volgt
te visualiseren:

Normaal verdeelde stochasten voor n = 10.
De oppervlakte onder beide grafieken, een soort paars in het plaatje en alfa in de volgende formule, is vervolgens een gewenste grootheid, bv 0,05 of
0,01. Hangt af van de wens die er is met betrekking tot de grootte van de type II fout. Het aantal trials als functie van deze alfa wordt dan:

Of met een aantal standaardwaarden voor alfa:
0,1: 16 trials
0,05: 21 trials
0,01: 32 trials
0,001: 49 trials
Waarbij de conclusie getrokken kan worden dat het ABX testen met de bovenstaande formuleringen vwb de nul- en alternatieve hypothese gedaan moet
worden met minimaal 21 trials (gegeven de 5% grens). Hierop doorburdurend zou je dus een standaard kunnen definieren met 21 trials. Dan kun je met 95%
zekerheid de uitkomst "claimen". Stel, je hebt van de 21 trials er 15 consequent gekozen, dan kun je dus met 95% zekerheid zeggen dat er maximaal met
3,9% gegokt is.
Groet,
Jacco
|
|
|
dekkersj
Junior Member

Posts: 48
Registreerde: 28-10-2012
lid Is Offline
|
|
Het gedachte-experiment is het volgende: stel dat de deelnemers goed zijn in wat ze doen en dat alle probleem-genererende zaken als externe factor
worden beschouwd. Dit werkt dan als een ruis door de hele meting. Die is uniform verdeeld en de vraag is dan om het aantal trials te bepalen in
aanwezigheid van deze allesoverschreeuwende ruis. In werkelijkheid zijn de deelnemers zelf een mengeling van perfect functionerende beslissers en die
ruis. Voor het model heb ik die apart beschouwd en doe de analyse wat die ruis betekent voor het aantal trials wat gedaan moet worden om met een
zekere foutkans boven die ruis uit te komen. Voor n = 10 ziet het model er zo uit:

De type II fout blijkt te zijn:

(type II fout versus het aantal trials, uniform verdeelde ruis met dichtheid = 1/n)
Gigantisch veel trials zijn dus nodig om een fout van beta = 0,05 te garanderen: ca. 4000 trials. Nou, maak je borst maar nat lieve
ABX-kijkbuiskindertjes...
Groet,
Jacco
|
|
|
|