Terug

Het belang van frequenties boven 8 kHz voor het verstaan van spraak
Sigrid Polspoel

25 augustus 2021

(Laatst aangepast: 31-08-2021)

Het belang van frequenties boven 8 kHz voor het verstaan van spraak

Hoewel gehoordrempels standaard gemeten worden tot 8 kHz, is er groeiend bewijs dat hogere frequenties wel degelijk relevant zijn bij spraakverstaan

Introductie

Gezonde jonge mensen nemen frequenties waar tussen 20 Hz en 20 kHz. Onderzoek van enkele decennia geleden concludeerde echter dat frequenties boven ca. 7 kHz niet belangrijk zijn voor het verstaan van spraak [1, 2]. In het  algemeen wordt verondersteld dat spraakinformatie boven 8 kHz (zogenaamde “extended high frequencies”; EHF) niet essentieel is voor het dagelijks luisteren [3]. Bij standaard gehooronderzoek worden gehoordrempels boven 8 kHz dan ook niet gemeten en wordt EHF-gehoorverlies dus meestal niet gediagnosticeerd.

In de afgelopen 20 jaar hebben diverse studies echter laten zien dat spraakinformatie boven 8 kHz: (1) ruimschoots aanwezig is in spraak [4, 5]  (2) belangrijk is bij geluidslokalisatie [6], (3) een rol speelt bij de beoordeling van de geluidskwaliteit [7-9], (4) foneemidentificatie verbetert wanneer laagfrequente spraakinformatie ontbreekt of verslechterd is [10, 11], (5) het spraakverstaan in ruis verbetert bij gescheiden geluidsbronnen [12, 13], en uit recente studies, (6) het spraakverstaan in ruis verbetert als de signalen identiek worden aangeboden aan beide oren [14, 15]. Dat laatste is echter enkel aangetoond voor het verstaan van cijfers. Het is onduidelijk of EHF informatie ook het spraakverstaan in ruis verbetert van ander soort spraakstimuli.
In ons onderzoek werd de meerwaarde van EHF-informatie nagegaan voor het spraakverstaan van normaalhorende luisteraars. We waren met name geïnteresseerd in de vraag of het verstaan verbetert van veelgebruikt spraakmateriaal dat verschilt in linguïstische complexiteit en redundantie. Daarom hebben we drie standaard Nederlandse spraakmaterialen uit de audiologie gebruikt bij de experimenten: cijfers van de digits-in-noise (DIN) test, woorden van de NVA lijsten en VU98 zinnen. We deden metingen in ruis (hierbij gebruikten we cijfers, woorden en zinnen) en metingen in stilte (enkel woorden) in verschillende condities. De condities verschilden enkel in EHF informatie en waren identiek in spraakinformatie onder 8 kHz.

Methodologie

Vierentwintig normaalhorende jongvolwassenen (20 - 26 jaar) namen deel aan de studie. Hun gehoordrempels werden gemeten over een bereik van 250 Hz tot 16 kHz. Alle deelnemers hadden normale (<=20 dB HL) gehoordrempels over het hele bereik. Dit is te zien in Figuur 1. Merk op dat in standaard toonaudiometrie er gemeten wordt t.e.m. 8 kHz. In deze studie werden de drempels op 10, 12, 14 en 16 kHz ook vastgesteld. Alle metingen die volgden waren monauraal (aan één oor).

Het aangeboden spraakmateriaal voor de metingen in ruis waren: cijfers van de DIN [16], consonant-vowel-consonant (CVC) woorden [17] en zinnen (‘VU98’) [18]. Het cijfermateriaal bestond uit lijsten met telkens drie losse cijfers (triplets) van 0-9 per stimulus (bijv. ‘0 9 4’). De DIN is een populaire gehoortest die zowel bij screening als in de diagnostiek wordt gebruikt. De woordenlijsten van de NVA zijn éénlettergrepige, betekenisvolle woorden telkens bestaande uit een medeklinker, klinker en medeklinker (bijv. ‘bus’). De VU98 zinnen zijn korte, alledaagse zinnen. Het spraakmateriaal werd gescoord per triplet bij de cijfers, per foneem bij de woorden, en per woord bij de zinnen.

In de spraak-in-ruis metingen werd elk type materiaal aangeboden in 3 condities: (1) spraak en ruis ongefilterd (deze conditie noemen we “BBBB”, dat staat voor breedbandige spraak en breedbandige ruis), (2) spraak breedbandig en ruis via een 8 kHz laagdoorlaat (lowpass) filter (“BBLP”) en (3) spraak en ruis via een 8 kHz laagdoorlaat filter (“LPLP”). De condities verschilden dus enkel in de EHF regio; frequenties boven 8 kHz. 

Voor de metingen in stilte werden enkel NVA woorden aangeboden. De verstaanbaarheid werd verminderd door alle frequenties onder 3 kHz te verwijderen. Dit om een plafond effect in scores te vermijden. Er waren 2 condities: (1) zonder EHF informatie en (2) met EHF informatie.

 

 

Figuur 1De gehoordrempels van de 24 deelnemers.

Resultaten

Spraakverstaan in ruis

De spraakverstaan-in-ruis scores zijn weergegeven in Figuur 2 en zijn zoals verwacht werden de hoogste scores gevonden in de conditie met ongefilterde en niet-gemaskeerde EHF informatie (BBLP conditie). De laagste scores werden behaald wanneer er noch spraak noch ruis aanwezig was boven 8 kHz (LPLP conditie). Alle post hoc paarsgewijze verschillen tussen de condities zijn statistisch significant bij alle spraakmaterialen. (p<0.001). Hoewel het EHF-effect aanwezig is voor alle spraakmaterialen, was de duidelijkste verbetering te zien bij de DIN scores: alle luisteraars presteerden tegen het plafond in de BBLP-conditie (mediaan = 93,8%) en de mediaan daalde met respectievelijk 57,3% en 75,0% in de BBBB en LPLP- conditie.

In Figuur 3 staan de individuele scores van de proefpersonen in de BBBB vs. LPLP en BBBB vs. BBLP uitgezet. De diagonaal staat voor gelijke scores in beide condities. De meeste data punten liggen onder (linker grafiek) of boven (rechter grafiek) de diagonaal. Dit betekent dat bijna alle deelnemers het beter deden als er meer EHF informatie beschikbaar was. Het EHF effect is dus van toepassing bij bijna alle deelnemers.

Spraakverstaan in stilte

De spraakverstaan scores in stilte zijn te zien in Figuur 4. Opnieuw zien we dat de scores hoger liggen in de conditie met EHF informatie t.o.v. zonder: De mediaan score nam met ongeveer 8% toe (p<0.001). De rechter grafiek in Figuur 4  laat zien dat alle deelnemers op 2 na beter scoorden in de conditie met EHF.

Figuur 2 De spraakverstaan scores in ruis van de cijfers, woorden en zinnen in de drie condities, die enkel verschilden in spraakinformatie boven 8 kHz. In BBLP was de hoogfrequente spraakinformatie optimaal aanwezig; hier werden de beste scores behaald. In de LPLP conditie was er geen geluid boven 8 kHz; hier werd het slechtst gescoord.

Figuur 3De spraakverstaan scores van alle proefpersonen uitgezet in de LPLP vs. BBBB conditie (links) en BBLP vs. BBBB conditie (rechts). De kleuren geven de verschillende spraakmaterialen weer. De diagonaal toont waar de punten zouden liggen moesten de deelnemers gelijk scoren in beide condities. Men ziet dat bijna alle deelnemers het systematisch beter deden in de conditie met meer EHF informatie.

Figuur 4De spraakverstaan scores van (gedegradeerde) woorden in stilte zonder en met spraakinformatie boven 8 kHz (i.e., zonder/met EHF) (links). In de rechter grafiek zijn de resultaten van de 24 deelnemers in de twee condities tegen elkaar uitgezet. 22 van de 24 deelnemers scoorden beter wanneer EHF informatie aanwezig was (punten onder de diagonaal).

Discussie en conclusie

In dit onderzoek werd de meerwaarde van EHF-informatie nagegaan voor het spraakverstaan in ruis voor cijfers van de DIN test, woorden van de NVA lijsten en VU98 zinnen; en voor het spraakverstaan in stilte voor NVA woorden.  Hoewel het nut van EHF-horen al is aangetoond in verschillende luistersituaties, is het voordeel van EHF bij spraakverstaan relatief weinig onderzocht bij verschillende soorten spraakstimuli. In deze studie vergeleken we spraakverstaan scores in stilte en ruis, waarbij de condities alleen verschilden in frequenties boven 8 kHz. Onze resultaten laten zien dat voor alle geteste spraakmaterialen het spraakverstaan verbetert wanneer spraakinformatie boven 8 kHz toegevoegd wordt.

Onze resultaten dragen bij aan het groeiende bewijs dat EHF-spraakinformatie een belangrijke rol speelt bij spraakverstaan in achtergrondlawaai. Het is echter nog niet duidelijk hoe nuttig deze EHF-informatie is in het dagelijks luisteren.

Bijna alle deelnemers (22 van de 24) verstonden de woorden in stilte beter wanneer spraakinformatie boven 8 kHz aanwezig was dan wanneer het niet aanwezig was. Vitela et al. (2015) ontdekte eerder al dat luisteraars in staat zijn om fonemen nauwkeurig te identificeren op basis van frequenties boven 6 kHz. Uit zowel hun als ons onderzoek concluderen we dat luisteraars informatie uit de EHF-regio kunnen halen om bepaalde fonemen/woorden te identificeren. In het algemeen kunnen we stellen dat luisteraars spectrale informatie, temporele informatie, of een combinatie van beide gebruiken in de hogere frequentiebanden voor spraakverstaanbaarheid [11, 19, 20].

Klinische relevantie

Onze resultaten laten het belang zien van EHF-informatie bij spraakverstaan. Het horen van frequenties boven de 8 kHz lijkt dus wel degelijk belangrijk. Daarom willen we audiologen aansporen om ten minste één EHF gehoordrempel (bijv. 12 kHz) toe te voegen aan de standaard testfrequenties in de audiometrie. Het opsporen van verminderd EHF gehoor zou (gedeeltelijk) kunnen verklaren waarom sommige mensen met klinisch normale toonaudiogrammen (tot 8 kHz) toch problemen ondervinden met spraakverstaan in lawaai. Het zou ook een vroege waarschuwing kunnen zijn voor patiënten om hun gehoor in het oog te houden en gehoorbescherming te dragen. Bovendien hebben onze resultaten mogelijks een belangrijke implicatie voor spraakaudiometrie-apparatuur en de interpretatie van gehoortestresultaten. Smits et al. (2013) rapporteerden een discrepantie in resultaten van de DIN-test wanneer verschillende hoofdtelefoons werden gebruikt. Een hoofdtelefoon van hoge kwaliteit leverde een 1 dB betere SRT op in vergelijking met een standaard TDH39 hoofdtelefoon voor klinische audiologie. Het is te verwachten dat vergelijkbare verschillen bestaan voor ’resultaten van tests gemeten met HDA200- en TDH39-hoofdtelefoons, die beide worden beschouwd als standaardhoofdtelefoons voor spraakaudiometrie. Deze studie toonde aan dat EHF-representatie een belangrijke rol kan spelen bij spraakverstaan scores. Daarom moet men voorzichtig zijn bij het vergelijken van scores wanneer verschillende apparatuur wordt gebruikt, en met deze bevindingen moet rekening worden gehouden bij het ontwikkelen van spraaktesten.

CONCLUSIE

Deze studie laat zien dat spraakinformatie boven 8 kHz bijdraagt aan het spraakverstaan in stilte en in ruis. Deze bijdrage werd waargenomen bij het verstaan van cijfers, woorden en zinnen. Hoewel het nog steeds onduidelijk is in welke mate luisteraars gebruik maken van hoogfrequente spraakinformatie, zijn er steeds meer aanwijzingen dat frequenties boven 8 kHz relevant zijn bij het horen in het dagelijkste leven. Daarom adviseren we audiologen om gehoordrempels boven 8 kHz te meten bij de toonaudiometrie. Bovendien laat deze studie zien dat de resultaten van spraaktests kunnen variëren louter op basis van de audiometrie-apparatuur die verschillen in frequentierespons boven 8 kHz.

Auteurs: Sigrid Polspoel (1), Sophia E. Kramer (1), Bas Van Dijk (2), Cas Smits (1)

 

(1) Amsterdam UMC, Vrije Universiteit Amsterdam, afdeling Keel‐, Neus‐ en Oorheelkunde/Hoofd‐halschirurgie, Amsterdam Public Health research institute, De Boelelaan 1117, Amsterdam, Nederland

(2) Cochlear Technology Centre Belgium, Schaliënhoevedreef 20i, 2800 Mechelen, België.

 

1.         Fletcher, H., The perception of speech and its relation to telephony. Science, 1948. 108(2816): p. 682.

2.         Fletcher, H. and J.C. Steinberg, Articulation testing methods. The Bell System Technical Journal, 1929. 8(4): p. 806-854.

3.         Monson, B.B., et al., Ecological cocktail party listening reveals the utility of extended high-frequency hearing. Hear Res, 2019. 381: p. 107773.

4.         Monson, B.B., A.J. Lotto, and B.H. Story, Analysis of high-frequency energy in long-term average spectra of singing, speech, and voiceless fricatives. J Acoust Soc Am, 2012. 132(3): p. 1754-64.

5.         Moore, B.C., The role of temporal fine structure processing in pitch perception, masking, and speech perception for normal-hearing and hearing-impaired people. J Assoc Res Otolaryngol, 2008. 9(4): p. 399-406.

6.         Best, V., et al., The role of high frequencies in speech localization. J Acoust Soc Am, 2005. 118(1): p. 353-63.

7.         Monson, B.B., A.J. Lotto, and B.H. Story, Detection of high-frequency energy level changes in speech and singing. J Acoust Soc Am, 2014. 135(1): p. 400-6.

8.         Monson, B.B., A.J. Lotto, and S. Ternstrom, Detection of high-frequency energy changes in sustained vowels produced by singers. J Acoust Soc Am, 2011. 129(4): p. 2263-8.

9.         Moore, B.C. and C.T. Tan, Perceived naturalness of spectrally distorted speech and music. J Acoust Soc Am, 2003. 114(1): p. 408-19.

10.       Lippmann, R.P., Accurate consonant perception without mid-frequency speech energy. IEEE Transactions on Speech and Audio Processing, 1996. 4(1): p. 66.

11.       Vitela, A.D., B.B. Monson, and A.J. Lotto, Phoneme categorization relying solely on high-frequency energy. J Acoust Soc Am, 2015. 137(1): p. EL65-70.

12.       Levy, S.C., et al., Extended High-Frequency Bandwidth Improves Speech Reception in the Presence of Spatially Separated Masking Speech. Ear Hear, 2015. 36(5): p. e214-24.

13.       Monson, B.B. and J. Caravello, The maximum audible low-pass cutoff frequency for speech. J Acoust Soc Am, 2019. 146(6): p. EL496.

14.       Motlagh Zadeh, L., et al., Improved Sensitivity of Digits-in-Noise Test to High-Frequency Hearing Loss. medRxiv, 2020: p. 2020.07.31.20165225.

15.       Motlagh Zadeh, L., et al., Extended high-frequency hearing enhances speech perception in noise. Proc Natl Acad Sci U S A, 2019. 116(47): p. 23753-23759.

16.       Smits, C., S. Theo Goverts, and J.M. Festen, The digits-in-noise test: assessing auditory speech recognition abilities in noise. J Acoust Soc Am, 2013. 133(3): p. 1693-706.

17.       Bosman, A.J. and G.F. Smoorenburg, Intelligibility of Dutch CVC syllables and sentences for listeners with normal hearing and with three types of hearing impairment. Audiology, 1995. 34(5): p. 260-84.

18.       Versfeld, N.J., et al., Method for the selection of sentence materials for efficient measurement of the speech reception threshold. J Acoust Soc Am, 2000. 107(3): p. 1671-84.

19.       Apoux, F. and S.P. Bacon, Relative importance of temporal information in various frequency regions for consonant identification in quiet and in noise. J Acoust Soc Am, 2004. 116(3): p. 1671-80.

20.    Shannon, R.V., et al., Speech recognition with primarily temporal cues. Science, 1995. 270(5234): p. 303-4.

Toon alle referenties

Auteur