Projekte

Stellen Sie sich vor, Sie befinden sich im dichten Straßenverkehr, inmitten von Fußgängern, Radfahrern und Autos, die sich alle in unterschiedliche Richtungen bewegen. In dieser und vielen anderen Situationen ist es überlebenswichtig, genau zu wissen wo und wann Ereignisse in unserer Umgebung stattfinden. Um möglichst schnell und korrekt auf externe Reize zu reagieren, erzeugt unser Gehirn dabei ständig Vorhersagen über zukünftige Ereignisse. Zum Beispiel, wo ein heranfahrendes Auto sich zu dem Zeitpunkt befinden wird, wenn wir die Straße überqueren wollen. Nicht nur für uns Menschen sind diese Vorhersagen zentral. Auch andere Primaten könnten ähnliche Mechanismen verwenden, etwa wenn sie sich durch dichtes Dschungelgebiet bewegen. Inwiefern die Evolution diese Mechanismen bei Menschen im Vergleich zu anderen Spezies geformt hat, ist bis heute unklar.

Des Weiteren sind unsere Sinnesinformationen oft mehrdeutig, sodass unser Gehirn mehrere parallele Interpretationen und Vorhersagen erzeugt und sich letztlich auf eine festlegen muss. Gegenwärtig stammt der Großteil unseres Wissens über diese Wahrnehmungsprozesse aus Studien zum Sehsinn. Vergleichsweise wenig ist darüber für unseren Hörsinn bekannt, welcher aber gleichermaßen zentral für unser Überleben und Sozialverhalten ist.

Das Zukunftskolleg Dynamates möchte diese zentralen Wissenslücken zur Hörwahrnehmung schließen indem es die Vorhersagemechanismen nahe verwandter Spezies in realistischen aber hochkontrollierbaren virtuellen akustischen Umgebungen testen und mit Computermodellen abbilden wird. Zusätzlich wird Dynamates mittels hochauflösender Elektroenzephalographie (EEG) bei Menschen die neuronalen Grundlagen der zugrunde liegenden Prozesse untersuchen. Das Projekt basiert damit auf einer interdisziplinären Zusammenarbeit zwischen Expertinnen und Experten aus dem Bereich der Computermodellierung (Robert Baumgartner), der Neurowissenschaft (Ulrich Pomper), und der Kognitionsbiologie (Michelle Spierings).

Dynamates wird somit den ersten systematischen Vergleich von dynamischen Vorhersage- und Entscheidungsprozessen des Hörsinns zwischen Menschen und nicht-menschlichen Primaten durchführen. Ein besseres Verständnis der neuronalen Grundlagen dieser Prozesse kann Anwendung bei der Behandlung von Personen mit Störungen im Wahrnehmungs- und Entscheidungsverhalten (z.B. bei Autismus oder Schizophrenie) finden. Die erstellten mathematischen Modelle lassen sich in Zukunft auch in anderen Spezies oder bei komplexeren Entscheidungsprozessen (z.B. in sozialen Interaktionen) testen, und können direkte Anwendung in der Entwicklung von künstlicher Intelligenz und virtuellen Realitäten finden.

In folgender Online-Lecture erklärt Robert Baumgartner weitere Hintergründe zu dieser Forschung: ÖAW Science Bites: Gefahr - wie wir sie hören.

Unsere neuen Teammitglieder starten in Kürze: Roberto Barumerli, Sophie Hanke, and David Meijer.

Selective hearing refers to the ability of the human auditory system to selectively attend to a desired speaker while ignoring undesired, concurrent speakers. This is often referred to as the cocktail-party problem. In normal hearing, selective hearing is remarkably powerful. However, in so-called electric hearing, i.e., hearing with cochlear implants (CIs), selective hearing is severely degraded, close to not present at all. CIs are commonly used for treatment of severe-to-profound hearing loss or deafness because they provide good speech understanding in quiet. The reasons for the deficits in selective hearing are mainly twofold. First, they arise from structural limitations of current CI electrode designs which severely limit the spectral resolution. Second, they arise from a lack of salient timing cues, most importantly interaural time difference (ITD) and temporal pitch. The second limitation is assumed to be partly “software”-sided and conquerable with perception-driven signal processing. Yet, success achieved so far is at best moderate.

A recently proposed approach to provide precise ITD and temporal-pitch cues in addition to speech understanding is to insert extra pulses with short inter-pulse intervals (so-called SIPI pulses) into periodic high-rate pulse trains. Results gathered so far in our previous project ITD PsyPhy in single-electrode configurations are encouraging in that both ITD and temporal-pitch sensitivity improved when SIPI pulses were inserted at the signals’ temporal-envelope peaks. Building on those results, this project aims to answer the most urgent research questions towards determining whether the SIPI approach improves selective hearing in CI listeners: Does the SIPI benefit translate into multi-electrode configurations? Does the multi-electrode SIPI approach harm speech understanding? Does the multi-electrode SIPI approach improve speech-in-speech understanding?

Psychophysical experiments with CI listeners are planned to examine the research questions. To ensure high temporal precision and stimulus control, clinical CI signal processors will be bypassed by using a laboratory stimulation system directly connecting the CIs with a laboratory computer. The results are expected to shed light on parts of both electric and acoustic hearing that are still not fully understood to date, such as the role and the potential of temporal cues in selective hearing.


References from our Lab:

Duration: May 2020 - April 2022

Funding: DOC Fellowship Program of the Austrian Academy of Sciences (A-25606)

PI: Martin Lindenbeck

Supervisors: Bernhard Laback and Ulrich Ansorge (University of Vienna)

See also:

Beschreibung

 

Wir danken dem FWF für die Förderung des Projekts mit der Nummer I 4299-N32

Schallquellenlokalisierungsverfahren sind weit verbreitet in der Automobil-, Schienenfahrzeug- und Luftfahrtindustrie. Viele verschiedene Methoden stehen für die Analyse von ruhenden Schallquellen zur Verfügung. Geeignete Verfahren für bewegte Schallquellen kämpfen nach wie vor mit den Problemstellungen der Dopplerverschiebung, der vergleichsweise kurzen Messzeiten und Ausbreitungseffekten durch die umgebende Atmosphäre. Das Projekt LION kombiniert die Expertise von vier Arbeitsgruppen aus drei verschiedenen Ländern im Bereich der Schallquellenlokalisierung: Die Beuth Hochschule für Technik Berlin (Beuth), das Fachgebiet Turbomaschinen- und Thermoakustik der TU Berlin (TUB), das Akustische Forschungsinstitut (ARI) der Österreichischen Akademie der Wissenschaften und das Schweizer Forschungslabor für Akustik / Lärmminderung der EMPA. Die genannten Institutionen kooperieren, um die existierenden Methoden zur Analyse von bewegten Schallquellen zu erweitern und zu verbessern. Dabei soll der Dynamikbereich erweitert sowie die räumliche und die Frequenzauflösung erhöht werden. Die neuen Verfahren sollen auf komplexe Probleme wie die Analyse von tonalen Quellen mit starker Richtcharakteristik oder kohärenten, räumlich verteilten Quellen angewandt werden.

 

Methoden

Die Partner werden die Methoden gemeinsam entwickeln, validieren und Synergieeffekte heben, die sich durch diese Partnerkonstellation ergeben. Beuth plant, die Methode der äquivalenten Schallquellen im Frequenzbereich auf bewegte Quellen im Halbraum zu erweitern und dabei die Einflüsse des Bodens und der Schallausbreitung in der Atmosphäre zu berücksichtigen. ARI steuern die akustische Holografie, die Hauptkomponentenanalyse und die Methode der unabhängigen Komponenten bei und möchten diese zusammen mit ihrer Expertise für vorbeifahrende Züge nutzen, um numerische Randelementeverfahren inklusive der Transformation vom stehenden in das bewegte Bezugssystem zu verbessern. TUB entwickelt Optimierungsmethoden und modellbasierte Ansätze für die Lokalisierung von bewegten Schallquellen und bringt eine umfangreiche Datenbasis an mit einer großen Anzahl von Mikrofonen erfassten Überflugversuchsdaten ins Projekt ein. EMPA fügt seine Expertise zur Schallausbreitungsmodellierung mit atmosphärischer Turbulenz und Bodeneffekten basierend auf zeitvarianten digitalen Filtern hinzu. Sie werden überdies einen synthetischen Testfall zur Validerung der erweiterten und verbesserten Schalllokalisierungsmethoden aufsetzen. Das Projekt ist für eine Laufzeit von drei Jahren geplant. Das Arbeitsprogramm ist in vier Arbeitspakete organisiert: 1) Entwicklung der Algorithmen und Modelle, 2) die Entwicklung einer virtuellen Testumgebung für die Methoden, 3) die Simulation von Szenarien in der virtuellen Testumgebung und 4) die Anwendung der verbesserten und erweiterten Verfahren auf existierende Mikrofonmessungen von Zügen und Flugzeugen.

 

Beschreibung

Wir danken für die Förderung durch die Forschungsförderungsgesllschaft (FFG), Projektnummer 873588. Lärm bedeutet Ärger. Er wird neben Verkehr und Gewerbe vor allem von Heiz- oder Kühlgeräten emittiert: Luftwärmepumpen, Rückkühlern und Lüftern. Um die Schallimmissionen auf die Bevölkerung im urbanen Gebiet zu minimieren, werden im Projekt Methoden entwickelt, die einen einfachen, intuitiven und zugleich akkuraten Umgang mit Schallemissionen und deren Minderung ermöglichen.

 

Methoden

Ziel ist, die Lärmquellen vor deren Installation VOR ORT in realer Umgebung mittels Augmented Reality virtuell zu platzieren und die Schallemissionen visuell farblich darzustellen und hörbar zu machen. Hindernisse oder Schalldämmmaßnahmen, wie Wände, Zäune und Mauern werden automatisiert erkannt oder können virtuell hinzugefügt werden. Um diese Ziele zu erreichen, sind umfassende Methodenentwicklungen zur effizienten akustischen Berechnung erforderlich: frequenzabhängiges und zeitabhängiges Verhalten, Absorption und Reflexion. Dieser einzigartige Ansatz erleichtert die Planung von erneuerbaren Heiz- und Kühlgeräten, erhöht die Akzeptanz und damit den Anteil erneuerbarer Energien und senkt den Lärmpegel in Städten.

 

 

 

 

 

Reweighting of Binaural Cues: Generalizability and Applications in Cochlear Implant Listening

Normal-hearing (NH) listeners use two binaural cues, the interaural time difference (ITD) and the interaural level difference (ILD), for sound localization in the horizontal plane. They apply frequency-dependent weights when combining them to determine the perceived azimuth of a sound source. Cochlear implant (CI) listeners, however, rely almost entirely on ILDs. This is partly due to the properties of current envelope-based CI-systems, which do not explicitly encode carrier ITDs. However, even if they are artificially conveyed via a research system, CI listeners perform worse on average than NH listeners. Since current CI-systems do not reliably convey ITD information, CI listeners might learn to ignore ITDs and focus on ILDs instead. A recent study in our lab provided first evidence that such reweighting of binaural cues is possible in NH listeners.

This project aims to further investigate the phenomenon: First, we will test whether a changed ITD/ILD weighting will generalize to different frequency regions. Second, the effect of ITD/ILD reweighting on spatial release from speech-on-speech masking will be investigated, as listeners benefit particularly from ITDs in such tasks. And third, we will test, whether CI listeners can also be trained to weight ITDs more strongly and whether that translates to an increase in ITD sensitivity. Additionally, we will explore and evaluate different training methods to induce ITD/ILD reweighting.

The results are expected to shed further light on the plasticity of the binaural auditory system in acoustic and electric hearing.

Start: October 2018

Duration: 3 years

Funding: uni:docs fellowship program for doctoral candidates of the University of Vienna

The auditory system constantly monitors the environment to protect us from harmful events such as collisions with approaching objects. Auditory looming bias is an astoundingly fast perceptual bias favoring approaching compared to receding auditory motion and was demonstrated behaviorally even in infants of four months in age. The role of learning in developing this perceptual bias and its underlying mechanisms are yet to be investigated. Supervised learning and statistical learning are the two distinct mechanisms enabling neural plasticity. In the auditory system, statistical learning refers to the implicit ability to extract and represent regularities, such as frequently occurring sound patterns or frequent acoustic transitions, with or without attention while supervised learning refers to the ability to attentively encode auditory events based on explicit feedback. It is currently unclear how these two mechanisms are involved in learning auditory spatial cues at different stages of life. While newborns already possess basic skills of spatial hearing, adults are still able to adapt to changing circumstances such as modifications of spectral-shape cues. Spectral-shape cues are naturally induced when the complex geometry especially of the human pinna shapes the spectrum of an incoming sound depending on its source location. Auditory stimuli lacking familiarized spectral-shape cues are often perceived to originate from inside the head instead of perceiving them as naturally external sound sources. Changes in the salience or familiarity of spectral-shape cues can thus be used to elicit auditory looming bias. The importance of spectral-shape cues for both auditory looming bias and auditory plasticity makes it ideal for studying them together.

Born2Hear project overview

Born2Hear will combine auditory psychophysics and neurophysiological measures in order to 1) identify auditory cognitive subsystems underlying auditory looming bias, 2) investigate principle cortical mechanisms for statistical and supervised learning of auditory spatial cues, and 3) reveal cognitive and neural mechanisms of auditory plasticity across the human lifespan. These general research questions will be addressed within three studies. Study 1 will investigate the differences in the bottom-up processing of different spatial cues and the top-down attention effects on auditory looming bias by analyzing functional interactions between brain regions in young adults and then test in newborns whether these functional interactions are innate. Study 2 will investigate the cognitive and neural mechanisms of supervised learning of spectral-shape cues in young and older adults based on an individualized perceptual training on sound source localization. Study 3 will focus on the cognitive and neural mechanisms of statistical learning of spectral-shape cues in infants as well as young and older adults.

Key publication: Baumgartner, R., Reed, D.K., Tóth, B., Best, V., Majdak, P., Colburn H.S., Shinn-Cunningham B. (2017): Asymmetries in behavioral and neural responses to spectral cues demonstrate the generality of auditory looming bias, in: Proceedings of the National Academy of Sciences of the USA 114, 9743-9748

Project investigator (PI): Robert Baumgartner

Project partner / Co-PI: Brigitta Tóth, Institute of Cognitive Neuroscience and Psychology, Research Centre for Natural Sciences, Hungarian Academy of Sciences, Budapest, Hungary

Collaboration partners:

Duration: April 2020 - March 2024

Supported by the Austrian Science Fund (FWF, I 4294-B) and NKFIH.

Scientific and Technological Cooperation between Austria and Serbia (SRB 01/2018)

Duration of the project: 01.07.2018 - 30.06.2020

 

Project partners:

Acoustics Research Institute, ÖAW (Austria)

University of Vienna (Austria)

University of Novi Sad (Republic of Serbia)

 

Link to the project website: http://nuhag.eu/anacres

General Information

Funded by the Vienna Science and Technology Fund (WWTF) within the  "Mathematics and …2016"  Call (MA16-053)

Principal Investigator: Georg Tauböck

Co-Principal Investigator: Peter Balazs

Project Team: Günther Koliander, José Luis Romero  

Duration: 01.07.2017 – 01.07.2021

Abstract

Signal processing is a key technology that forms the backbone of important developments like MP3, digital television, mobile communications, and wireless networking and is thus of exceptional relevance to economy and society in general. The overall goal of the proposed project is to derive highly efficient signal processing algorithms and to tailor them to dedicated applications in acoustics. We will develop methods that are able to exploit structural properties in infinite-dimensional signal spaces, since typically ad hoc restrictions to finite dimensions do not sufficiently preserve physically available structure. The approach adopted in this project is based on a combination of the powerful mathematical methodologies frame theory (FT), compressive sensing (CS), and information theory (IT). In particular, we aim at extending finite-dimensional CS methods to infinite dimensions, while fully maintaining their structure-exploiting power, even if only a finite number of variables are processed. We will pursue three acoustic applications, which will strongly benefit from the devised signal processing techniques, i.e., audio signal restoration, localization of sound sources, and underwater acoustic communications. The project is set up as an interdisciplinary endeavor in order to leverage the interrelations between mathematical foundations, CS, FT, IT, time-frequency representations, wave propagation, transceiver design, the human auditory system, and performance evaluation.

Keywords

compressive sensing, frame theory, information theory, signal processing, super resolution, phase retrieval, audio, acoustics

Video

Link

 

Projektleitung: Michael Pucher

Beginn des Projekts: 1. Februar 2019

Projektbeschreibung:

Um den aktuellen Zustand einer Sprache zu erheben, soll bekanntlich der Sprachgebrauch eines alten, ländlichen, nicht mobilen Mannes analysiert werden. Für Entwicklungstendenzen einer Varietät sollte man jedoch die Sprache einer jungen und gebildeten Frau im urbanen Bereich untersuchen. Der Sprachgebrauch von jungen Frauen stellt ein besonders interessantes Forschungsfeld dar: Sie gelten als Initiatoren und Treibkräfte linguistischer Neuheiten einer Sprache, lautlich wie lexikal, die sich von Großstädten aus in den weiteren Sprachraum verbreiten können. Ebenso wird angenommen, dass aufgeschlossene junge Frauen linguistische Innovationen rascher übernehmen als ihre männlichen Peers. Sie verleiben sich eine neue Art zu sprechen schneller ein und geben diese an ihre späteren Kinder weiter. Frauen tendieren auch dazu, sprachliche Merkmale als social identifier zu verwenden, um sich der gleichen Peergroup zugehörig zu zeigen und können dadurch zu einem Sprachwandel beitragen.

Die Stadt Wien hat sich in den vergangenen 30 Jahren stark verändert; so ist die Bevölkerung um 15% gestiegen und mit ihr auch die Anzahl der gesprochenen Sprachen. Laut einer Erhebung der Arbeiterkammer werden in Wien ca. 100 verschiedene Sprachen verwendet und man kann Wien nicht absprechen, weiterhin als ein Schmelztiegel verschiedenster Sprachen und Kulturen in Mitteleuropa zu gelten. Dass sich diese gesellschaftlichen bzw. gesellschaftspolitischen Veränderungen nicht nur im lexikalischen Sprachgebrauch der WienerInnen widerspiegeln, sondern ebenso in ihrer physiologischen Stimme zum Ausdruck kommen, soll hier den Ausgangspunkt der Studie darstellen.

In dieser Untersuchung wird die Stimme als der physiologische und im Vokaltrakt modulierter Schall zur Lautäußerungen des Menschen gesehen. Die Stimme kann abgesehen davon auch als Ort des verkörperlichten Herz der gesprochenen Sprache gelten, die den Körper durch Indexikalität im sozialen Raum verankert. Als Vehikel der persönlichen Identität kann die Stimme nicht nur soziokulturelle, sondern auch gesellschaftspolitische Merkmale (bspw. „Frauen in Führungspositionen haben eine tiefere Stimme“) widerspiegeln. Hier übernimmt die Soziophonetik eine tragende Rolle, denn sie stellt ein wichtiges Instrument dar, das es ermöglicht, den sozialen Raum und seine gesellschaftsrelevanten Diskurse mit dem Individuum zu verknüpfen.

Studien aus dem angloamerikanischen Raum wie legen nahe, dass sich die Stimme der jungen Frau in einem Wandel befindet. Das soziophonetische Stimmphänomen Vocal Fry hat sich inzwischen im angloamerikanischen Raum zum prominenten Sprachmerkmal junger, gebildeter und urbanen Frauen entwickelt.

Basierend auf zwei Korpora soll eine Longitudinalstudie entstehen, die nachskizziert, inwiefern sich die Stimme der jungen Wienerin geändert hat. Soziophonetische Studien zu Frauenstimmen gibt es in Österreich nicht, vor allem in Hinsicht auf die angestrebte Qualität der Studie. Durch ihren longitudinalen Charakter kann sie aufzeigen, in wie weit das gesellschaftliche Geschehen Einfluss auf die Stimme der Frau ausübt.

Darüber hinaus bietet diese Studie eine einmalige Gelegenheit, eine Momentaufnahme der Wienerin und ihrer Stimme zu erhalten und sie in einen historischen Kontext zu setzen.

 

Informationen zur Teilnahme finden Sie hier!

Introduction:

The ability of listeners to discriminate literal meanings from figurative language, affective language, or rhetorical devices such as irony is crucial for a successful social interaction. This discriminative ability might be reduced in listeners supplied with cochlear implants (CIs), widely used auditory prostheses that restore auditory perception in the deaf or hard-of-hearing. Irony is acoustically characterised by especially a lower fundamental frequency (F0), a lower intensity and a longer duration in comparison to literal utterances. In auditory perception experiments, listeners mainly rely on F0 and intensity values to distinguish between context-free ironic and literal utterances. As CI listeners have great difficulties in F0 perception, the use of frequency information for the detection of irony is impaired. However, irony is often additionally conveyed by characteristic facial expressions.

Objective:

The aim of the project is two-fold: The first (“Production”) part of the project will study the role of paraverbal cues in verbal irony of Standard Austrian German (SAG) speakers under well-controlled experimental conditions without acoustic context information. The second (“Perception”) part will investigate the performance in recognizing irony in a normal-hearing control group and a group of CI listeners.

Method:

Recordings of speakers of SAG will be conducted. During the recording session, the participants will be presented with scenarios that evoke either a literal or an ironic utterance. The response utterances will be audio- and video-recorded. Subsequently, the thus obtained context-free stimuli will be presented in a discrimination test to normal-hearing and to postlingually deafened CI listeners in three modes: auditory only, auditory+visual, visual only.

Application:

The results will not only provide information on irony production in SAG and on multimodal irony perception and processing, but will, most importantly, identify the cues that need to be improved in cochlear implants in order to allow CI listeners full participation in daily life.