Naukowcy z University of Washington zaprezentowali technologię związaną ze słuchawkami, które posiadają AI, a te same rozpoznają, z kim rozmawiasz, wycinając resztę świata. To wciąż prototyp, ale w przyszłości technologia może być wykorzystana przez wielu producentów.
Wyobraź sobie, że jedziesz zatłoczoną komunikacją miejską, ludzie gadają, ktoś rozmawia przez telefon, z tyłu krzyczy dziecko, a ty próbujesz zrozumieć jedną osobę stojącą obok ciebie. Niestety, ale hałas robi swoje. To zjawisko znane jako „cocktail party problem”, czyli po prostu walka o wyłapanie głosu rozmówcy w akustycznym chaosie.
Zaprezentowano prototyp słuchawek z AI, który sam decyduje, kogo masz słyszeć. Bez wskazywania mówcy, bez patrzenia w jego kierunku, bez żadnych ustawień. Wystarczy, że odezwiesz się jako pierwszy. Naukowcy z University of Washington stworzyli system, który rozpoznaje rytm rozmowy, czyli naturalne naprzemienne „ja mówię, potem ty mówisz”. AI uczy się tego schematu w zaledwie 2–4 sekundy i wycisza wszystkich, którzy nie pasują do konwersacji.
Co ważne, cały prototyp powstał na zwykłym, komercyjnym sprzęcie, czyli wykorzystano standardowe słuchawki i mikrofony.
fot. techManiaK
AI pomoże w rozmowach przez słuchawki
Obecne rozwiązanie to zupełnie inna filozofia niż wcześniejsze eksperymenty zespołu. Początkowo użytkownik musiał ręcznie wskazać osobę, na którą patrzy, albo ustawić promień dźwięku tworzący coś w rodzaju „sound bubble”.
Nowy system zaczyna działać, gdy tylko wypowiesz pierwsze zdanie. Jeden model AI analizuje sekwencję „kto mówi kiedy”, drugi natychmiast wycina tło i zostawia czyste głosy rozmówców. Możesz prowadzić dialog z maksymalnie czterema osobami naraz i to bez opóźnienia.
W testach z 11 uczestnikami użytkownicy ocenili, że jakość rozmowy z filtracją AI była ponad dwa razy lepsza niż w zwykłych słuchawkach. Oczywiście nie można zapominać, że to wciąż prototyp.
System czasem się gubi, zwłaszcza, gdy ludzie zaczynają mówić jeden przez drugiego, albo gdy ktoś wygłasza dłuższy monolog. Wchodzenie nowych osób do rozmowy również potrafi go zmylić. No i na razie trenowano go głównie na angielskim, mandaryńskim i japońskim, a inne języki mogą wymagać dopracowania.
Ulepsz słuchawki bez kupowania nowych! Fairphone stawia na ekologię
Twórcy systemu widzą ogromny potencjał praktyczny i to nie tylko w słuchawkach do pracy czy komunikacji, ale także w aparatach słuchowych czy okularach AR, które mogłyby same filtrować dźwiękowe otoczenie. Co więcej, kod jest open-source, dostępny publicznie. Jeżeli któraś firma z branży audio szuka „następnej wielkiej rzeczy”, to właśnie dostała gotową inspirację. A konkurencja w słuchawkach premium często szuka przewagi.
Zespół badawczy zakłada, że w przyszłości cały system da się zmieścić w małym chipie, który poradzi sobie nawet w urządzeniach o rozmiarze klasycznego earbuda. Nie mamy jeszcze gotowego produktu ani daty premiery.
Na stronie mogą występować linki afiliacyjne lub reklamowe.







Dodaj komentarz