Nowoczesny system zamieniający nieme słowa w naturalny głos

3 Minuty

Wyobraź sobie, że rozmawiasz bez wydania dźwięku, a mimo to jesteś doskonale rozumiany. To nie jest już tylko fantastyka naukowa.

Naukowcy z Uniwersytetu Nauki i Technologii w Pohang, znanego szerzej jako POSTECH, opracowali noszony na szyi system, który potrafi zamienić nieme wypowiedzi w słyszalny głos poprzez śledzenie mikroruchów mięśni i skóry w okolicy szyi. Prace, którym przewodniczyli profesor Sung-Min Park i dr Sunguk Hong, opublikowano w czasopiśmie Cyborg and Bionic Systems i zapowiadają one nowy rozdział w komunikacji człowieka z maszynami.

Jak szept zamienia się w głos

Idea jest pozornie prosta. Nawet gdy mówimy bezgłośnie, nasze ciało wciąż się porusza. Delikatne ruchy szyi, szczęki oraz przyległej skóry zdradzają kształt zamierzonych słów. Te ruchy generują sygnały fizyczne, które mogą być zarejestrowane i zinterpretowane.

W tym celu zespół POSTECH stworzył urządzenie noszone na szyi z czujnikiem do mapowania wieloosiowych naprężeń. Wykorzystuje ono miniaturową kamerę oraz elastyczny silikon oznaczony punktami odniesienia, aby wykryć najdrobniejsze deformacje powierzchni skóry. Oznacza to, że czujnik może wygodnie spoczywać na szyi, precyzyjnie śledzić ruchy i automatycznie się kalibrować, jeśli zmieni położenie.

Po zebraniu danych do akcji wkracza sztuczna inteligencja. System analizuje wzorce naprężeń, rozpoznaje intencje wypowiedzi i odtwarza całe słowa lub zdania. Następnie łączy ten wynik z syntezą głosu wzorowaną na prawdziwych cechach brzmienia użytkownika, tworząc mowę brzmiącą naturalnie i autentycznie ludzko.

Prawdziwym przełomem jest nie tylko „słyszenie” ciszy, ale i zachowanie indywidualnego głosu mówcy.

Lekka odpowiedź na trudny problem

Dotychczasowa technologia odzyskiwania głosu bazowała na metodach takich jak elektromiografia czy elektroencefalografia. Metody te są sprawne, lecz wiążą się z uciążliwym sprzętem, skomplikowaną obsługą i ograniczonym komfortem podczas codziennego użytkowania.

To tu rozwiązanie POSTECH wyróżnia się na tle innych. Jest noszone, lekkie i stworzone z myślą o praktycznym codziennym zastosowaniu, a nie tylko demonstracjach w laboratorium. Podczas testów system wykazał wysoką skuteczność odtwarzania mowy, nawet w hałaśliwych warunkach, gdzie klasyczne mikrofony zawodzą. Przemysłowe środowiska to szczególnie trudny test, a właśnie do takich zastosowań stworzono tę technologię.

Potencjalne zastosowania są oczywiste. Pacjenci, którzy stracili głos z powodu uszkodzenia strun głosowych czy operacji krtani, mogliby ponownie się komunikować, korzystając z mowy niemal identycznej z własnym głosem. Dla wielu byłaby to kompletnie odmieniająca życie możliwość.

Wpływ tej innowacji sięga jednak daleko poza opiekę zdrowotną.

Cicha komunikacja mogłaby być przydatna podczas spotkań, w bibliotekach, zatłoczonych miejscach komunikacyjnych czy hałaśliwych środowiskach pracy, gdzie mówienie na głos jest niewygodne lub niemożliwe. Może też zmienić sposób interakcji ludzi z systemami AI, sprawiając, że polecenia i odpowiedzi będą mniej mechaniczne, a bardziej naturalne. Bez klawiatury. Bez mikrofonu. Jedynie intencje zamieniane w mowę.

Obecnie zespół badawczy skupia się na poprawie dokładności, rozszerzeniu obsługi języków i dalszej adaptacji systemu do codziennych zastosowań. Jeśli te elementy się powiodą, tego typu noszone AI może już niedługo przejść z etapu prototypu do narzędzia codziennego użytku.

Trudno nie zauważyć szerszego trendu. Sztuczna inteligencja staje się coraz mniej widoczna, bardziej osobista i jeszcze ściślej zintegrowana z urządzeniami, które nosimy. Dzięki takim innowacjom nawet niewypowiedziane słowa mogą wkrótce zyskać głos.

Nowoczesny system zamieniający nieme słowa w naturalny głos

Jak szept zamienia się w głos

Lekka odpowiedź na trudny problem

Zostaw komentarz

Komentarze

Powiązane posty

ChatGPT Images 2.0: Asystent graficzny z zaawansowaną analizą

Personalna Inteligencja Google Gemini debiutuje globalnie

Meta pracuje nad fotorealistycznym AI Markiem Zuckerbergiem do komunikacji z pracownikami

Google AI Mode umożliwia rezerwacje stolików w restauracjach w Wielkiej Brytanii

OpenAI wprowadza tańszy ChatGPT Pro za 100 USD miesięcznie

Notatniki w Gemini: Nowe możliwości organizacji rozmów AI

Meta prezentuje Muse Spark — nową erę inteligentnej sztucznej inteligencji

Gemma 4: przełomowa sztuczna inteligencja offline na smartfonach z Androidem

Meta wstrzymuje współpracę z Mercor po incydencie AI

Czy AI zagraża oprogramowaniu? Analiza rynku i przyszłość firm IT

Dlaczego OpenAI zamknęło Sora: kulisy upadku przełomowego generatora wideo AI

Przenoszenie pamięci między asystentami AI: Rewolucja Google Gemini