Xiaomi udostępnia OmniVoice: otwarta rewolucja w syntezie mowy

Xiaomi udostępnia OmniVoice: otwarta rewolucja w syntezie mowy

Komentarze

5 Minuty

Sztuczna inteligencja głosowa często robi wrażenie na papierze, a w praktyce brzmi nienaturalnie. Xiaomi uważa, że znalazło na to rozwiązanie. Firma udostępniła jako open source OmniVoice – nowy model przetwarzania tekstu na mowę, który obsługuje klonowanie głosu, generowanie mowy w wielu językach oraz precyzyjną kontrolę nad brzmieniem syntetycznej wypowiedzi.

Co wyróżnia OmniVoice, to nie tylko typowe zapewnienia o czystszym dźwięku czy szybszym działaniu. Xiaomi promuje ten model jako zdolny do pracy z setkami języków, w tym z tymi o ograniczonych zasobach, które zazwyczaj są pomijane przez popularne systemy TTS. Jeśli deklaracje znajdą potwierdzenie poza laboratorium, może to mieć ogromny wpływ nie tylko na flagowe smartfony i inteligentnych asystentów.

Ogłoszenie pojawiło się na oficjalnym kanale Xiaomi w serwisie WeChat. Firma twierdzi, że OmniVoice prezentuje świetne wyniki zarówno w języku chińskim, jak i angielskim oraz w wielu zadaniach wielojęzycznych dorównuje, a nawet przewyższa komercyjne alternatywy. To odważna deklaracja. Szczegóły sugerują jednak, że Xiaomi mierzy się z realnym wyzwaniem technologii mowy: większość systemów TTS najlepiej działa w kilku najpopularniejszych językach, a reszta otrzymuje zubożoną jakość.

Jak OmniVoice może zmienić rynek głosowy

OmniVoice został zaprojektowany z myślą o wielojęzycznej syntezie mowy. Firma opisuje go jako model TTS do klonowania głosu, obsługujący setki języków, również tych, dla których dostępnych jest bardzo niewiele danych treningowych. W praktyce oznacza to, że system ma generować zrozumiałą i naturalnie brzmiącą mowę nawet wtedy, gdy danych jest mało – a to od lat spowalniało rozwój rozwiązań AI dla języków regionalnych i niszowych.

Według Xiaomi, OmniVoice przewyższył kilka komercyjnych systemów podczas testów z udziałem 24 języków, zwłaszcza w zakresie podobieństwa głosu i zrozumiałości, mimo że korzystał wyłącznie z otwartych zbiorów danych. W szerszej ocenie obejmującej 102 języki, firma podaje, że OmniVoice niemal dorównał zrozumiałości mowy ludzkiej, a w niektórych przypadkach ją przewyższył. Takie tezy wymagają niezależnej weryfikacji, ale pokazują, jak agresywnie Xiaomi chce pozycjonować ten model w globalnym wyścigu AI.

Ciekawą częścią ogłoszenia jest nacisk na efektywny trening przy niewielkiej liczbie dostępnych danych. Xiaomi zapewnia, że nawet języki, dla których istnieje poniżej 10 godzin materiału audio, mogą z OmniVoice uzyskać wysoką jakość syntezy głosu. Dla społeczności i deweloperów pracujących z niedostatecznie reprezentowanymi językami może to być przełom. Model, który obniża wymagania dotyczące danych, zmienia zasady gry i poszerza grono twórców narzędzi mowy.

Wewnątrz, OmniVoice różni się od wielu współczesnych złożonych rozwiązań TTS. Zamiast korzystać z warstwowych modułów i wielu etapów predykcji, według Xiaomi stosuje on jeden dwukierunkowy model Transformer, który zamienia tekst bezpośrednio w dźwięk. Prostszą architekturę, mniej elementów i potencjalnie mniej wąskich gardeł.

Takie podejście wpływa także na szybkość działania. Xiaomi twierdzi, że OmniVoice może zostać wytrenowany na 100 000 godzin nagrań w ciągu jednego dnia, a podczas działania osiąga do 40-krotnej prędkości rzeczywistej (real time) w PyTorch. To ma istotne znaczenie dla deweloperów. Szybki inference często decyduje, czy rozwiązanie nadaje się do wdrożeń w produktach konsumenckich, systemach obsługi klienta, narzędziach dostępności, czy na platformach treści.

Firma wskazuje na dwie decyzje techniczne, które umożliwiły te osiągnięcia. Pierwszą jest strategia pełnego losowego maskowania codebooka, która według Xiaomi podnosi efektywność i jakość modelu podczas treningu. Drugą – wykorzystanie dużego modelu językowego do pre-treningu, co poprawia wymowę i zrozumiałość w nieaautoregresywnym podejściu do TTS. To znaczy, że model nie tylko stara się brzmieć płynnie, ale rozumie strukturę języka na tyle, by naturalniej wymawiać trudne słowa.

Ma to kluczowe znaczenie w realnym użytkowaniu, gdzie synteza mowy często zawodzi przy imionach, akcentach, zapożyczeniach czy tekstach mieszanych językowo. Xiaomi podaje, że OmniVoice umożliwia także ręczną korektę trudnych wymówień, na przykład przy chińskich znakach polifonicznych i angielskich nazwach własnych, co zwiększa niezawodność rozwiązania.

Cechy skierowane do użytkowników końcowych sprawiają, że OmniVoice przypomina bardziej platformę niż tylko efekt badań. Użytkownicy mogą generować spersonalizowane głosy na podstawie opisu takich cech jak wiek, płeć, wysokość dźwięku, akcent, dialekt czy styl mówienia. System umożliwia także syntezę mowy szeptanej i innych nietypowych stylów bez konieczności podawania nagrania referencyjnego, co znacznie zwiększa elastyczność.

Xiaomi informuje również, że OmniVoice potrafi oczyścić szumiące nagrania referencyjne przed klonowaniem głosu, skuteczniej wyodrębniając cechy mówcy ze słabej jakości nagrań. Może się to wydawać drobiazgiem, ale każdy, kto pracował z rzeczywistym audio, wie, jak zniekształcone bywają materiały źródłowe. System klonowania odporny na szumy tła jest w praktycznych zastosowaniach znacznie cenniejszy niż ten, który działa tylko w warunkach studyjnych.

Kolejną cechą jest ekspresywność. OmniVoice obsługuje kontrolę intonacji, w tym efekty takie jak śmiech czy westchnienia, co pozwala uczynić mową syntetyczną bardziej konwersacyjną, mniej mechaniczną. Rynek właśnie w tym kierunku ewoluuje. Nowa generacja AI głosowej to nie tylko dokładne czytanie tekstów. To także interpretacja, osobowość i emocje.

Xiaomi nie jest pierwszą firmą ścigającą ten cel i na pewno nie ostatnią. Decydując się jednak na otwarcie kodu OmniVoice, firma podejmuje strategiczny zakład, że szeroki dostęp dla deweloperów przyspieszy rozwój jej technologii mowy i wprowadzi ją do większej liczby produktów, rynków i języków. Jeśli model spełni chociaż część tych obietnic, OmniVoice może stać się jednym z najciekawszych otwartoźródłowych projektów AI głosowej tego roku.

Zostaw komentarz

Komentarze