3 Minuty
Zespół zajmujący się uczeniem maszynowym w Apple opublikował niedawno kontrowersyjny artykuł naukowy pod tytułem "The Illusion of Thinking", który wywołał gorącą debatę w społeczności zajmującej się sztuczną inteligencją. Autorzy publikacji argumentowali, że współczesne modele językowe nie posiadają prawdziwych zdolności do niezależnego rozumowania i logicznego myślenia. Jednak odpowiedź ze strony ekspertów AI podważyła jednoznaczne wnioski Apple, rozpalając dyskusję o rzeczywistych ograniczeniach i możliwościach współczesnych modeli sztucznej inteligencji.
Kluczowe argumenty: Czy dzisiejsze modele AI rzeczywiście są ograniczone?
Ellen Lason, badaczka z Open Philanthropy, opublikowała polemiczną pracę zatytułowaną "The Illusion of the Illusion of Thinking", bezpośrednio kwestionując twierdzenia Apple. Lason, odwołując się m.in. do zaawansowanego modelu Claude Opus firmy Anthropic, wskazuje, że słabe wyniki modeli odzwierciedlają braki w projekcie, a nie rzeczywiste ograniczenia w zakresie rozumowania AI. Według niej, to przede wszystkim problemy techniczne i błędna konfiguracja były przyczyną słabszej efektywności wskazanej przez Apple.
Najważniejsze zastrzeżenia wobec metodologii Apple
Lason wyróżniła trzy kluczowe problemy związane z ocenianiem:
- Pominięcie ograniczeń tokenów: Jej zdaniem, modele Apple nie radziły sobie z pewnymi łamigłówkami logicznymi nie z powodu braku zdolności rozumowania, a przez restrykcyjne limity długości odpowiedzi (tokenów), które prowadziły do ucinania wypowiedzi modeli.
- Zaliczenie nierozwiązywalnych problemów jako porażek: W przypadku łamigłówek pokroju 'River Crossing' niektóre wersje były nierozwiązywalne, jednak Apple traktowało je jako błędy AI, co niesłusznie dyskredytowało modele.
- Ograniczenia w procesie oceny: Zautomatyzowany system oceniania Apple uznawał tylko pełne, szczegółowo opisane rozwiązania krok po kroku, a częściowe czy strategiczne odpowiedzi – mimo poprawności logicznej – były oznaczane jako błędne. Nie rozróżniano tu rzeczywistej awarii w rozumowaniu od ograniczeń wyjścia.
Popierając swoje wywody, Lason powtórzyła testy Apple, tym razem eliminując limit długości odpowiedzi. Wyniki wykazały, że badane modele AI były w stanie samodzielnie rozwiązywać złożone problemy logiczne, jeśli usunięto sztuczne ograniczenia – sugerując, że zdolności rozumowania sztucznej inteligencji są rzeczywiste, jeśli modele są właściwie skonfigurowane.

Testowanie sztucznej inteligencji na klasycznych zagadkach logicznych
Oryginalne badanie Apple oceniało zdolności rozumowania AI na podstawie czterech klasycznych łamigłówek logicznych: Wieży Hanoi (zdjęcie powyżej), Świata Klocków, łamigłówki River Crossing oraz przeskakiwania pionkami w warcabach. Zadania te, powszechnie wykorzystywane w kognitywistyce i badaniach nad sztuczną inteligencją, zyskują na złożoności wraz z kolejnymi krokami, wymagając od AI kompetencji do wieloetapowego planowania.
Zespół Apple wymagał od modeli nie tylko poprawnych odpowiedzi, ale również wyraźnego przedstawienia "łańcucha myślowego" dla każdej zagadki, co znacznie podnosiło poprzeczkę oceny.
Spadek efektywności wraz ze wzrostem złożoności
Zgodnie z badaniami Apple, wraz ze wzrostem trudności łamigłówek, precyzja odpowiedzi modeli językowych gwałtownie malała, osiągając zero przy najbardziej skomplikowanych problemach. Apple zinterpretowało to jako dowód poważnego ograniczenia zdolności rozumowania współczesnych systemów AI.
Odpowiedź społeczności: problem z rozumowaniem czy ograniczeniem wyjścia?
Eksperci i społeczność zajmująca się AI w mediach społecznościowych szybko wskazali, że błędne rozumowanie Apple polegało na utożsamieniu przerwania wypowiedzi z brakiem rozumowania logicznego. W wielu przypadkach modele tworzyły poprawne strategie, ale ich wypowiedzi były przedwcześnie przerywane przez limity tokenów. Co więcej, Apple przypisywało porażki AI nawet w przypadku nierozwiązywalnych zadań, co budziło wątpliwości co do rzetelności oceny.
Znaczenie i konsekwencje dla rynku AI
Ta debata ma istotne znaczenie dla dalszego rozwoju generatywnej sztucznej inteligencji, dużych modeli językowych oraz zaawansowanych asystentów AI. Firmy technologiczne, dążąc do tworzenia AI zdolnej do wieloetapowego rozumowania, niezbędnego np. w autonomicznych systemach, zaawansowanych wyszukiwarkach czy programowaniu, muszą rzetelnie rozpoznawać rzeczywiste możliwości i ograniczenia modeli językowych.
Badania Apple oraz Lason podkreślają, jak kluczowe są metody oceny i konstrukcja środowisk testowych dla AI. Wraz z rozwojem generatywnej sztucznej inteligencji, jasne, przejrzyste i obiektywne benchmarki będą niezbędne do rzetelnego pomiaru i realnej poprawy umiejętności rozwiązywania problemów przez systemy AI.
Źródło: arxiv

Komentarze