Wewnątrz umysłu maszyny: Jak Gemma Scope 2 rozbija kod czarnej skrzynki AI.

: Opublikowano: 19 grudzień 2025

Przez lata modele językowe były dla nas niczym magiczne pudełka: wpisywaliśmy pytanie, otrzymywaliśmy błyskotliwą odpowiedź, ale nikt tak naprawdę nie wiedział, co dzieje się w środku. Ta zagadka, zwana problemem „czarnej skrzynki”, spędza sen z powiek badaczom bezpieczeństwa AI. Google DeepMind postanowiło jednak zapalić światło w tym ciemnym pokoju, udostępniając Gemma Scope 2 – potężne narzędzie, które pozwala nam zrozumieć nie tylko co model mówi, ale przede wszystkim dlaczego to robi.

Gemma Scope 2 to rozbudowany zestaw rzadkich autoenkoderów (SAE – Sparse Autoencoders), które działają jak zaawansowane filtry. Wyobraźmy sobie, że aktywność neuronów w modelu AI to gigantyczny szum informacyjny, w którym tysiące sygnałów mieszają się ze sobą. SAE potrafią wyłuskać z tego chaosu konkretne, zrozumiałe dla człowieka pojęcia – od tak prostych jak „stolica Francji”, po niezwykle złożone abstrakcje dotyczące etyki czy logiki programowania.

Jak rzadkie autoenkodery zmieniają zasady gry

W tradycyjnym podejściu badanie sieci neuronowych przypominało próbę zrozumienia rozmowy tysiąca osób mówiących jednocześnie w jednym pokoju. Dzięki Gemma Scope 2, badacze mogą teraz „wyciszyć” nieistotne głosy i skupić się na konkretnych wątkach. Najnowsza iteracja tego narzędzia, oparta na modelu Gemma 2, oferuje znacznie większą precyzję niż jej poprzedniczka. Zespół DeepMind zastosował tu innowacyjne techniki, które sprawiają, że wyekstrahowane cechy są bardziej „czyste” i lepiej odzwierciedlają faktyczne procesy myślowe modelu.

To, co czyni wersję drugą przełomową, to jej skala. Mamy do czynienia z dostępem do ogromnej liczby punktów kontrolnych, co pozwala obserwować, jak wiedza formuje się w modelu na różnych etapach jego „myślenia”. To tak, jakbyśmy zamiast jednego zdjęcia rentgenowskiego otrzymali pełnometrażowy film pokazujący, jak idea kiełkuje w sieci neuronowej, zanim ostatecznie zamieni się w tekst na naszym ekranie.

Bezpieczeństwo poprzez zrozumienie

Dlaczego to wszystko jest tak ważne dla przeciętnego użytkownika? Odpowiedź brzmi: bezpieczeństwo. Jeśli wiemy, które grupy neuronów odpowiadają za generowanie dezinformacji lub niebezpiecznych treści, możemy nauczyć się je skutecznie blokować lub korygować u samego źródła, a nie tylko „łatać” gotowe odpowiedzi modelu. Gemma Scope 2 daje społeczności open-source narzędzia, które wcześniej były zarezerwowane tylko dla największych laboratoriów AI na świecie.

Dzięki temu, że Google udostępnia te dane publicznie, badacze z całego świata mogą wspólnie pracować nad stworzeniem systemów, które są nie tylko mądrzejsze, ale przede wszystkim bardziej przewidywalne i godne zaufania. To krok milowy w kierunku interpretowalności AI – dziedziny, która w nadchodzących latach zadecyduje o tym, jak bardzo pozwolimy sztucznej inteligencji asystować nam w codziennym życiu

(źródło: https://deepmind.google/blog/gemma-scope-2-helping-the-ai-safety-community-deepen-understanding-of-complex-language-model-behavior/)