Gemma 4 na Hugging Face: Wielkanocna niespodzianka Google do pobrania

Gemma-4

Google wypuszcza Gemma 4: Nowa rodzina modeli (od E2B do 31B) wprowadza możliwości rozumowania i multimodalność bezpośrednio do laptopów i smartfonów. Z ogromnym oknem kontekstowym do 256K tokenów i licencją Apache 2.0, Google daje przykład darmowej lokalnej sztucznej inteligencji.

Marc Herter (tłumaczenie DeepL / Ninh Duy), Opublikowany 03/04/2026 🇺🇸 🇩🇪 ...

AI Launch Open Source DIY

Tuż przed Świętami Wielkanocnymi Google zrzuciło dużą niespodziankę na Hugging Facedługo oczekiwana Gemma 4 jest już dostępna do pobrania. Premiera obejmuje cztery podstawowe klasy wielkości: E2B, E4B, 26B A4B i 31B. Wszystkie modele posiadają zintegrowany tryb "Myślenia", umożliwiający im przetwarzanie złożonych problemów krok po kroku przed dostarczeniem ostatecznej odpowiedzi. Podekscytowanie związane z wydaniem jest oczywiste, ponieważ Gemma 4 stała się lokalnie użyteczna w narzędziach takich jak LM Studio i Unsloth w ciągu kilku godzin od debiutu.

Według Googleta nowa generacja przedkłada wydajność nad surowy rozmiar. Wyróżniającą się poprawą w stosunku do poprzedniej iteracji Gemma 3 jest to, że najmniejsze modele z obecnej serii już teraz dorównują poziomem wydajności największemu modelowi Gemma 3 w różnych testach porównawczych. W praktyce oznacza to, że zadania, które wcześniej wymagały wysokiej klasy sprzętu, mogą być teraz wykonywane lokalnie na smartfonie.

Architektura różni się w zależności od zamierzonego przypadku użycia. Podczas gdy wariant 31B wykorzystuje stosunkowo klasyczną strukturę, model 26B-A4B wykorzystuje podejście Mixture-of-Experts (MoE). Podczas wnioskowania - faktycznego procesu obliczeniowego - aktywowanych jest tylko około czterech miliardów parametrów, mimo że model posiada ich łącznie 26 miliardów. Zapewnia to dużą szybkość i umiarkowane zużycie zasobów bez poświęcania głębi wiedzy. Mniejsze modele E2B i E4B wykorzystują Per-Layer Embeddings (PLE), które zapewniają wyspecjalizowane informacje dla każdego tokena w każdej warstwie modelu, optymalizując wydajność specjalnie dla procesorów mobilnych.

Znaczne postępy poczyniono również w zakresie okna kontekstowego - ilości danych, które model może przechowywać "w pamięci" jednocześnie. Modele E2B i E4B obsługują 128 000 tokenów, podczas gdy większe warianty (26B A4B i 31B) mogą obsłużyć do 256 000 tokenów. Wydajność ta pozwala użytkownikom analizować ogromne dokumenty lub złożone struktury kodu w jednym przebiegu.

Wielomodalność jest głęboko zintegrowana z Gemma 4, umożliwiając użytkownikom płynne łączenie tekstu i obrazów w ramach jednego monitu. Modele są zdolne do rozpoznawania obiektów, odczytywania dokumentów PDF i optycznego rozpoznawania znaków (OCR). Ponadto modele brzegowe (E2B i E4B) obejmują natywne przetwarzanie formatów wideo i audio, umożliwiając takie funkcje, jak automatyczne rozpoznawanie mowy.

Kolejną potężną funkcją jest natywna obsługa "wywoływania funkcji" Pozwala to sztucznej inteligencji działać jako wirtualny asystent, niezależnie wykonując polecenia oprogramowania lub korzystając z zewnętrznych narzędzi do wykonywania zadań. Wyraźnym przykładem tego trendu jest popularne obecnie w Chinach narzędzie "OpenClaw", które opiera się na tej zasadzie działania agentów AI. Dzięki Gemma 4 wdrażanie takich systemów w całości na własnym urządzeniu staje się znacznie łatwiejsze.

Ramy prawne są również mile widzianą zmianą: modele są udostępniane na licencji Apache 2.0. Oznacza to, że są one nie tylko bezpłatne, ale mogą być również elastycznie integrowane z własnymi projektami i wykorzystywane komercyjnie - znacznie obniżając barierę dla programistów. Wcześniej wszystkie modele Gemma były udostępniane na niestandardowej licencji autorstwa Google.

Wstępne testy praktyczne podkreślają imponujące możliwości lingwistyczne i zwiększoną wydajność tych modeli. Używając LM Studio na Bosgame M5osiągnęliśmy prędkość reakcji nieco ponad 10 tokenów na sekundę (tok/s) z modelem Gemma 4 31B - szybciej niż przeciętny czytelnik jest w stanie przetworzyć informacje. Mniejsze modele są jeszcze bardziej zwinne: warianty E4B i 26B A4B z łatwością przekraczają 40 tokenów na sekundę, a najmniejszy model osiąga 60 tokenów na sekundę. Jednak ci, którzy chcą wykorzystać pełny rozmiar kontekstu największego modelu Gemma 4, mogą uznać, że nawet 128 GB pamięci RAM (jak w Bosgame M5) jest ograniczone; sztuczna inteligencja może żądać ponad 80 GB dla siebie, pozostawiając niewiele pamięci dostępnej dla innych zadań.