„Nakarm Bielika”: jak działa karmienie AI i czemu nie chodzi o Twoje dane

W grudniu 2025 roku InPost i Fundacja SpeakLeash uruchomiły ogólnopolską akcję „Nakarm Bielika”, integrując czat polskiego modelu językowego Bielik.ai bezpośrednio z aplikacją InPost Mobile. To jedna z najciekawszych inicjatyw dotyczących rozwoju sztucznej inteligencji w Polsce ostatnich lat, a skala przedsięwzięcia jest bezprecedensowa: InPost komunikuje możliwość dotarcia do ponad 15 milionów użytkowników aplikacji, zapraszając ich do rozmów z modelem i „współudziału w jego rozwoju”. Od początku inicjatywa budzi zarówno zainteresowanie, jak i obawy – zwłaszcza wokół kwestii prywatności, bezpieczeństwa i hasła „trenowania AI przez użytkowników”. Żeby uczciwie ocenić „Nakarm Bielika”, trzeba oddzielić trzy różne porządki, które w debacie publicznej często się mieszają: ♦ język, ♦ trening modelu i ♦ architekturę systemu, w którym ten model działa. Żeby to zrozumieć, trzeba zejść poziom niżej i przyjrzeć się temu, jak takie systemy faktycznie działają.

 

Dlaczego w ogóle potrzebny jest „polski” model językowy?

Duże modele językowe uczą się statystycznych regularności języka na ogromnych zbiorach tekstów. Problem polega na tym, że globalne korpusy danych są silnie zdominowane przez język angielski. Języki takie jak polski są w nich niedoreprezentowane, a jeśli już się pojawiają, to często w formie tekstów formalnych, tłumaczeń lub treści wyrwanych z lokalnego kontekstu. Efekt jest dobrze znany każdemu, kto regularnie używa globalnych LLM-ów po polsku: poprawna gramatyka nie zawsze idzie w parze z naturalnością, a model gubi idiomy, potoczność, kontekst instytucjonalny czy kulturowe niuanse. Bielik.ai powstaje jako odpowiedź na ten problem: jako model rozwijany w Polsce, z myślą o polszczyźnie i jej realnym użyciu. Akcja „Nakarm Bielika” ma dostarczyć właśnie tego, czego brakuje najbardziej: żywego języka w formie pytań, sformułowań, stylów wypowiedzi i intencji komunikacyjnych, które nie dają się łatwo wygenerować sztucznie ani wydobyć z archiwalnych zbiorów tekstu.

Czym tak naprawdę jest karmienie”, a czym czym NIE jest

Jednym z największych nieporozumień wokół akcji jest potoczne utożsamianie „karmienia” Bielika z technicznym trenowaniem modelu. A to nie to samo! Kiedy użytkownik rozmawia z czatem Bielik.ai w aplikacji InPost Mobile (także poprzez stronę www czy dedykowaną aplikację) – w żadnym stopniu nie uruchamia procesu uczenia maszynowego! Model nie zmienia swoich parametrów w czasie rzeczywistym i nie „zapamiętuje” pojedynczych rozmów w sposób bezpośredni. To, co powstaje w trakcie interakcji, to surowy materiał językowy: dane, które potencjalnie mogą zostać wykorzystane w dalszym rozwoju modelu.

Profesjonalny trening AI to proces wieloetapowy: obejmuje selekcję danych, ich czyszczenie, anonimizację, filtrowanie jakościowe oraz kontrolowany fine-tuning przeprowadzany przez zespół dysponujący odpowiednią infrastrukturą obliczeniową i procedurami walidacji. To dzieje się poza aplikacją użytkownika i z opóźnieniem czasowym. „Karmienie” należy więc rozumieć jako dostarczanie paliwa językowego, a nie jako sam akt uczenia. To rozróżnienie jest kluczowe także z punktu widzenia odpowiedzialności: użytkownicy nie „programują” modelu, nie ponoszą odpowiedzialności za jego zachowanie i nie mają wpływu na parametry techniczne. Ten ciężar spoczywa wyłącznie na zespole SpeakLeash.

Czym jest Bielik.ai w sensie technicznym?

Bielik to rodzina otwartych modeli językowych rozwijanych przez Fundację SpeakLeash, z wykorzystaniem infrastruktury obliczeniowej ACK Cyfronet AGH. Projekt posiada zaplecze naukowo-inżynierskie: istnieją publiczne publikacje, benchmarki oraz repozytoria pokazujące, jak uruchamiać Bielika lokalnie, integrować go z aplikacjami czy budować wokół niego własne rozwiązania. Istotne jest to, że Bielik jako model bazowy jest klasycznym LLM-em: generuje odpowiedzi na podstawie swoich parametrów i kontekstu rozmowy. Nie ma „wbudowanego Internetu” ani autonomicznego mechanizmu wyszukiwania. To, co użytkownik widzi jako funkcjonalność produktu, zależy od warstwy aplikacyjnej, w której model został osadzony.

Tymczasem w komunikacji InPostu pojawia się stwierdzenie, że wersja Bielika dostępna w aplikacji InPost Mobile oferuje „bezpośredni dostęp do danych z Internetu” lub „dostęp do danych w czasie rzeczywistym”. To sformułowanie wywołało sporo zamieszania, zwłaszcza że sam Bielik w rozmowach deklaruje, iż nie korzysta z RAG (Retrieval-Augmented Generation). Obie te informacje mogą być jednocześnie prawdziwe: pod warunkiem, że rozróżnimy model od systemu. RAG nie jest cechą „osobowości” LLM-a, lecz architekturą systemu, w którym model pracuje. Model może nie mieć żadnego mechanizmu retrievalu, a jednocześnie aplikacja może dostarczać mu dodatkowy kontekst z zewnętrznych źródeł albo uruchamiać narzędzia wyszukiwania. Z dokumentacji SpeakLeash wynika jasno, że Bielik może być używany w architekturach RAG – istnieją oficjalne notebooki i tutoriale pokazujące takie zastosowania. Oznacza to jednak, że RAG jest warstwą zewnętrzną, budowaną wokół modelu, a nie jego integralną częścią.

Jednocześnie trzeba uczciwie powiedzieć: InPost nie opublikował szczegółowego opisu architektury „dostępu do Internetu” w aplikacji. Nie wiadomo więc publicznie, czy jest to klasyczny RAG na bazie wektorowej, narzędziowe wyszukiwanie, czy inny mechanizm dostarczania kontekstu. Rzetelna konkluzja brzmi: Bielik jako model nie używa RAG, ale aplikacja InPost może wykorzystywać mechanizmy retrievalowe na poziomie systemu – bez publicznego ujawnienia szczegółów technicznych. To rozróżnienie ma ogromne znaczenie dla debaty o prywatności.

Prywatność i dane: czego ta akcja naprawdę potrzebuje

Bez obaw! „Nakarm Bielika” nie jest projektem zbierania danych osobowych. Modelowi nie są potrzebne informacje identyfikujące użytkowników, ich adresy, numery dokumentów czy prywatne historie. Do poprawy jakości językowej potrzebne są struktury zdań, pytania, intencje i styl komunikacji. SpeakLeash publikuje polityki prywatności i deklaruje anonimizację danych wykorzystywanych w projektach badawczych, a InPost akcentuje zgodność z regulacjami i europejskimi standardami ochrony danych. To jednak nie znosi podstawowej zasady higieny cyfrowej: czaty z modelami językowymi – niezależnie od tego, jak są zabezpieczone – nie są miejscem na przekazywanie danych wrażliwych. I nie ma to nic wspólnego z „ukrywanym zagrożeniem”, tylko z prostym faktem, że takie dane nie są do niczego potrzebne w tym projekcie. Narracja „oni chcą Twoich danych” jest w tym przypadku uproszczeniem, które nie oddaje rzeczywistej stawki. Stawką jest język, nie tożsamość użytkownika.

Akcja InPostu… i co dalej?

Zaangażowanie InPostu ma sens przede wszystkim ze względu na skalę i dystrybucję. Firma wnosi kanał dotarcia do milionów użytkowników oraz narrację o suwerenności technologicznej – rozumianej jako zdolność rozwijania kluczowych narzędzi AI lokalnie, w ramach europejskich regulacji i z większą przejrzystością niż w przypadku wielu globalnych platform. „Nakarm Bielika” jest więc jednocześnie projektem technologicznym i społecznym eksperymentem: testem, czy da się rozwijać AI w sposób partycypacyjny, bez udawania, że użytkownicy „magicznie trenują modele”, ale też bez ukrywania procesu za korporacyjną zasłoną.

Jeśli projekt zostanie dobrze poprowadzony – z naciskiem na jakość danych, filtrację szumu i rzetelną ewaluację – może realnie poprawić zdolność Bielika do rozumienia polszczyzny i lokalnych kontekstów. Jeśli nie, pozostanie ciekawym, ale krótkotrwałym eksperymentem. Niezależnie od wyniku jedno już się wydarzyło: „Nakarm Bielika” wprowadził temat polskich modeli językowych do głównego nurtu debaty. Zmusza do rozmowy o tym, czym naprawdę jest trening AI, czym są dane językowe, gdzie przebiega granica prywatności i jak wygląda odpowiedzialny rozwój technologii. A to, w świecie pełnym uproszczeń i straszenia AI, samo w sobie jest wartością!

 

Tekst:   Olga Gromek, Fundacja Edukacyjna Perspektywy