
Przewodnik: Oto jak generować obrazy na komputerze za darmo
CheckMag
Chcą Państwo generować obrazy na komputerze bez konieczności korzystania z usług w chmurze? Ten przewodnik przeprowadzi Państwa przez konfigurację darmowych narzędzi open-source, zapewniających pełną kreatywną kontrolę bez żadnych subskrypcji.Rohith Bhaskar, ✓ Rohith Bhaskar (tłumaczenie Ninh Duy) Opublikowany 🇺🇸
Narzędzia do generowania obrazów stają się coraz bardziej zdolne do tworzenia najnowocześniejszych fotorealistycznych obrazów. Niestety, większość z nich jest zablokowana online za płatną zaporą, ale co by było, gdybym powiedział Państwu, że istnieje sposób na uruchomienie ich lokalnie z dużo większą elastycznością niż narzędzia online?
Wymagania wstępne
1) Karta graficzna Nvidia z co najmniej 8 GB pamięci VRAM. (Zalecana RTX 3060 lub lepsza )
2) Co najmniej 16 GB pamięci systemowej DDR4. (Im więcej, tym lepiej )
3) Windows 10/11 (wymagany 64-bitowy system operacyjny )
4) Co najmniej 100-150 GB wolnego miejsca na dysku twardym na konfigurację i pobieranie modeli.
5) Połączenie internetowe do wstępnej konfiguracji. (Potrzebne tylko do pobrania i zainstalowania interfejsu użytkownika i modeli obrazów )
Uwaga: procesory graficzne AMD lub Intel nie są oficjalnie obsługiwane przez większość interfejsów użytkownika i wymagają obejścia, aby działać.
Pierwszą rzeczą, którą należy zrobić, jest upewnienie się, że mają Państwo zainstalowane najnowsze sterowniki Nvidia dla swojej karty graficznej. Jeśli nie mają Państwo pewności co do zainstalowanego procesora graficznego Nvidia, proszę kliknąć prawym przyciskiem myszy w dowolnym miejscu na pulpicie i kliknąć "Panel sterowania NVIDIA" w menu kontekstowym.
Proszę teraz odszukać "Informacje o systemie" na samym dole strony, która się otworzy. Po lewej stronie powinna pojawić się nazwa karty graficznej, a w razie potrzeby także dodatkowe informacje.
Proszę otworzyć oficjalne repozytorium sterowników Nvidia tutajproszę wyszukać sterowniki Nvidia Studio i kliknąć Pobierz. Spowoduje to otwarcie strony umożliwiającej pobranie najnowszego sterownika. Teraz warto sprawdzić, czy Państwa produkt Nvidia jest obsługiwany przez sterownik. Można to zrobić klikając na "Obsługiwane produkty" tuż pod przyciskiem pobierania. Proszę zainstalować sterowniki i ponownie uruchomić komputer.
Uwaga: spowoduje to zastąpienie sterowników Game Ready, jeśli zostały one zainstalowane. Jeśli Państwa system jest przeznaczony głównie do gier, mogą Państwo zaobserwować obniżoną wydajność w grach.
Świetnie! Pierwszy krok został zakończony. Teraz możemy przejść do zabawnych rzeczy, takich jak pobieranie frontendów UI. Gorąco polecam pobranie i zainstalowanie Stability Matrix. Jest to kompleksowe narzędzie do konserwacji, które obsługuje wiele frontendów UI i automatycznie je aktualizuje. Tworzy nawet współdzielone foldery dla modeli i wyników, które można przeglądać w jednym miejscu.
Na stronie GitHubproszę przewinąć w dół do sekcji readme i wyszukać swój system operacyjny. Stability Matrix oferuje również pliki do pobrania dla systemów Linux i Mac. Na potrzeby tego przewodnika będziemy używać wersji dla systemu Windows.
Proszę kliknąć na przycisk systemu operacyjnego i powinien pojawić się monit o pobranie pliku .zip ze strony https://github.com/LykosAI/StabilityMatrix/releases/latest/download/StabilityMatrix-win-x64.zip. Należy go umieścić na dysku, na którym ma zostać zainstalowany program Stability Matrix. Proszę upewnić się, że na dysku jest co najmniej 100-150 GB wolnego miejsca. Nie chodzi tylko o instalację Stability Matrix, ale także o pobranie wymaganych modeli, koderów tekstu i innych plików systemowych. Pliki te sumują się dość szybko.
Po pobraniu pliku proszę go rozpakować i uruchomić plik StabilityMatrix.exe znajdujący się w rozpakowanym folderze. Powinien on automatycznie pobrać wszystkie wymagane pliki i skonfigurować interfejs.
Super! Mamy teraz interfejs do pobierania i instalowania wielu interfejsów użytkownika.
Teraz nadszedł czas, aby zdecydować się na front-end, którego chcemy użyć. Interfejs użytkownika to graficzny interfejs użytkownika (GUI), który umożliwia interakcję z modelami obrazów, manipulowanie ustawieniami i, co ważniejsze, generowanie obrazów.
Oto krótka lista opcji oferowanych przez Stability Matrix.
1) Stable Diffusion WebUI Forge
2) Stable Diffusion WebUI Forge - Classic
4) Foooocus
5) Fooocus - mashb1t's 1-Up Edition
7) SwarmUI
8) Cogstudio
10) RuinedFooocus
11) SD.Next
12) SDFX
13) InvokeAI
Osobiście gorąco polecam korzystanie z ComfyUI. Jest to wizualna aplikacja oparta na węzłach, która na początku może wydawać się nieco onieśmielająca, ale zaskakująco łatwo się do niej przyzwyczaić. Proszę pamiętać, że Stability Matrix może zarządzać wieloma frontendami, więc nie trzeba ograniczać się do jednego. Mogą Państwo eksperymentować i znaleźć ten, który najbardziej Państwu odpowiada.
Proszę skorzystać z powyższej listy i przejść do stron GitHub dla każdego pakietu. Proszę poświęcić trochę czasu i dowiedzieć się więcej o każdym pakiecie przed dokonaniem wyboru.
Na potrzeby tego przewodnika przeprowadzę Państwa przez proces pobierania i instalacji ComfyUI, wraz z kilkoma przydatnymi rozszerzeniami, które powinny Państwu dobrze służyć.
Instalacja i konfiguracja ComfyUI
Proszę otworzyć Stability Matrix i kliknąć przycisk "Dodaj pakiet". Teraz proszę znaleźć "ComfyUI" na liście oferowanych pakietów i kliknąć na niego. Na stronie, która się otworzy, proszę upewnić się, że w rozwijanym polu wybrana jest wersja "master". Wersja "master" jest najbardziej stabilnym wydaniem i jest zalecana dla większości użytkowników.
Po kliknięciu przycisku Zainstaluj, Stability Matrix rozpocznie pobieranie pakietu. Proszę poczekać na jego zakończenie. Pobieranie może potrwać kilka minut, więc proszę nie przerywać korzystania z systemu w tym czasie. Jeśli okno pobierania zostanie zamknięte lub przypadkowo naciśnięty zostanie przycisk "Ukryj", proszę użyć przycisku pobierania na dole, aby wyświetlić stan bieżącego pobierania.
Po zainstalowaniu, w zasobniku systemowym powinno pojawić się wyskakujące powiadomienie informujące, że ComfyUI jest gotowe do użycia.
Proszę wrócić do Packages, a na stronie pojawi się kafelek ComfyUI, ale proszę go jeszcze nie uruchamiać. ComfyUI domyślnie uruchamia się w trybie Normal VRAM dla GPU z 12 GB VRAM lub więcej. Jeśli mają Państwo kartę z 8 GB VRAM, to dobry moment, by wymusić uruchomienie Comfy w trybie Low VRAM.
Następnie musimy zainstalować ComfyUI Manager. Jest to kluczowy komponent, który umożliwia instalację i zarządzanie różnymi niestandardowymi węzłami w aplikacji. Proszę kliknąć ikonę Jigsaw po prawej stronie i wpisać "ComfyUI-Manager" w sekcji "Dostępne rozszerzenia". Proszę je wybrać i kliknąć przycisk Zainstaluj na dole. Po zakończeniu instalacji obok rozszerzenia powinien pojawić się komunikat "(zainstalowano)". Teraz wszystko jest gotowe do uruchomienia ComfyUI.
Proszę uruchomić ComfyUI i pozwolić mu przejść przez proces uruchamiania. Po jego zakończeniu aplikacja automatycznie otworzy się w nowej karcie domyślnej przeglądarki. Jeśli tak się nie stanie, proszę wrócić do zakładki Pakiety i kliknąć WebUI na zielonym kafelku ComfyUI.
Gratulacje! Wszystkie wymagania wstępne zostały spełnione. Przejdźmy teraz do konkretów, czyli pobierania i używania modeli graficznych.
Pobieranie i używanie pierwszego modelu obrazu
Zanim zaczniemy pobierać modele obrazów, przejrzyjmy słowniczek terminów, z którymi powinni się Państwo zapoznać.
1) UNET/punkt kontrolny/model dyfuzyjny/dyfuzory - wielki szef. Mózg operacji, proszę myśleć o nim jak o artyście, który maluje używając Państwa słów.
2) Tokenizer - strażnik czasu. Przekształcają Państwa podpowiedzi w tokeny do osadzenia, zanim kodery tekstu przejmą kontrolę. W zależności od modelu, będą Państwo ograniczeni do określonej liczby tokenów (słów), których można użyć.
3) Text Encoders/CLIP - to urządzenia do podnoszenia ciężarów. Konwertują one podpowiedzi tekstowe na wejścia cyfrowe, które UNET może zrozumieć.
4) Samplery - główny dyrygent. Iteracyjnie kieruje procesem generowania obrazu, udoskonalając obraz od szumu do ostatecznego wyniku.
5) VAE - ekipa sprzątająca. Usuwają szumy po etapie generowania i pomagają poprawić jakość obrazu.
Podczas swojej podróży napotkają Państwo więcej terminów, ale są to podstawy, które będą definiować wszystko od tego momentu. Proszę nie przejmować się zbytnio zagłębianiem się w szczegóły na ich temat.
Spowoduje to otwarcie okna zawierającego już skonfigurowane przykładowe przepływy pracy. Proszę kliknąć "Podstawy", a następnie "Generowanie obrazu" Na ekranie natychmiast pojawi się błąd informujący o brakujących modelach. Dzieje się tak, ponieważ nie pobraliśmy jeszcze modelu obrazu. Proszę więc to zrobić. Proszę kliknąć "Pobierz".
Podczas gdy plik będzie się pobierał, zastanówmy się nad niektórymi różnicami między różnymi modelami, które Państwo zobaczą. To, co teraz pobieramy, to podstawowy model Stable Diffusion 1.5 model podstawowy. W kanwie ComfyUI mogli Państwo zauważyć trzy oddzielne połączenia od pierwszego węzła "Load Checkpoint". Po jednym dla MODEL, CLIP i VAE.
Dzieje się tak, ponieważ wszystkie trzy są zawarte w tym podstawowym punkcie kontrolnym i nie trzeba używać oddzielnych CLIP i VAE dla tego konkretnego modelu.
Nowsze modele graficzne, takie jak Flux lub HiDreamwymagają pobrania ich osobno, więc proszę o tym pamiętać. Na szczęście mają one przykładowe szablony, takie jak ten, więc nie trzeba się martwić o konfigurację wszystkiego. Porozmawiamy o tym później. Na razie wygenerujmy nasz pierwszy obraz.
Teraz, jeśli klikną Państwo przycisk Run w prawym dolnym rogu, zauważą Państwo, że ComfyUI nadal wyświetla błąd. To dlatego, że model musi być umieszczony w odpowiednim folderze, aby Comfy mógł go rozpoznać. Proszę teraz przejść do folderu, do którego pobrano model w Eksploratorze plików i skopiować go.
Zauważą Państwo, że nazwa pliku ma rozszerzenie ".SAFETENSORS". Jest to format używany przez plik. Zasadniczo proszę pobierać tylko pliki z rozszerzeniem .safetensors. Proszę nie pobierać tensorów pickle lub .pth. Proszę mi zaufać!
Proszę otworzyć folder, w którym zainstalowano program Stability Matrix i poszukać folderu o nazwie "Models" Proszę kliknąć go dwukrotnie i poszukać podfolderu o nazwie "StableDiffusion", a następnie wkleić do niego plik .safetensors.
Do wykorzystania w przyszłości. Modele zawierające CLIPS i VAE powinny być umieszczone w folderze "StableDiffusion". Modele zawierające tylko UNET (bez CLIP lub VAE) zostaną umieszczone w folderze "DiffusionModels". Kodery tekstu (T5, Llama, CLIP L, CLIP G) należy umieścić w folderze "TextEncoders". Pliki VAE należy umieścić w folderze "VAE".
Jak zapewne Państwo widzą, istnieje o wiele więcej folderów niż tylko te trzy. Moja rada jest taka, aby zorientować się, kiedy do nich dotrzemy. Na razie proszę zająć się naszym obrazem.
Proszę odświeżyć stronę ComfyUI w przeglądarce. Proszę kliknąć okno dialogowe w węźle "Załaduj punkt kontrolny" i wybrać pobrany plik.
Ponieważ jest to szablon, wszystko jest już dla Państwa skonfigurowane. Warto jednak znać podstawowe podstawy dla przyszłych przepływów pracy. Zacznijmy od lewej strony. Omówiliśmy już węzeł Load Checkpoint, a obok niego znajdują się dwa węzły "CLIP Text Encode (Prompt)".
Górny z nich to pozytywne podpowiedzi lub to, co chcą Państwo zobaczyć na obrazie. Poniżej znajduje się wejście dla negatywnych podpowiedzi lub tego, czego nie chcą Państwo widzieć w końcowym wyniku. Generowanie obrazów to równowaga tych dwóch połączonych węzłów. Tworzą Państwo obraz, sprawdzają, co się Państwu w nim nie podoba i wprowadzają to do podpowiedzi negatywnej. Na razie są one już wprowadzone, więc proszę kliknąć "Uruchom"
ComfyUI jest interfejsem wizualnym, co oznacza, że można zobaczyć proces zachodzący węzeł po węźle. Po zakodowaniu tekstu jest on wysyłany do "KSampler", który rozpoczyna iterację obrazu. Przejrzyjmy szybko wszystkie ustawienia w tym węźle.
1) Seed: Proszę traktować to jako adres obrazu. Ten sam pozytywny monit + negatywny monit + te same ustawienia + ten sam seed = ten sam obraz. Przydatne do odtwarzania i iteracji obrazu.
2) Kontrola po wygenerowaniu: Określa, czy seed będzie randomizowany po każdej generacji, czy powinien pozostać stały.
3) Kroki: Liczba kroków, przez które KSampler powinien iterować. Większość modeli posiada zalecane kroki.
4) CFG: Reakcja modelu na Państwa podpowiedzi. Wyższe wartości = ścisłe przestrzeganie podpowiedzi, ale mniej kreatywności. Niższe wartości = bardziej kreatywne wyniki kosztem przestrzegania podpowiedzi.
5) Sampler_name: nazwa aktualnie używanego samplera. Proszę kliknąć na rozwijaną listę, aby uzyskać więcej opcji. Proszę poeksperymentować z różnymi ustawieniami i samplerami, aby uzyskać zróżnicowane wyniki.
6) Scheduler: Proszę myśleć o nim jako o zastępcy dowódcy, który opracowuje strategie zatwierdzane przez dyrygenta. Ponownie, proszę poeksperymentować z różnymi samplerami i harmonogramami, aby znaleźć taki, który będzie dla Państwa odpowiedni.
7) Denoise: Określa ilość szumu dodawanego na początku procesu generowania. Jest on usuwany iteracyjnie przez sampler. Wartość nie może być ustawiona powyżej 1,00, a wartości poniżej tej wartości (0,45 lub 0,65) są używane głównie w przepływach pracy między obrazami, rafinacji lub malowaniu.
Wejście latent_image po lewej stronie węzła KSampler określa rozmiar obrazu. W przepływie pracy jest ono połączone z węzłem "Empty Latent Image" o rozdzielczości 512x512 i rozmiarze partii (liczba obrazów wygenerowanych w jednym przebiegu) równym 1.
Proszę na to spojrzeć! Nasze pierwsze zdjęcie. Jeśli dotarli Państwo tak daleko, gratulacje! Znają Państwo teraz podstawy, które pozwolą Państwu rozpocząć podróż w kierunku generowania obrazów. Im więcej będą Państwo eksperymentować, tym więcej odkryją, a ta królicza nora jest bardzo głęboka. Proszę się więc dobrze bawić.
Przydatne linki
CivitAI: Państwa punkt kompleksowej obsługi do pobierania modeli, LoRA, embeddings i wielu innych. (Uwaga: zawiera treści NSFW. Proszę używać wbudowanych filtrów witryny)
Monzon Media: Fantastyczne źródło samouczków ComfyUI dla początkujących i zaawansowanych.
ComfyUI Wiki: Dla wszystkich Państwa potrzeb związanych z rozwiązywaniem problemów.
Bad ASS ComfyUI Resource List: Linki do wszystkich podstawowych MODELI, CLIPów i VAE w jednym miejscu.
Przepływy pracy Comfy: Dedykowana społeczność do udostępniania i pobierania przepływów pracy.