Обучение · Генерация изображений
Text-to-Image
Введение
Генерация изображений из текста (text-to-image) превращает текстовые описания в визуальный контент, позволяя создавать изображения буквально из слов. Хотя концепция проста, понимание различных параметров и их взаимодействия даёт вам точный контроль над результатом.
На этой странице описан основной пайплайн: как текст становится изображением, как структурировать запросы и как выбрать подходящую модель. Для углублённого изучения отдельных параметров перейдите на соответствующие страницы документации.
Базовый пример запроса
Простой запрос text-to-image для начала работы:
Запрос:
[
{
"taskType": "imageInference",
"taskUUID": "a770f077-f413-47de-9dac-be0b26a35da6",
"model": "bfl:5@1",
"positivePrompt": "Астронавт, парящий внутри гигантских песочных часов в космосе, окружённый звёздами и светящейся пылью, с галактиками над головой и золотым песком внизу. Мечтательно, сюрреалистично, кинематографично",
"width": 1024,
"height": 1024,
"steps": 30
}
]Ответ:
{
"data": [
{
"taskType": "imageInference",
"imageUUID": "ca6b2d39-5f83-47b9-b22b-71f9afc935e8",
"taskUUID": "a770f077-f413-47de-9dac-be0b26a35da6",
"seed": 9202427981074766178,
"imageURL": "https://api.runfuture.ru/v1/images/ca6b2d39-5f83-47b9-b22b-71f9afc935e8.jpg"
}
]
}Как работает text-to-image
Генерация изображений из текста преобразует текстовые описания в визуальный контент через многоэтапный процесс, в котором модель постепенно конструирует изображение на основе вашего промпта. В основе лежат три ключевых фазы:
- Понимание текста: входной промпт обрабатывается текстовым энкодером, который преобразует естественный язык в числовое представление — эмбеддинги. Они захватывают семантическое значение, концептуальные связи и стилистические подсказки из вашего текста.
- Генерация в латентном пространстве: вместо работы с сырыми пикселями современные системы оперируют в латентном пространстве — абстрактном сжатом представлении изображений. Большинство продвинутых моделей используют диффузионный процесс: начинается со случайного шума, который постепенно уточняется в осмысленное изображение. Денойзинг направляется текстовыми эмбеддингами и выполняется нейросетью — обычно U-Net или Transformer-архитектурой вроде DiT. Некоторые модели следуют авторегрессионному подходу, генерируя изображение токен за токеном.
- Декодирование изображения: финальное латентное представление конвертируется в пиксельное изображение через декодер, часто являющийся частью Variational Autoencoder (VAE). Этот этап отвечает за текстуру, цвет и мелкие детали, формируя полноразмерное изображение.
Вместе эти фазы позволяют AI генерировать изображения, точно соответствующие смыслу и стилю вашего промпта.
Выбор модели
Параметр model определяет, какая AI-модель будет использована для генерации. Модели организованы по архитектурным семействам с разными возможностями:
- SD 1.5: модели вроде
civitai:4384@128713(Dreamshaper v1) или специализированные варианты для конкретных стилей. Отлично подходят для художественных и креативных изображений. - SDXL: модели вроде
civitai:133005@782002(Juggernaut XL XI) с более высоким разрешением и лучшим фотореализмом по сравнению с SD 1.5. - FLUX: модели вроде
bfl:5@1(FLUX.1 Dev) — быстрая генерация, лучшее понимание композиции, обработка сложных сцен и стабильное качество. Отличная детализация лиц и сложных структур. - HiDream: модели вроде HiDream-I1 Full на Transformer-диффузионной архитектуре с Mixture-of-Experts (MoE). Сочетают качественное понимание текста с точным визуальным контролем, state-of-the-art результаты в креативных и фотореалистичных стилях.
Внутри каждой архитектуры отдельные модели могут быть дообучены для конкретных стилей, субъектов или задач. Выбор модели существенно влияет не только на эстетику, но и на интерпретацию промпта и эффективность параметров.
Промпт: Яростная женщина-воительница в замысловатых серебряных доспехах, отражающих тёплый закатный свет, с светящимся мечом с рунами на клинке, стоящая на скалистом утёсе с видом на фэнтезийную долину, ветер развевает тёмные волосы, кинематографичная атмосфера
Просмотрите доступные модели в каталоге моделей или через Model Search API.
Параметры генерации
Каждый параметр запроса управляет отдельным аспектом процесса генерации:
| Параметр | Что контролирует |
|---|---|
positivePrompt / negativePrompt | Что генерировать и чего избегать |
width / height | Размер холста и соотношение сторон |
steps | Количество итераций уточнения |
CFGScale | Насколько строго модель следует промпту |
scheduler | Алгоритм денойзинга (скорость vs качество) |
seed | Детерминированная точка старта для воспроизводимости |
vae | Визуальный декодер для финального изображения |
clipSkip | Выбор слоя текстового энкодера |
Продвинутые функции
Эти функции расширяют text-to-image дополнительным контролем:
| Функция | Назначение |
|---|---|
| LoRAs | Лёгкие адаптеры стиля/субъекта, модифицирующие базовую модель |
| ControlNet | Структурное управление через карты границ, глубины и поз |
| IP Adapters | Условие по референс-изображению для переноса стиля |
| Embeddings | Кастомные текстовые токены для специализированных концептов (SD 1.5/SDXL) |
| Refiner | Двухэтапная генерация для улучшения деталей (только SDXL) |
Подробнее о написании промптов читайте в разделе Промпты.