Prompt Engineering:AIGC 设计师的核心竞争力

上周,我的学员小林发来一张图——用 Midjourney 生成的“赛博朋克城市夜景”,画面灰蒙蒙,建筑歪斜,霓虹灯像没干透的油漆。他抱怨:“明明写了‘cyberpunk city night’,为什么效果这么差?”我问他:“你给 AI 的指令,是‘命令’还是‘对话’?”他愣住了。

这正是很多设计师的困境:手握强大的 AIGC 工具,却因为不懂“沟通”而频频翻车。Prompt Engineering(提示工程)不是玄学,而是一套可复用的技术框架。今天,我们就从两个实操案例入手,拆解如何用提示词让 AI 真正听懂你的设计意图。

一、从“关键词堆砌”到“结构化提示”:一个电商海报的蜕变

案例背景

学员要求生成一张“高端护肤品电商海报”,主推一瓶金色精华液,背景需体现“科技感”和“自然纯净”的结合。初始提示词是:“golden serum bottle, high-end skincare, tech background, natural elements, product photography, white background, 8k”。结果:瓶子像塑料玩具,背景是生硬的科技网格加几片塑料树叶,毫无质感。

错误分析

这类“关键词堆砌”式提示词存在三个致命问题:
1. 缺乏主体优先级:AI 不知道哪个元素是焦点。
2. 风格描述模糊:“high-end”和“8k”无法定义具体美学流派。
3. 光影与材质缺失:没有指定光照方向、表面反射率、景深等物理参数。

解决方案:构建“四层提示结构”

我教小林改用 SPFT 框架(Subject-Purpose-Form-Technique),这是我在 Midjourney v6.1 和 DALL·E 3 中验证过的有效结构。

最终提示词(Midjourney v6.1):

/imagine prompt: 
Subject: One golden serum bottle, frosted glass texture, metallic gold cap, liquid inside with bubbles, placed on a polished obsidian pedestal.
Purpose: High-end skincare product advertisement, minimalist luxury, natural-meets-tech concept.
Form: Cinematic product photography, 85mm macro lens, f/2.8 aperture, shallow depth of field, focus on bottle label.
Technique: Soft studio lighting from top-left, rim light on bottle edge, volumetric fog with subtle green particles (representing natural extracts), color palette: champagne gold, emerald green, charcoal black.
--ar 3:4 --v 6.1 --style raw --stylize 250

效果对比:

  • 瓶子材质:Frosted glass 和 metallic gold 让瓶身有了真实触感。
  • 背景:Volumetric fog + green particles 实现了“科技自然”的融合,而非生硬叠加。
  • 光影:Rim light 勾勒出瓶身轮廓,避免了扁平感。
  • 电商海报生成对比

    关键参数说明

  • `–style raw`:减少 Midjourney 默认的美化滤镜,保留更多摄影真实感。
  • `–stylize 250`:在 0-1000 之间,数值越低越忠于提示词,这里 250 在“忠实”和“创意”之间取得平衡。
  • `–v 6.1`:必须指定版本,v6.1 对材质和光影的理解远优于 v5。
  • 二、控制“角色一致性”:用 Stable Diffusion 生成系列插画

    案例背景

    设计师需要为一款儿童绘本生成 5 张风格统一的插画,主角是一只戴眼镜的蓝色小熊。初始尝试:每张图单独写提示词,结果小熊的毛色、眼镜形状、画风在每张图中都不同。

    工具选择

    这里我们使用 Stable Diffusion WebUI v1.9.4,配合 ControlNet v1.1.450IP-Adapter 插件。相比 Midjourney,SD 在角色一致性控制上更灵活。

    操作步骤

    步骤1:生成角色参考图

    首先用以下提示词生成一张高质量的小熊正面照:

    masterpiece, best quality, 1blue bear character, wearing round glasses, soft fur texture, cute expression, front view, simple background, flat illustration style, vibrant colors, cel shading, --ar 1:1
    

    得到满意的图后,保存为 `blue_bear_ref.png`。

    步骤2:提取角色特征(Embedding 训练)

    1. 在 SD WebUI 中安装 DreamArtistTextual Inversion 插件。
    2. 准备 5-8 张小熊不同角度的图片(正面、侧面、3/4 侧、坐姿、站姿),每张图需手动裁剪至 512×512 像素。
    3. 设置训练参数:
    – 学习率:5e-4
    – 训练步数:1500
    – 保存间隔:500 steps
    4. 训练完成后,得到一个 `.pt` 文件,例如 `blue_bear_v1.pt`。

    注意:如果不想训练,也可以使用 IP-Adapter 的 Face ID 模式,但角色一致性会略低于 Embedding 方法。

    步骤3:用 ControlNet 控制构图

    生成第一张场景图(小熊在森林中):

    Prompt: 1blue_bear_v1, walking in enchanted forest, holding a glowing map, mossy ground, fireflies, magical atmosphere, flat illustration style, vibrant colors, cel shading.
    Negative prompt: ugly, deformed, bad anatomy, extra limbs, blurry, low quality.
    ControlNet 0: Canny (low threshold 100, high threshold 200), input image: blue_bear_ref.png, weight: 0.8
    ControlNet 1: IP-Adapter (style mode: style+composition), input image: blue_bear_ref.png, weight: 0.6
    

    参数解读

  • Canny 边缘检测保留小熊的轮廓,确保眼镜、耳朵等细节位置正确。
  • IP-Adapter 的 style+composition 模式,既保留原图的画风(flat illustration + cel shading),又约束构图(小熊在画面中的位置)。
  • 步骤4:批量生成后续场景

    保持相同的 ControlNet 设置,只需修改场景描述词(如“crossing a rainbow bridge”“meeting a talking rabbit”),即可生成角色一致、场景不同的系列图。

    角色一致性插画生成

    进阶技巧:用 LoRA 微调风格

    如果希望小熊在不同场景中有细微的表情变化(如开心、惊讶),可以训练一个 LoRA 模型(权重 0.6-0.8),与 Embedding 叠加使用。LoRA 的优势在于:训练速度快(仅需 200-500 步),且不会破坏角色基础特征。

    三、Prompt 的“元规则”:设计思维的底层逻辑

    规则1:AI 是“极度字面”的翻译器

    很多人写“a beautiful dress”,AI 会随机选择一种“美”的定义——可能是维多利亚时期的蓬裙,也可能是未来主义的紧身衣。具体化到材质、剪裁、时代、颜色

  • ❌ `a beautiful dress`
  • ✅ `a silk A-line dress, 1950s Dior silhouette, pale lavender, with subtle floral embroidery at the hem`
  • 规则2:用“负面提示词”做减法

    在 Stable Diffusion 中,负面提示词(Negative prompt)是必填项。常用负面词库:

    ugly, deformed, bad anatomy, extra limbs, blurry, low quality, watermark, text, signature, worst quality, jpeg artifacts, monochrome, grainy
    

    在 Midjourney 中,可以用 `–no` 参数:

    /imagine prompt: ... --no text, watermark, blurry, deformed
    

    规则3:版本决定上限

  • Midjourney v6.1:对自然语言理解大幅提升,可以写长句(如“a cat sitting on a windowsill, looking at rain, melancholic mood”),而 v5 更适合短关键词。
  • DALL·E 3:支持更复杂的场景描述,但风格控制弱于 MJ。
  • Stable Diffusion XL 1.0:分辨率直接生成 1024×1024,细节优于 SD 1.5。
  • 规则4:迭代比一次完美更重要

    不要期待一次提示词就出完美结果。标准流程:
    1. 生成 4 张变体(Midjourney 的 –v 或 SD 的 batch size=4)
    2. 选择最接近的一张,用“Vary (Subtle)”或“Vary (Strong)”微调
    3. 用同种子(seed)锁定构图,修改局部描述
    4. 最后用 Photoshop Generative Fill 或 Inpainting 修复瑕疵

    四、总结与进阶建议

    Prompt Engineering 的核心,不是学会“魔法词汇”,而是建立 “设计意图 → 技术参数 → 视觉反馈” 的闭环思维。当你看到一张 AI 生成的图时,不要只评价“好看/不好看”,而要问自己:它为什么不好看?是材质不对?光影单调?还是构图失衡? 然后对应修改提示词中的某个参数。

    学习路径建议

    1. 基础阶段(1-2周):掌握 SPFT 框架,在 Midjourney 中每天生成 20 张图,对比不同 `–stylize` 和 `–v` 的效果。
    2. 进阶阶段(3-4周):学习 Stable Diffusion 的 ControlNet 和 Embedding,用同一主题生成 10 张以上角色一致的系列图。
    3. 高阶阶段(1-2个月):训练自己的 LoRA 模型,结合 ComfyUI 的工作流节点,实现从“文字到视频”(如 AnimateDiff)的完整管线。

    推荐资源

  • 工具:Midjourney v6.1、Stable Diffusion WebUI v1.9.4、ComfyUI
  • 插件:ControlNet v1.1.450、IP-Adapter、DreamArtist
  • 学习社区:Civitai(模型下载)、PromptHero(提示词灵感)
  • 常见问题 FAQ

    Q1:为什么我用相同的提示词,不同时间生成的结果不一样?
    A:AI 模型每次生成都有随机性(除非指定 seed)。Midjourney 中可以用 `–seed 12345` 锁定种子,Stable Diffusion 中在“Seed”栏填入固定数字。注意��即使 seed 相同,不同版本的模型(如 v6.0 vs v6.1)也会产生差异。

    Q2:提示词写得很详细,但 AI 总忽略部分描述,怎么办?
    A:权重分配问题。在 Midjourney 中,用 `::` 分隔不同部分并赋予权重,例如 `golden bottle::2 glass texture::1.5`。在 SD 中,用 `(keyword:1.2)` 或 `(keyword:1.5)` 提高权重。另外,把最重要的元素放在提示词开头。

    Q3:如何避免 AI 生成“六指”等畸形手部?
    A:这是常见问题。Midjourney v6.1 已大幅改善,但仍不完美。可用 `–no deformed hands` 或 `–no extra fingers`。Stable Diffusion 中,推荐使用 Hand Refiner 插件,或后期用 Photoshop 修复。更高阶的方法:训练手部 LoRA。

    Q4:商业项目中,生成图可以直接商用吗?
    A:取决于工具条款。Midjourney 付费用户拥有生成图的商业使用权(但需遵守内容政策)。Stable Diffusion 开源的模型(如 SDXL)可以商用,但基于他人训练的 LoRA 需查看原作者的许可证。强烈建议:对重要商业项目,用生成图作为灵感参考,再人工重绘核心元素。

    Q5:学 Prompt Engineering 需要编程基础吗?
    A:不需要。核心是设计思维和参数理解。但如果你能掌握 Python(用于批量处理、API 调用),以及 ComfyUI 的节点式工作流,可以大幅提升效率。建议先专注视觉输出,再逐步拓展技术边界。

    声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。