Prompt Engineering:AIGC 设计师的核心竞争力

上周,一位在火星人教育学习 AIGC 设计的学员发来消息:“老师,我按照网上的模板写了提示词,为什么生成的图总像‘缝合怪’?光影不对,主体也糊成一团。”他附上了两张图——一张是 Midjourney 生成的“赛博朋克城市”,另一张是 DALL·E 3 生成的“机甲少女”。两张图都犯了典型的“提示词贫血症”:关键词堆砌、缺乏结构、没有细节约束。

这让我想起早期学摄影的学生,买了最好的相机却拍不出好照片——问题不在工具,而在“语言”。对于 AIGC 设计师,Prompt Engineering 就是你的“摄影语言”。它不是玄学,而是一套可复用的工程化方法。今天,我们就用两个实操案例,拆解如何从“提示词搬运工”升级为“提示词架构师”。

一、从“关键词堆砌”到“结构化提示词”:一个修复案例

问题诊断:为什么你的提示词总“跑偏”?

假设你想生成“一位穿着红色连衣裙的东方女性,站在雨夜的霓虹灯下”。常见的错误写法是:

一位东方女性,红色连衣裙,雨夜,霓虹灯,电影感,精致细节,8k,写实

这种写法在 Midjourney V6(版本号 6.1)中会得到什么?大概率是:人物五官模糊、红色连衣裙和背景的霓虹灯“糊”在一起、雨丝像噪点。原因是:AI 不理解“优先级”和“层次”

解决方案:引入“三段式提示词”架构

我将提示词拆解为三个逻辑层,类似编程中的模块化设计:

1. 主体层:明确“谁”在做什么,包含核心属性(性别、年龄、服饰、动作)。
2. 环境层:描述“在哪里”,包含光照、时间、空间关系。
3. 风格层:定义“怎么呈现”,包含渲染风格、镜头语言、技术参数。

实操步骤(以 Midjourney V6.1 为例):

  • 步骤1:在 Discord 的 Midjourney 频道输入 `/imagine`
  • 步骤2:输入结构化提示词:
  • A 28-year-old East Asian woman with shoulder-length black hair, wearing a form-fitting crimson silk dress with subtle floral embroidery, standing under a flickering neon sign in a narrow alley, heavy rain creating puddles on the asphalt, cinematic lighting with blue and pink color contrast, shallow depth of field, rain droplets catching the neon glow, shot with Arri Alexa 65, 35mm lens, f/1.8, ISO 400, --ar 16:9 --v 6.1 --s 250
    
  • 步骤3:观察生成结果。如果主体过于居中,追加 `–chaos 20` 增加随机性;如果皮肤质感过假,调整 `–s`(风格化参数)至 200-300。
  • 关键参数说明

  • `–v 6.1`:强制使用最新版本,修复了旧版的手部畸形问题
  • `–s 250`:风格化程度,数值越高艺术感越强,但会损失写实度
  • `–ar 16:9`:电影宽屏比例,适合叙事性场景
  • `–stylize`:在 V6 中已整合进 `–s`,无需单独设置
  • 效果对比

    结构化提示词生成效果

    左图是关键词堆砌的结果,右图是结构化提示词的结果。注意右图中:雨丝的透明度、霓虹灯在积水中的倒影、连衣裙的丝绸反光——这些细节都来自“环境层”和“风格层”的精准约束。

    二、逆向工程:从参考图反推提示词

    场景:没有灵感时,如何“偷师”AI?

    很多设计师遇到瓶颈时会问:“老师,我看到一张很棒的图,但不知道怎么写提示词。”其实,AI 工具本身就能帮你“逆向工程”。我用 Stable Diffusion WebUI(版本 1.9.3)演示这个过程。

    实操步骤:用 CLIP Interrogator 提取提示词

  • 步骤1:下载一张���喜欢的参考图(确保版权允许),比如一张“蒸汽波风格的海底城市”。
  • 步骤2:打开 Stable Diffusion WebUI,进入 Extensions 选项卡,安装 CLIP Interrogator 插件(版本 2.2.0)。
  • 步骤3:在 img2img 选项卡中,上传参考图,点击 Interrogate CLIP 按钮。
  • 步骤4:系统自动输出一段提示词,例如:
  • a futuristic underwater city with domed buildings, neon coral reefs, jellyfish floating in the water, volumetric fog, teal and magenta color palette, retro-futuristic aesthetic, vaporwave style, 8k, highly detailed, cinematic lighting, octane render
    
  • 步骤5:但这只是“初稿”。你需要人工编辑:
  • – 删除冗余词:“8k”“highly detailed”在 SD 1.5 模型中效果有限,建议替换为 `sharp focus, intricate details`
    – 增加负向提示词:`bad anatomy, blurry, low quality, distorted buildings`
    – 调整采样器:使用 `DPM++ 2M Karras`,步数设为 30

    进阶技巧:用 ControlNet 锁定构图

    如果只是提取提示词,生成的图可能构图不同。此时需要 ControlNet(版本 1.1.441):

  • 步骤1:在 ControlNet 单元中上传同一张参考图
  • 步骤2:预处理器选择 Canny(边缘检测),权重设为 0.8
  • 步骤3:开启 Pixel Perfect 模式,自动匹配分辨率
  • 这样生成的图,构图和原图高度一致,但风格和细节可以通过提示词自由调整。

    逆向工程工作流

    三、提示词工程的“元能力”:参数化思维

    从“写死”到“参数化”

    很多设计师把提示词当成“一次性文案”。真正的进阶,是把它变成 可调节的参数系统。我用一个“产品摄影”场景说明:

    目标:为一家咖啡品牌生成广告图,需要快速迭代不同配色和氛围。

    参数化提示词模板(以 DALL·E 3 为例):

    A [coffee_type] cup on a [material] table, [lighting_style] from the [light_direction], [background_style] with [color_palette], product photography, 85mm lens, f/2.8, macro detail on coffee beans, [mood] atmosphere
    

    可替换参数

  • `coffee_type`: latte / espresso / cold brew
  • `material`: wooden / marble / concrete
  • `lighting_style`: soft diffused / harsh side / rim
  • `light_direction`: left / right / back
  • `background_style`: minimalist / industrial / botanical
  • `color_palette`: warm earth tones / cool blues / monochrome
  • `mood`: cozy / energetic / luxurious
  • 这种写法,让一个提示词变成“设计系统”。你可以在 ChatGPT 中先写一个模板,然后通过变量替换批量生成 10 个版本,再从中筛选最优解。

    为什么 AI 设计师必须学这个?

    火星人教育的学员常问:“Stable Diffusion 和 Midjourney 哪个更好?”我的回答是:工具会迭代,但“参数化思维”是永不过时的元能力。2024 年 6 月,Midjourney 推出 V6.1 后,很多人发现旧版提示词失效了——但懂得“结构化”的人,只需微调 `–s` 和 `–stylize` 就能适应。2025 年 2 月,DALL·E 3 更新了“风格参考”功能,但本质仍是“提示词 + 参考图”的组合——这恰恰是逆向工程的核心。

    总结与进阶建议

    1. 建立自己的提示词库:用 Notion 或飞书文档,按“写实/插画/3D/产品”分类,记录每次迭代的参数和效果。
    2. 学习控制参数:不要只依赖 `–ar` 和 `–s`,深入理解 `–no`(排除元素)、`–iw`(图像权重)、`–weird`(奇异值)等参数的作用边界。
    3. 跨工具迁移能力:在 Midjourney 中学会的“环境层”写法,可以直接用于 Adobe Firefly 的“结构参考”功能;Stable Diffusion 的 ControlNet 思维,能帮助你理解 Runway Gen-3 的“运动笔刷”。
    4. 关注模型更新日志:每次大版本更新,先看官方文档的“Breaking Changes”,比如 Midjourney V6 取消了 `–testp` 参数,新增了 `–personalization`。

    常见问题 FAQ

    Q1:提示词越长越好吗?
    A:不一定。Midjourney V6 对 150-200 个单词的提示词响应最佳,超过 300 个词会导致“注意力稀释”。Stable Diffusion 则建议 75-100 个词,过长时用 `[word:0.8]` 语法控制权重。

    Q2:为什么我用了同样的提示词,每次生成结果不同?
    A:这是“随机种子”的作用。在 Midjourney 中追加 `–seed 12345`(任意数字)可固定种子;Stable Diffusion 在设置中勾选“固定种子”即可。但注意,模型版本更新后,同一种子可能失效。

    Q3:负向提示词(Negative Prompt)到底写什么?
    A:核心是“排除低质量特征”。通用写法:`worst quality, low quality, bad anatomy, blurred, deformed, extra limbs, ugly, watermark, text`。针对具体任务可追加,如人像图加 `asymmetric eyes, bad teeth`。

    Q4:如何让 AI 理解“艺术风格”?
    A:两种方式:1)在提示词中引用艺术家名字(如 `in the style of Moebius`),但注意版权风险;2)使用“风格参考图”,Midjourney 用 `–sref` 参数,Stable Diffusion 用 ControlNet 的“IP-Adapter”模型。

    Q5:提示词工程未来会被 AI 取代吗?
    A:不会。AI 生成提示词的工具(如 ChatGPT 的“提示词优化”功能)只能辅助,无法替代设计师对“视觉逻辑”的理解。就像摄影的“构图”不会因自动模式消失——提示词工程的核心是“设计意图的精准传达”,这是人类独有的竞争力。

    声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。