建筑师实测GPT-Image-2：哪些场景比香蕉模型强，哪些场景完全打不过？

之前我们和AIRI团队测了两次Nano Banana系列《与AIRI团队实测超80个生图场景，发现香蕉Pro模型算把建筑设计玩明白了》《深度实测Nano Banana 2：一半的钱，做Pro 90%的事，建筑师的八条真实思考》。

这次，GPT-Image-2上线后，我们与AIRI团队第一时间拿它和香蕉系列做了系统对比测试，场景还是建筑设计——效果图、展板、分析图、分镜、风格迁移，一个一个过。

先说结论：GPT-Image-2不是Nano Banana Pro/2的替代品，是一个值得放进工具箱的补充选项。香蕉不稳定时，GPT顶上，简单任务完全够用。

优先用GPT的场景：展板、海报、汇报材料、中文文字标注、创意概念类任务、品牌内容生产。优先用香蕉的场景：鸟瞰图、大场景规划、分镜九宫格、风格迁移、空间一致性要求高的改图。

8条对比思考

01 展板海报类，GPT是目前最强

这是GPT-Image-2最亮眼的场景，没有之一。排版逻辑清晰，板块分区合理，图文关系处理得有设计感——不是那种AI堆砌出来的乱，而是有平面设计师的审美在里面。同样的提示词，香蕉出来的是「能用」，GPT出来的是「好看」。如果你日常需要出展板、汇报材料、公众号配图，GPT值得认真试一试。

案例1：创建一份设计展板，识别此照片中描绘的 8 种主要植物物种，为每个物种提供清晰的标签和描述，包括叶形、颜色、高度及典型生境等相关特征。展板应视觉条理清晰、易于阅读，布局美观，以增强对图像中植物多样性的理解。

初始图片输入

GPT-Image-2 输出

nano pro 输出

案例2：使用上传的深圳香蜜公园卫星图，图中红色半透明覆盖层标注了公园边界范围，将高亮区域改造为一个未来感中式主题乐园，包含过山车、游乐设施及主题建筑元素。生成一张完整详尽的城市设计展板，内容涵盖总平面图、剖面细节、人视效果图（含夜景）、详细种植方案、概念体块研究，以及交通流线、功能分区、公共空间使用等城市规划分析图。所有标注、说明文字及分析图均需中英双语呈现。保留周边城市环境的同时，将公园重新构想为一个充满活力、极具未来感、富有文化底蕴的主题乐园目的地，以专业、可直接用于汇报的格式呈现。

初始图片输入

GPT-Image-2 输出

nano pro 输出

02 中文文字生成，GPT目前最准

这一点对国内建筑师来说直接相关。香蕉模型在图面中文小字上一直有乱码问题，GPT-Image-2在这块有明显进步——标注内容准确，中文字基本没有错误，即便是在复杂展板上密集排布的文字，识别和生成质量也远超香蕉。文字密集型的图面任务，GPT是目前更可靠的选择。

案例3：基于这张室内空间生成空间平面图设计说明，需要分镜示意空间内的细节，体现具体的软装细节和柜体细节。

初始图片输入

GPT-Image-2 输出

nano pro 输出

03 语义理解更强，提示词越复杂越好用

GPT-Image-2对提示词的执行忠实度很高。你写的指令越精准、越复杂，它越能按你的意思走。对于有经验、能写长提示词的建筑师，GPT的上限更高。

案例4：根据这张图片的建筑，生成带室内装修以及透视关系的相应的真实风格剖面图，保持建筑剖面合理性以及原建筑的建筑结构，展示内部的功能空间分区以及交通流线。移除不必要的纹理以及周边环境 , 并生成清晰、视觉上连贯的图表，适用于概念性展示。

初始图片输入

GPT-Image-2 输出

nano pro 输出

评价：香蕉输出清晰，楼层功能标注准确。GPT则在剖面基础上自动添加了小型分析图和功能图标，信息量超出预期——当提示词删掉相关描述后，这些额外内容也随之消失，说明是GPT对提示词的主动理解。GPT的理解拓展能力是优势，但需要注意提示词的精确控制，避免生成过多不需要的内容。

04 复杂建筑空间，香蕉仍是首选

这是GPT最明显的短板。鸟瞰图、大场景空间理解、分镜九宫格——只要任务涉及复杂的建筑空间逻辑，GPT的表现就开始掉链子。复杂空间类任务，目前还是香蕉的主场。

案例5：基于这个建筑，生成一个穿越机第一人视角围绕其进行高速飞行的9宫格分镜，分镜内容：无人机从高空向下穿过云层，云层褪去，俯瞰建筑，，随后极速下落至建筑底部，接着开始 360 度环绕建筑飞行，随后从建筑底部飞入建筑，再从建筑顶部飞出，随后飞向高空；

初始图片输入

GPT-Image-2 输出

nano pro 输出

评价：香蕉的9张输出空间一致性强，镜头推进逻辑合理，基本达到视频素材的可用标准。GPT的9张输出则比例各异，细节崩坏，空间关系混乱，低中高三个质量档位都无法解决这个问题。分镜类任务目前是GPT的明确短板，这个场景不建议使用GPT。

案例6：生成这个建筑的9宫格不同角度分镜，其中需要包含：建筑地面仰视场景、建筑沿街透视、建筑远景整体特写、长焦局部特写、室内大堂场景、阳台场景、室内透过落地玻璃看向城市场景、屋顶花园场景、高空俯瞰场景。

初始图片输入

GPT-Image-2 输出

nano pro 输出

05 色调风格偏大胆，不适合所有项目

GPT生成的图整体偏饱和、偏暗，有一种「用力过猛」的视觉倾向——光影戏剧性强，色彩对比明显。这在创意类、氛围类任务里是优势，但在需要还原原图色调、保持材质真实感的改图任务里会造成困扰。建筑师普遍的反馈是：前期方案推敲时影响不大，但到了需要精确控制色彩的阶段，GPT的这个特点会让人头疼。

案例7：使用图二的渲染风格与光影氛围对图一进行高质量写实渲染。保留图一的所有几何体量与空间布局。迁移图二的色彩、材质、光照、镜头质感与高级城市氛围，生成一张高级、精致、美丽的超清城市设计渲染图。出图结果长宽比以图 1 为准

初始图片输入-图1

初始图片输入-图2

GPT-Image-2 输出

nano pro 输出

06 输出比例不稳定，低质量图偶发

GPT-Image-2有一个特有的质量分档机制——低、中、高三个质量级别，质量越高，图面越干净，AI错误越少。但这个参数目前只能在API端控制，网页端用户拿到的是随机分配的质量档位，有时会出现线条抖动、细节糊掉的低质量版本。另外，输出图片的比例有时会偏离原图尺寸，这是一个已知的不稳定问题。接API后可以指定质量档位，体验会稳定很多。

07 速度快，但价格没有优势

GPT-Image-2的生成速度在目前测试中比香蕉系列更快，这是一个加分项。但价格方面没有惊喜——与Nano Banana Pro基本持平，在高质量、高画幅的设置下单张成本在1-2元人民币。对比Nano Banana 2降价后3毛钱一张的1K图，GPT在成本上没有竞争力。如果你是批量出图的开发者或团队，GPT目前不是性价比优先的选项。

08 香蕉不稳定时，GPT可以救场

这条是最近才有的新发现。香蕉近期出现了一些不稳定现象——同一段提示词，白天能出图，晚上出不来；或者反复抽卡也拿不到满意结果。这种情况下，GPT-Image-2可以作为临时平替顶上，尤其是简单的单图任务和展板类需求。两个工具同时挂在手边，互为备份，是目前最稳的工作流配置。

其他测试案例

案例8：按图片中的文字指令生成相应的作品 , 并消除图中的文字

初始图片输入

GPT-Image-2 输出

nano pro 输出

评价：香蕉精准执行了所有指令，比例关系正确。GPT完成了大部分修改，但出现了一个典型问题：原图中有一个人，GPT没能按正确比例把人物放入空间，要么删除人物，要么比例严重失调。指令多、空间关系复杂的改图任务，香蕉更稳。

案例9：根据这张图片的建筑 , 生成超写实风格的黑底剖面技术分析图竖版展板 , 内容需要包含建筑功能模块分析、结构分析、灯光设计分析、建筑构造层级分析、并且需要将原图作为主图占整体1/4左右。为所有分析图配好标题及文案说明。并配以大号英文字体 TITLE。所有文案使用英文输出。

初始图片输入

GPT-Image-2 输出

nano pro 输出

案例10：生成这个建筑的建造分析，详细展示建筑建造的每一步，从地基、到主要结构、再到构造立面、最后到软装和景观，展示其建筑建造过程。

初始图片输入

GPT-Image-2 输出

nano pro 输出

评价：同一建筑设计为输入，要求生成形体演化分析展板。香蕉输出了5-6个推演步骤，图文关系清晰。GPT则一口气输出了接近20个步骤，从空地、挖地基、施工到竣工，每个细节都有图解，信息量远超预期。GPT的拓展能力在这里既是优势也是风险——正式汇报时需要在提示词里明确限定步骤数量，否则图面会显得过于繁琐。

案例11：为这个logo生成一张符合其气质和风格的官方建筑设计的办公总部。这个Logo的全称是AIRI lab

初始图片输入

GPT-Image-2 输出

GPT-Image-2 输出（为这个办公总部生成一张符合其气质和风格的的官网 UI 设计稿）

GPT-Image-2 输出（生成该总部建筑的游览攻略图片）

评价：这是本次测试中最出乎意料的场景。将AIRI lab的logo作为输入，要求GPT生成品牌建筑总部的概念效果图，以及对应的网页UI设计。GPT不仅准确理解了logo的设计语言，生成了有水景、工业风室内空间的建筑效果图，还输出了一套版式完整、文字清晰的网页设计稿。这类纯创意类任务完全超出了香蕉的能力范围，GPT在这个方向上有独特优势，值得建筑师在品牌内容创作和概念推演中探索。

也放1张AI4ELAB的测试图，更多见下篇文章