🧥 AI 试衣 POC 测试报告

阿里云 OutfitAnyone 系列 vs 火山 Seedream · 2026-05-10
最终结论

basic + refiner 是最优组合

三段流水线(Seedream 模特 → aitryon basic → aitryon-refiner)= 60s 总耗时,logo / 走线像素级保真,比 plus 单步快 3.5×、价格约一半。

📌 一句话背景

当前 Phase 0 用火山 Seedream 文生图做搭配生成,衣服 logo / 印花会被 AI 脑补失真,达不到有赞那种"像素级一致"的效果。本次 POC 验证阿里云三个 VTON 接口(aitryon / aitryon-plus / aitryon-refiner)能否补这个短板。

📷 源图

上衣源图
上衣 product 21666
SIINSIIN T 恤(牛油果绿)
下装源图
下装 product 21657
显瘦黑直筒裤
阿里云模特
阿里云预设模特
720×1280(软调)
Seedream 模特
Seedream 高清模特
2048×2048

🔬 四方案对比(点图放大)

① Seedream 5.0(T2I 单跑)
37s · ~¥0.x · 输出 2048×2048 · 自带商品分镜
⚠️ logo 字母被 AI 脑补失真
Seedream
② aitryon basic(Seedream 模特 + res=-1)
8.4s · ¥0.2 · 输出 2048×2048
✅ 锐利,logo 像素级保留 ⚠️ 脸部偶有伪影
aitryon basic
③ basic + aitryon-refiner ⭐ 推荐
25.3s · ¥0.2 + 精修 · 2048×2048
✅ 接近 plus 质量,速度快 3.5×
basic + refiner
④ aitryon-plus 单步
88.7s · ¥0.5 · 2048×2048
✅ 大片质感最强 ⚠️ 慢 + 贵 2.5×
aitryon-plus

📊 详细对比表

维度 ① Seedream ② basic ③ basic+refiner ④ plus
logo 还原 脑补 像素级 像素级+精修 像素级+大片
面部质感 AI 直接画 略糙 干净 商业级
耗时 37s 8s 25s 89s
每张成本 ¥0.x ¥0.2 ¥0.2+精修 ¥0.5
分辨率 2048 2048 2048 2048
商品分镜

💡 关键洞察

洞察 1:之前以为 VTON 输出锁死 720×1280 是误判。用 res=-1 时,输出分辨率 = 输入 person 图分辨率。Seedream 给 2048×2048 输入,所有 VTON 都输出 2048×2048。
洞察 2:aitryon basic 单跑会有面部 / 手脚伪影,但 aitryon-refiner 是专门为精修 basic 输出而生的后处理模型,+17 秒就能修干净,性价比远超 plus 单步。
洞察 3:Seedream 永远做不到 logo / 走线像素级保真(它是文生图,重新画一张)。VTON 的本质是把原图变形贴到模特身上,像素来自源图本身。这是两条不同的技术路径,不是"哪个更好用"。

🎯 落地方案(按场景分流)

场景 方案 耗时
管家 H5 实时点击生成 Seedream 单跑(已上线) 37s
合集商品后台预生成 三段流水线 ~60s
管家朋友圈高质量素材 三段流水线 ~60s

三段流水线

Step 1: Seedream 5.0
  生干净高清模特(35s, 2048×2048)
  ↓ 上传阿里云 OSS(dashscope 北京可达)
Step 2: aitryon basic
  res=-1, restore_face=true(8s, 2048×2048)
  ↓ coarse_image_url
Step 3: aitryon-refiner
  精修 coarse 输出(17s, 2048×2048)
  ↓ 最终图存自有 OSS

总耗时 ~60s
拿到:logo 像素级保真 + 商业级面部

🏗️ 实现形态

chuanggo-intelligence 加一个新 endpoint,跟现有 /generations 并列:

POST /api/cg/m2m/outfit/v1/generations-hd

入参:和 /generations 完全一样
  topImageUrl, bottomImageUrl, topTitle, bottomTitle

服务端串行三步:
  Seedream → 阿里云 OSS → basic → refiner → 自有 OSS

如果只有挂拍图(非平铺),返回 422
让客户端 fallback 到 /generations

📝 测试过程

v1:基线发现

用阿里云预设模特 + 我们的 SKU 平铺图调 OutfitAnyone。9 秒就出图,但模特图本身是软调电商图(720×1280),导致整体清晰度受限。Seedream 在同源对比下 37s 出图,质感更好但 logo 字母被脑补。

v2:清晰度溯源

测了 resolution=1280,发现救不了。换用 Seedream 生成的 2048 高清模特作为 person input → 整体明显清晰。但当时还以为输出锁死 720×1280。

v3:尝试 plus

aitryon-plus 给我 88.7s 等待,但视觉上"商业拍摄级"质感跃升 — 头发对称、肤质细腻、logo 字母清晰可辨。¥0.5/张。当时以为这就是终点。

v4:refiner 反转

发现阿里云有 aitryon-refiner 专门精修 basic 输出。同源测:basic 8s + refiner 17s = 25s 拿到接近 plus 的画质。3.5× 快、约一半价,且发现用 res=-1 时输出 = 2048×2048(之前的"分辨率上限"是误判)。

📂 关联

CMCM AI · VTON POC · 2026-05-10