🧥 AI 试衣 POC 测试报告

阿里云 OutfitAnyone 系列 vs 火山 Seedream · 2026-05-10

最终结论

basic + refiner 是最优组合

三段流水线（Seedream 模特 → aitryon basic → aitryon-refiner）= 60s 总耗时，logo / 走线像素级保真，比 plus 单步快 3.5×、价格约一半。

📌 一句话背景

当前 Phase 0 用火山 Seedream 文生图做搭配生成，衣服 logo / 印花会被 AI 脑补失真，达不到有赞那种"像素级一致"的效果。本次 POC 验证阿里云三个 VTON 接口（aitryon / aitryon-plus / aitryon-refiner）能否补这个短板。

📷 源图

上衣 product 21666
SIINSIIN T 恤（牛油果绿）

下装 product 21657
显瘦黑直筒裤

阿里云预设模特
720×1280（软调）

Seedream 高清模特
2048×2048

🔬 四方案对比（点图放大）

① Seedream 5.0（T2I 单跑）

37s · ~¥0.x · 输出 2048×2048 · 自带商品分镜

⚠️ logo 字母被 AI 脑补失真

② aitryon basic（Seedream 模特 + res=-1）

8.4s · ¥0.2 · 输出 2048×2048

✅ 锐利，logo 像素级保留 ⚠️ 脸部偶有伪影

③ basic + aitryon-refiner ⭐ 推荐

25.3s · ¥0.2 + 精修 · 2048×2048

✅ 接近 plus 质量，速度快 3.5×

④ aitryon-plus 单步

88.7s · ¥0.5 · 2048×2048

✅ 大片质感最强 ⚠️ 慢 + 贵 2.5×

📊 详细对比表

维度	① Seedream	② basic	③ basic+refiner	④ plus
logo 还原	脑补	像素级	像素级+精修	像素级+大片
面部质感	AI 直接画	略糙	干净	商业级
耗时	37s	8s	25s	89s
每张成本	¥0.x	¥0.2	¥0.2+精修	¥0.5
分辨率	2048	2048	2048	2048
商品分镜	✅	❌	❌	❌

💡 关键洞察

洞察 1：之前以为 VTON 输出锁死 720×1280 是误判。用 res=-1 时，输出分辨率 = 输入 person 图分辨率。Seedream 给 2048×2048 输入，所有 VTON 都输出 2048×2048。

洞察 2：aitryon basic 单跑会有面部 / 手脚伪影，但 aitryon-refiner 是专门为精修 basic 输出而生的后处理模型，+17 秒就能修干净，性价比远超 plus 单步。

洞察 3：Seedream 永远做不到 logo / 走线像素级保真（它是文生图，重新画一张）。VTON 的本质是把原图变形贴到模特身上，像素来自源图本身。这是两条不同的技术路径，不是"哪个更好用"。

🎯 落地方案（按场景分流）

场景	方案	耗时
管家 H5 实时点击生成	Seedream 单跑（已上线）	37s
合集商品后台预生成	三段流水线	~60s
管家朋友圈高质量素材	三段流水线	~60s

三段流水线

Step 1: Seedream 5.0
  生干净高清模特（35s, 2048×2048）
  ↓ 上传阿里云 OSS（dashscope 北京可达）
Step 2: aitryon basic
  res=-1, restore_face=true（8s, 2048×2048）
  ↓ coarse_image_url
Step 3: aitryon-refiner
  精修 coarse 输出（17s, 2048×2048）
  ↓ 最终图存自有 OSS

总耗时 ~60s
拿到：logo 像素级保真 + 商业级面部

🏗️ 实现形态

chuanggo-intelligence 加一个新 endpoint，跟现有 /generations 并列：

POST /api/cg/m2m/outfit/v1/generations-hd

入参：和 /generations 完全一样
  topImageUrl, bottomImageUrl, topTitle, bottomTitle

服务端串行三步：
  Seedream → 阿里云 OSS → basic → refiner → 自有 OSS

如果只有挂拍图（非平铺），返回 422
让客户端 fallback 到 /generations

📝 测试过程

v1：基线发现

用阿里云预设模特 + 我们的 SKU 平铺图调 OutfitAnyone。9 秒就出图，但模特图本身是软调电商图（720×1280），导致整体清晰度受限。Seedream 在同源对比下 37s 出图，质感更好但 logo 字母被脑补。

v2：清晰度溯源

测了 resolution=1280，发现救不了。换用 Seedream 生成的 2048 高清模特作为 person input → 整体明显清晰。但当时还以为输出锁死 720×1280。

v3：尝试 plus

aitryon-plus 给我 88.7s 等待，但视觉上"商业拍摄级"质感跃升 — 头发对称、肤质细腻、logo 字母清晰可辨。¥0.5/张。当时以为这就是终点。

v4：refiner 反转

发现阿里云有 aitryon-refiner 专门精修 basic 输出。同源测：basic 8s + refiner 17s = 25s 拿到接近 plus 的画质。3.5× 快、约一半价，且发现用 res=-1 时输出 = 2048×2048（之前的"分辨率上限"是误判）。

📂 关联

父任务（合集商品 Phase 1）：guid 85b28205-c065-4a18-a66b-641186e2e7ea
POC 子任务：guid f82d2e65-bbfe-4f00-b9e9-27e7d806d41c
技术方案：飞书文档 MragdjN4JoONiTxRqVXcvEmBnTI
合集方案：飞书文档 Z46ydXD9LobGMRxdxYbc8Iz0ncd

CMCM AI · VTON POC · 2026-05-10