三段流水线(Seedream 模特 → aitryon basic → aitryon-refiner)= 60s 总耗时,logo / 走线像素级保真,比 plus 单步快 3.5×、价格约一半。
当前 Phase 0 用火山 Seedream 文生图做搭配生成,衣服 logo / 印花会被 AI 脑补失真,达不到有赞那种"像素级一致"的效果。本次 POC 验证阿里云三个 VTON 接口(aitryon / aitryon-plus / aitryon-refiner)能否补这个短板。
| 维度 | ① Seedream | ② basic | ③ basic+refiner | ④ plus |
|---|---|---|---|---|
| logo 还原 | 脑补 | 像素级 | 像素级+精修 | 像素级+大片 |
| 面部质感 | AI 直接画 | 略糙 | 干净 | 商业级 |
| 耗时 | 37s | 8s | 25s | 89s |
| 每张成本 | ¥0.x | ¥0.2 | ¥0.2+精修 | ¥0.5 |
| 分辨率 | 2048 | 2048 | 2048 | 2048 |
| 商品分镜 | ✅ | ❌ | ❌ | ❌ |
res=-1 时,输出分辨率 = 输入 person 图分辨率。Seedream 给 2048×2048 输入,所有 VTON 都输出 2048×2048。
| 场景 | 方案 | 耗时 |
|---|---|---|
| 管家 H5 实时点击生成 | Seedream 单跑(已上线) | 37s |
| 合集商品后台预生成 | 三段流水线 | ~60s |
| 管家朋友圈高质量素材 | 三段流水线 | ~60s |
Step 1: Seedream 5.0 生干净高清模特(35s, 2048×2048) ↓ 上传阿里云 OSS(dashscope 北京可达) Step 2: aitryon basic res=-1, restore_face=true(8s, 2048×2048) ↓ coarse_image_url Step 3: aitryon-refiner 精修 coarse 输出(17s, 2048×2048) ↓ 最终图存自有 OSS 总耗时 ~60s 拿到:logo 像素级保真 + 商业级面部
chuanggo-intelligence 加一个新 endpoint,跟现有 /generations 并列:
POST /api/cg/m2m/outfit/v1/generations-hd 入参:和 /generations 完全一样 topImageUrl, bottomImageUrl, topTitle, bottomTitle 服务端串行三步: Seedream → 阿里云 OSS → basic → refiner → 自有 OSS 如果只有挂拍图(非平铺),返回 422 让客户端 fallback 到 /generations
用阿里云预设模特 + 我们的 SKU 平铺图调 OutfitAnyone。9 秒就出图,但模特图本身是软调电商图(720×1280),导致整体清晰度受限。Seedream 在同源对比下 37s 出图,质感更好但 logo 字母被脑补。
测了 resolution=1280,发现救不了。换用 Seedream 生成的 2048 高清模特作为 person input → 整体明显清晰。但当时还以为输出锁死 720×1280。
aitryon-plus 给我 88.7s 等待,但视觉上"商业拍摄级"质感跃升 — 头发对称、肤质细腻、logo 字母清晰可辨。¥0.5/张。当时以为这就是终点。
发现阿里云有 aitryon-refiner 专门精修 basic 输出。同源测:basic 8s + refiner 17s = 25s 拿到接近 plus 的画质。3.5× 快、约一半价,且发现用 res=-1 时输出 = 2048×2048(之前的"分辨率上限"是误判)。
guid 85b28205-c065-4a18-a66b-641186e2e7eaguid f82d2e65-bbfe-4f00-b9e9-27e7d806d41cMragdjN4JoONiTxRqVXcvEmBnTIZ46ydXD9LobGMRxdxYbc8Iz0ncd