图片与视频生成

Popipo 集成了多款主流图片和视频生成模型，支持文生图、图片编辑、去水印、图生视频、口型同步等多种能力。

直接在对话中告诉 Agent 你想要什么，它会自动选择模型和参数并完成生成。

模型选择

点击输入栏的参数区域，在弹出的设置面板中切换到 「模型选择」 标签页，可以设置：

设置项	说明
语言模型	Agent 使用的对话模型
图片生成模型	默认的图片生成模型
视频生成模型	默认的视频生成模型

这些是 Agent 在你没有明确指定模型时使用的默认值。如果你的请求所需的能力超出了当前选择的图片/视频生成模型，Agent 会自动切换到合适的模型。

模型选择设置面板

断点确认

在设置面板的 「断点确认」 标签页中，你可以开启：

选项	说明
生图前确认	调用图片生成能力前暂停，等待你确认
生视频前确认	调用视频生成能力前暂停，等待你确认

开启后，Agent 在调用对应能力前会先展示生成方案，经你确认后才会执行，避免意外消耗积分。

断点确认设置

手动生成模式

点击左下角的 「对话创作模式」，切换到 图片生成模式 或 视频生成模式，可以跳过 Agent 对话，直接手动选择模型、设置参数后生成。

图片创作方式

操作	说明	示例
文生图	从文字描述生成图片	「一只在草地上奔跑的金毛犬」
图片编辑	基于已有图片进行修改	「把背景换成星空」
去水印	移除图片上的水印	「帮我去掉这张图的水印」

可选模型

模型	特点	适合场景
Seedream	细节丰富，风格多样	通用场景、商业素材
Banana Pro	速度快，效果稳定	快速出图、批量生成
Banana 2	Banana 系列新一代	通用创作
Midjourney	画面精致，艺术感强	概念设计、插画、艺术创作
GPT Image 2	OpenAI 出品，理解力强	复杂指令、精确构图

视频创作方式

操作	说明	输入
文生视频	从文字描述直接生成视频	纯文本
图生视频	从一张静态图生成动态视频	图片 + 文本
视频转视频	基于参考视频重新生成	视频 + 文本
音频驱动视频	根据音频内容生成匹配的视频	音频 + 文本
参考图生成视频	参考图片的风格/角色生成视频（不作为首帧）	图片 + 文本
多镜头叙事	按分镜脚本生成多段连续镜头	分镜数组
动作迁移	将参考视频的动作迁移到角色图片上	角色图 + 动作视频

可选模型

模型	支持的操作	特点
Sora 2	文生视频、图生视频	OpenAI 出品，画面质量高
Seedance 1.5	文生视频、图生视频	速度快，性价比高
Seedance 2.0	文生视频、视频转视频、音频驱动、参考图生成	能力最全面，支持多达 9 张参考图作为素材库，可选 fast/std 两种速度，生成时间较长
Veo 3	图生视频、参考图生成	Google 出品，运动自然
可灵 2.6	文生视频、图生视频、动作迁移	功能丰富，支持动作迁移
可灵 3.0	文生视频、图生视频、多镜头叙事	可灵最新版，支持多镜头连续叙事
海螺	文生视频、图生视频	细节表现好
Vidu Q2	参考图生成	支持最多 7 张参考图作为角色素材

时长与分辨率

时长：4 ~ 15 秒不等，具体取决于模型（Seedance 2.0 支持 4–15 秒任意整数，可灵 3.0 支持 3–15 秒）
分辨率：支持横版（16:9）、竖版（9:16）、方形（1:1）等多种比例，部分模型还支持 4:3、3:4
帧率：大多数模型输出 24fps 或 30fps

说明

可用模型可能随平台更新而变化。在对应生成模式中可查看当前全部可用模型及参数范围。

提示词技巧

具体描述 — 「赛博朋克风格的猫」比「一只猫」效果好得多
指定风格 — 加上「水彩风」「像素风」「写实风」等风格关键词
描述细节 — 光线、构图、色调等细节能显著提升质量
参考对比 — 使用 @ 引用已有图片作为风格参考

下一步

无限画布 — 在画布上管理你的图片和视频素材
Agent 协作案例 — 更多 Agent 对话技巧
美术设定表 — 用设定表统一项目视觉风格

图片与视频生成 ​

模型选择 ​

断点确认 ​

手动生成模式 ​

图片创作方式 ​

可选模型 ​

视频创作方式 ​

可选模型 ​

时长与分辨率 ​

提示词技巧 ​

下一步 ​

图片与视频生成

模型选择

断点确认

手动生成模式

图片创作方式

可选模型

视频创作方式

可选模型

时长与分辨率

提示词技巧

下一步