Skip to content

图片与视频生成

Popipo 集成了多款主流图片和视频生成模型,支持文生图、图片编辑、去水印、图生视频、口型同步等多种能力。

直接在对话中告诉 Agent 你想要什么,它会自动选择模型和参数并完成生成。

模型选择

点击输入栏的参数区域,在弹出的设置面板中切换到 「模型选择」 标签页,可以设置:

设置项说明
语言模型Agent 使用的对话模型
图片生成模型默认的图片生成模型
视频生成模型默认的视频生成模型

这些是 Agent 在你没有明确指定模型时使用的默认值。如果你的请求所需的能力超出了当前选择的图片/视频生成模型,Agent 会自动切换到合适的模型。

模型选择设置面板

断点确认

在设置面板的 「断点确认」 标签页中,你可以开启:

选项说明
生图前确认调用图片生成能力前暂停,等待你确认
生视频前确认调用视频生成能力前暂停,等待你确认

开启后,Agent 在调用对应能力前会先展示生成方案,经你确认后才会执行,避免意外消耗积分。

断点确认设置

手动生成模式

点击左下角的 「对话创作模式」,切换到 图片生成模式视频生成模式,可以跳过 Agent 对话,直接手动选择模型、设置参数后生成。

图片创作方式

操作说明示例
文生图从文字描述生成图片「一只在草地上奔跑的金毛犬」
图片编辑基于已有图片进行修改「把背景换成星空」
去水印移除图片上的水印「帮我去掉这张图的水印」

可选模型

模型特点适合场景
Seedream细节丰富,风格多样通用场景、商业素材
Banana Pro速度快,效果稳定快速出图、批量生成
Banana 2Banana 系列新一代通用创作
Midjourney画面精致,艺术感强概念设计、插画、艺术创作
GPT Image 2OpenAI 出品,理解力强复杂指令、精确构图

视频创作方式

操作说明输入
文生视频从文字描述直接生成视频纯文本
图生视频从一张静态图生成动态视频图片 + 文本
视频转视频基于参考视频重新生成视频 + 文本
音频驱动视频根据音频内容生成匹配的视频音频 + 文本
参考图生成视频参考图片的风格/角色生成视频(不作为首帧)图片 + 文本
多镜头叙事按分镜脚本生成多段连续镜头分镜数组
动作迁移将参考视频的动作迁移到角色图片上角色图 + 动作视频

可选模型

模型支持的操作特点
Sora 2文生视频、图生视频OpenAI 出品,画面质量高
Seedance 1.5文生视频、图生视频速度快,性价比高
Seedance 2.0文生视频、视频转视频、音频驱动、参考图生成能力最全面,支持多达 9 张参考图作为素材库,可选 fast/std 两种速度,生成时间较长
Veo 3图生视频、参考图生成Google 出品,运动自然
可灵 2.6文生视频、图生视频、动作迁移功能丰富,支持动作迁移
可灵 3.0文生视频、图生视频、多镜头叙事可灵最新版,支持多镜头连续叙事
海螺文生视频、图生视频细节表现好
Vidu Q2参考图生成支持最多 7 张参考图作为角色素材

时长与分辨率

  • 时长:4 ~ 15 秒不等,具体取决于模型(Seedance 2.0 支持 4–15 秒任意整数,可灵 3.0 支持 3–15 秒)
  • 分辨率:支持横版(16:9)、竖版(9:16)、方形(1:1)等多种比例,部分模型还支持 4:3、3:4
  • 帧率:大多数模型输出 24fps 或 30fps

说明

可用模型可能随平台更新而变化。在对应生成模式中可查看当前全部可用模型及参数范围。

提示词技巧

  • 具体描述 — 「赛博朋克风格的猫」比「一只猫」效果好得多
  • 指定风格 — 加上「水彩风」「像素风」「写实风」等风格关键词
  • 描述细节 — 光线、构图、色调等细节能显著提升质量
  • 参考对比 — 使用 @ 引用已有图片作为风格参考

下一步