首页
>
攻略
>
20个国内外AI视频生成工具/软件推荐 - 音频、文本、图片一键生成高清视频！（高达25%返利）

Extrabux的商家可能包含广告链接，如果您在点击链接之后并完成购买，我们将获得一定金额的销售佣金。

20个国内外AI视频生成工具/软件推荐 - 音频、文本、图片一键生成高清视频！（高达25%返利）

在数字时代，视频内容已然成为网络传播和社交媒体的核心。然而高质量的视频制作往往需要昂贵的软件和专业的技能，兑普通视频创作者不太友好。幸运的是，随着人工智能技术的飞速发展，AI视频生成工具正变得越来越流行，只需几张图片或一段文字，就能轻松创作出精彩的视频内容。不仅如此，有些AI视频生成工具还能够自动添加字幕、智能调整运镜、控制视频背景等，极大提升了视频制作的便捷性。无论你是内容创作者、营销人员、教育工作者还是普通用户，如今只需几分钟就能创建出过去需要专业团队数天才能完成的视频内容。那么有哪些好用的AI视频工具/软件呢？免费生成AI视频的工具有哪些？今天小编就整理出了20个国内外好用的AI视频生成工具/软件，从免费入门级到专业商用级，总有一款适合你的需求，赶紧来看看吧！

封面图来自于invideo.io，版权属于原作者

一、国外AI视频生成工具/软件推荐

1. Higgsfield

【支持操作系统】网页端

Higgsfield AI 是国外一家专注于生成式视频技术的创新公司，由前 Snap 公司高管 Alex Mashrabov 创立。这家公司致力于通过先进的人工智能技术，简化视频创作过程，使创作者能够轻松制作出具有电影级视觉效果的内容。

与其他主要依赖文本提示生成视频不同，Higgsfield AI 独辟蹊径，采用预设的运镜模板，轻松实现电影级镜头控制。这意味着，只需一张静态图片，便可生成如 360 度环绕、子弹时间等复杂镜头，仿佛拥有一支专业摄影团队。

总之，Higgsfield AI 在专业级的电影运镜方面表现极其出色，远超同类 AI 视频生成模型。目前，Higgsfield 提供超过 70 种预设运镜模板，如 360 度环绕拍摄（360 Orbit）、子弹时间（Bullet Time）、动作奔跑镜头（Action Run）等。

图片来自于higgsfield.ai，版权属于原作者

【价格】$9/月起

【主要功能】

电影级相机控制：Higgsfield AI 提供专业级的相机控制功能，用户可以从单张图片出发，轻松实现复杂的镜头运动，如“子弹时间”、超长距离拉镜头、机器人手臂视角等效果。
深度定制：支持用户对视频内容进行深度定制，包括角色、场景、动作等，生成逼真的视频内容。
多种视频风格：支持多种视频风格，如现实主义、赛博朋克、未来主义、奇幻和科幻等，满足不同创作者的需求。
资源分配：为用户的训练任务分配独占和非独占的计算资源（节点），优化资源利用率。
高效分片支持：支持 ZeRO-3 deepspeed API 和 PyTorch 的完全分片数据并行 API，能高效处理万亿参数模型。

省钱攻略：

喜欢购物或海淘的小伙伴可以注册Extrabux返利网（Extrabux返利网是什么？），通过Extrabux链接到Higgsfield官网下单可获得消费金额高达25%超级现金返利（支持多种提现方式）。新用户注册还有$20的迎新奖励！邀请朋友注册还可额外获得$5的现金奖励。

国内外各大电商都与Extrabux有合作！比如，国内淘宝（最高32-40%返利）、京东（最高18-20%返利），国外walgreens（5-6%返利）；cvs.com（0.5-1%返利）；Walmart （3.5-4%返利），Sam's Club山姆会员商店（最高15%返利），丝芙兰（4-5%返利）等！购买各种生活用品，时尚，美妆，电子产品，安装宽带，手机通讯，各大超市送货、定机票订酒店等吃穿住行，玩乐，生活的方方面面都能用得着！

2. Sora

【支持操作系统】网页端

Sora是由OpenAI开发的先进AI模型，它具备理解和复现现实世界动态的能力。这项技术的目标是在视频生成领域达到前所未有的真实感。Sora可以从基本的文本描述中创建出色的视频场景，并且具备理解现实世界物理规则的能力，从而生产出准确有趣的视频内容。

它能够在几秒钟内生成高品质、长达一分钟的视频，这些视频可以是基于特定主题的指令生成的，如时尚女性在东京霓虹灯闪烁的街道上行走的场景，或者是加利福尼亚州淘金热时期的历史影像。

图片来自于openai.com，版权属于原作者

【价格】Sora 包含在hatGPT计划中：$20/月起。

【主要功能】

文本到视频的转换： 用户只需提供文本描述，Sora就能生成与之匹配的视频内容。这种转换能力极大地降低了视频创作的门槛，使得没有专业视频制作技能的人也能创作出高质量的视频。
理解物理世界： Sora不仅理解文本内容，还理解物理世界的存在方式。这意味着它能够生成符合物理规则的视频，如物体的运动、光影效果等。
多角色与复杂场景： Sora能够生成包含多个角色和复杂场景的视频，这些角色和场景具有特定的运动和情感表达。
视频生成与扩展： Sora采用扩散模型，可以从一个静态噪声视频开始，通过多步去除噪声来逐渐转换视频。它还能一次性生成整个视频或扩展现有视频的长度。
Transformer架构： 类似于GPT模型，Sora使用了Transformer架构，这使得它具有强大的扩展性和处理复杂任务的能力。
重述提示词技术： Sora基于DALL·E和GPT的研究，使用重述提示词技术生成高度描述性的标注，从而更忠实地遵循用户的文本指令。
图像动画化： Sora能够利用现有的静态图像生成视频，对图像内容进行精确动画处理。

3. PixVerse

【支持操作系统】网页端、App（iOS、Android）

PixVerse AI 是一款由爱诗科技（Aisphere）开发的在线AI视频生成工具，它能能将文本、图像和音频等多种模态输入快速转化为高质量的视频内容。该工具具备音效匹配、人声配音、视频风格重绘等创新功能，极大提升了视频创作的效率和可能性。自2024年1月发布以来，PixVerse AI凭借其简单高效的操作和多功能的编辑支持，已成为全球用户量突破4000万的热门视频创作平台。

无论是新手小白还是专业设计师，都能通过PixVerse轻松将创意变为现实。PixVerse提供了多种视频生成方式，包括文字转视频、图片转视频以及角色转视频等，并支持高清输出（最高可达4K分辨率），确保生成的视频画面清晰细腻，且默认生成视频时长为4秒。此外，PixVerse还提供了丰富的自定义选项，如视频风格、时长、画面比例、字幕、滤镜等，用户可以根据自己的需求进行灵活调整。

该工具还提供了丰富的模板和预设选项，帮助用户快速构建视频，节省了大量时间。对于新手和短视频爱好者来说，PixVerse AI的简单操作流程让他们能够轻松上手，快速生成具有吸引力的视频内容。值得一提的是，网站提供了7种语言界面，使其全球用户均可使用。无需科学上网即可访问， QQ邮箱也可以直接注册。目前该工具已升级到V4.5模型，生成质量有提升。生成视频增加匹配动态口型，上传音频驱动，就能让视频中的人物说话。值得一起的是，网站提供包括中文、英文、日文等8种语言服务，非常方便。

图片来自于app.pixverse.ai，版权属于原作者

【价格】基础版免费，最多可创建3个相册用于视频管理，每日提供2次模板免费试用，并且生成的视频可以用于商业用途。需要快速、批量、无限模板试用、高清版视频生成需要购买会员，价格$8/月起。

【主要功能】

文本提示生成视频：用户只需输入创意描述，PixVerse 能将文字转化为动态影像，支持一键生成多段连续视频内容，片段之间保持主体形象、画面风格和场景元素的一致性。
图片转换为动态视频：将用户提供的静态图片转化为连贯、流畅的视频内容，支持图生视频模式，用户可以通过涂抹选区和绘制轨迹来控制主体的运动方式。
视频质量升级：内置 Upscale 功能，将视频提升至 4K 超高清分辨率，让细节更加丰富，画质更加细腻。
灵活的视频生成设置：支持视频风格（现实、卡通、3D 动漫）、视频比例（16:9、9:16、1:1、4:3、3:4）等进行设置，提供定制选项以添加个人艺术风格。
Performance 高表现模式：增强画面主体的运动表现力减少了畸变，提升了视觉效果。
运动笔刷：在图生视频模式下，可以通过涂抹选区和绘制轨迹来控制主体运动，与新模型配合使用效果更佳。
运镜功能：提供了精准的镜头控制，视频创作更加专业和生动。
多种字幕与滤镜功能：PixVerse AI提供了多种字幕生成选项和滤镜效果，以帮助用户提升视频的表现力和视觉吸引力。

4. Runway

【支持操作系统】网页端、App（iOS）

作为最早发布的AI视频生成工具之一，Runway以其强大的功能和高质量的视频效果而著称。该平台成立于2018年，旨在通过先进的深度学习模型，将复杂的A1技术转化为用户友好的工具，简化内容创作流程，提升工作效率。Runway不仅服务于个人创作者，还广泛应用于电影制作、广告营销、教育培训等多个领域。

Runway在生成视频时，支持多种输入方式—文本、图片、文本加图片、甚至是已有的视频片段。这种多样化的输入选择让创作者在设计时具有更大的自由度和灵活性。例如，用户可以直接通过文字描述生成视频，或是将文字和图片结合，通过Runway ML的AI系统创作出内容丰富的视频。对于需要将不同素材整合为一个视频的创作者来说，这种支持多种输入的功能大大减少了内容处理的复杂性，使生成过程更加便捷。Runway凭借其技术实力和持续的更新迭代，在视频生成和编辑功能上拥有独特优势，其最新的Gen-4模型更是进一步提升了视频生成的质量和流畅度。

Runway不仅提供了30多种AI魔法工具，还提供了一个全功能的视频编辑器，如视频风格变换、插帧提升视频流畅度、视频分辨率提升等，让用户可以在浏览器中完成专业水准的视频制作。

图片来自于runwayml.com，版权属于原作者

【价格】免费版就可以体验视频生成，但是需要高级功能比如高分辨率、删除水印、无限视频编辑等就需要订阅会员服务，$15/月起。

【主要功能】

AI视频生成与编辑：Runway能够使用AI技术自动生成视频内容，包括动画、过渡效果和视觉特效，并提供一系列视频编辑工具。
图像生成与处理：用户可以利用Runway的AI算法创建新的图像、修改现有图像或进行风格转换。
3D内容创作：Runway支持3D模型的生成、编辑和渲染，以及实时3D场景的构建和交互。
音频处理：该平台还提供了音频处理工具，如语音合成、音乐生成和音效设计。
Workflow自动化：Runway允许用户创建和定制工作流程，自动化复杂的创意任务和流程。
API与集成：Runway提供了API，使得开发者能够将其AI功能集成到自己的应用程序和服务中。

5. InVideo AI

【支持操作系统】网页端、App（iOS、Android）

如果你是专业人士或者对视频内容要求很高，那么你一定不能错过这款免费的AI视频生成器。InVideo AI是一款人工智能视频创作和剪辑工具，它可以根据用户提供的文本输入自动生成完整的视频内容。用户仅需输入视频主题或脚本，InVideo AI便能利用其AI技术生成包含视频脚本、配音、图片、字幕和背景音乐的完整视频。该工具支持个性化定制，让用户可以编辑和调整生成的视频内容，非常适合内容创作者、营销人员和企业使用，旨在简化视频制作流程并提高效率。

你还可以直接用提示词告诉它怎么编辑视频，或者自己手动修改脚本，加入自己的视频片段和图片。无论您想制作视频广告、宣传片、社交媒体剪辑、推荐视频、说明视频还是其他任何类型的视频，InVideo 都能为您提供解决方案。

InVideo 提供 6000 多个现成模板供用户定制。您还可以访问与 InVideo 编辑器集成的来自 iStock、Shutterstock 和 Storyblocks 的 800 多万种库存媒体资产。

图片来自于invideo.io，版权属于原作者

【价格】Invideo AI提供免费和付费两种计划。如果你刚开始使用，免费计划可以让你体验到平台的基本功能，比如制作一些基础的视频。不过，这个计划会有一些限制（$35/月起），比如视频的长度、清晰度和带有水印。如果你需要制作更专业的视频，比如需要更长时间的视频、更高清的分辨率、自定义品牌标识，或者想要使用更多的媒体资源，那么你可以考虑付费计划。

【主要功能】

文本到视频转换：核心功能之一是将文本内容转换成视频。用户只需输入或上传脚本，AI将根据内容自动选择合适的视觉元素和布局。
AI驱动的配音：工具内置了多种自然发音的AI语音选项，支持不同语言和口音，用户可以根据视频风格和目标观众选择合适的配音。
自动字幕生成：InVideo AI能够自动识别语音并生成相应的字幕文件，这对于提高视频的可访问性和国际化传播至关重要。
庞大的媒体库：提供丰富的视频、图片和音乐素材库，用户可以根据视频主题和风格挑选合适的素材。
实时多人协作：允许多个用户同时在线编辑同一个视频项目，这极大地提升了团队合作的效率。
视频编辑与定制：用户可以对AI生成的视频进行微调，包括剪辑视频片段、更改转场效果、调整动画等。
个性化视频定制：InVideo AI允许用户根据特定受众群体、视觉风格和发布平台定制视频内容。

通过Extrabux链接到InVideo官网下单，届可获得消费金额高达25%超级现金返利！

6. Genmo AI

【支持操作系统】网页端

Genmo AI ‌是一款基于人工智能的多媒体生成平台，主要功能包括文字到视频、图片生成和3D模型生成。它依托先进的人工智能技术和深度学习算法，能够自动生成高质量的多媒体内容。用户只需提供简短的文字描述或上传图片，Genmo AI就能生成栩栩如生的视频、图片和3D模型。您也可以和Genmo进行对话，让它帮助你实现你的创意想法，生成和编辑电影、动画、海报、图标等创意内容。是内容创作者、设计师、艺术家的强大创意助手。

尽管知名度不如Runway，但Genmo以其惊艳的视频生成效果吸引了众多用户。它提供了直观清晰的界面，支持多种视频尺寸和时长设置，简化了视频生成过程。

Genmo AI简洁易用的界面，不需要专业技能就可以使用。实时生成反馈让用户可以快速 iterating 创作。Genmo还拥有活跃的社区，用户可以在这里寻找创意灵感，分享作品至YouTube、Facebook等在线渠道，适用于广告、教学、解说等多种场景。

图片来自于genmo.ai，版权属于原作者

【价格】免费版视频生成会有Genmo水印，想要无水印将视频用做商业用途，需要购买高级会员$10/月起。

【主要功能】

生成和编辑图片：使用Genmo，您可以生成全新的图片，并通过简单的指令进行编辑。您可以对图像的不同区域进行动画效果，甚至可以通过文字对图像进行编辑，而无需具备编辑技巧。
生成和编辑视频：Genmo提供了强大的视频生成和编辑功能。您可以通过输入指令和脚本来创作自己的电影。无论是从零开始制作一部完整的电影，还是编辑现有的视频素材，Genmo都能帮助您轻松实现。
文字生成：Genmo还可以通过文本生成电影预告片。只需撰写剧本并输入相应指令，Genmo就能根据您的需求生成令人惊喜的预告片。
‌3D模型生成‌：用户可以通过简短的文字描述生成3D模型，适用于人物、场景和物体的创建，应用范围广泛‌
设计演示文稿：除了图像和视频生成外，Genmo还可以为您设计应用程序图标。通过Genmo生成的应用程序图标将为您的演示文稿增添创意和吸引力。

7. Stable Video Diffusion

【支持操作系统】网页端

Stable Video Diffusion是Stability AI 于2023 年11 月21 日发布的视频生成式大模型，一种用于高分辨率、先进的文本到视频和图像到视频生成的潜在视频扩散模型。 SVD模型不仅支持文本、图像生成视频，还支持多视角渲染和帧插入提升视频帧率。该工具特别适用于媒体、娱乐、教育和营销等领域，能将文本和图像输入转换成生动的场景，将概念提升为生动的行动、电影创作。

Stable Video Diffusion提供了两种图像到视频的模型形式，支持14或25帧的视频生成，分辨率高达576 x 1024。用户可以根据自己的需求选择适合的帧率，从而决定视频的流畅度。高分辨率保证了视频的清晰度，让细节得以呈现。同时其提供的帧插值技术可以在帧数较少的情况下，使视频看起来更加平滑。Stable Video Diffusion还支持3D场景生成，目前该功能同时容纳了单个图像和轨道视图，允许沿着指定的相机路径创建3D视频。能够生成更具空间感的视频。Stable Video Diffusion提供了更精细的摄像机控制功能。通过LoRA控制摄像机，用户可以精确控制摄像机的位置和角度，从而实现更加精细的视频创作。

图片来自于stability.ai，版权属于原作者

【价格】Stable Video Diffusion API 的价格策略非常灵活，为用户提供了多种选择。新用户在注册时将获得 150 个免费积分，这些积分可以用于生成视频。之后，用户可以根据需求购买额外的积分。

$10购买 500 积分：大约可以生成 50 个视频。
$50购买 3,000 积分：大约可以生成 300 个视频。

使用文本提示生成视频将消耗 11 个积分，而使用图像作为输入则每次生成消耗 10 个积分。

【主要功能】

文本到视频：SVD 可以根据文本描述生成视频，例如，输入“一只猫在草地上奔跑”，模型会生成一段描述该场景的视频。
图像到视频：SVD 还可以根据输入的静态图像生成一段视频，例如，输入一张猫的照片，模型会生成一段猫在不同角度、不同姿态下活动的视频。
多视角合成：SVD 支持从单一视角生成多视角视频，例如，从一张图片生成多个不同角度的同一物体或场景的视频。
帧插入：SVD 可以通过插入额外的帧来提高视频的帧率，从而使视频更加流畅。

8. MagicLight AI

【支持操作系统】网页端

MagicLight AI是一款创新的 AI 文本转视频平台，能够轻松将您的书面内容转化为引人入胜的专业级视频。非常适合市场营销人员、教育工作者和内容创作者。

MagicLight AI实现了智能分镜、自定义角色（实现了角色的一致性）、精细化镜头控制，而且融合了Runway、海螺等模型效果，在生成不满意的视频镜头可以更换模型优化。用户还可以通过对生成的分镜图片进行二次调整提示词，能够实现后期视频生成的优化。非常适合1-30分钟的故事叙述类短片，平台支持生成长达 30 分钟的视频内容，也能满足课程讲解、产品演示等长时长需求。台词/口型/音色的同步设置，字幕字体和背景音乐的选择都十分方便。

图片来自于magiclight.ai，版权属于原作者

【价格】免费

【主要功能】

‌文本转视频‌：MagicLight AI能够将简单的文本提示或完整的故事脚本转化为生动的视频内容，提供引人入胜的叙事体验‌。
‌长视频生成‌：该平台能够轻松创建长达30分钟的视频，充分讲述完整故事，特别适合课程讲解、产品演示等长时长需求‌。
‌角色一致性‌：MagicLight AI能够创建和维持贯穿整个视频的角色一致性，包括个性化角色和动态场景设计，提高观众的沉浸感‌。
‌多语言支持‌：支持10+种语言与30+种情感配音，满足多语言受众需求‌。
‌分镜编辑‌：用户可以对生成的分镜图片进行二次调整，优化视频生成的细节‌。
‌配音与字幕‌：提供台词、口型、音色的同步设置，以及字幕字体和背景音乐的选择，方便用户进行后期调整‌。

9. Pollo AI

【支持操作系统】网页端、App（iOS、Android）

Pollo AI是由新加坡公司 HIX.AI 开发的一款AI视频生成器，它不仅支持文本转视频，还能将图像和视频转化为全新的动态视频。用户可以通过简单的文本提示、静态图像或完整视频剪辑来创造新的AI视频。它集成了多种模板和设计元素，用户只需简单的拖拽操作，就能制作出令人眼前一亮的动画作品。

对于那些没有设计背景的人来说，Pollo AI提供了一系列预设模板，覆盖了从产品介绍到品牌宣传等多种场景。用户可以根据自己的需求选择合适的模板，然后进行个性化编辑，添加文字、图片、音乐等元素，让视频更加生动有趣。简而言之，Pollo AI将创意与技术融合，满足几乎所有视频制作需求，并且提供免费试用。

图片来自于pollo.ai，版权属于原作者

【价格】免费用户可以轻松尝试并制作一些快速剪辑，然而，要享受全部功能，需要订阅付费计划（$15/月起）。

【主要功能】

文本转视频：用户只需输入想要呈现的内容，Pollo AI便可以生成相应的视频，极大地减少了制作时间。
图像转视频：用户可以上传静态图像，由Pollo AI制作成动态视频，为创作增添生机。
视频转视频：用户可以将已有的视频转换为不同风格，极具创意。
特效及特定视频制作：Pollo AI提供了多种模板和特效视频，例如压扁、爆炸与融化视频等，用户只需轻松上传图片，即可看到惊人的AI效果。
视频质量提升：Pollo AI还配备了AI视频增强器，可以有效提升视频质量，同样适用去模糊和面部增强等功能。

10. VEED.IO

【支持操作系统】网页端、App（iOS）

VEED.IO 是一个基于人工智能的在线视频编辑器，它提供了快速、简便的视频制作工具，旨在帮助内容创作者和团队制作出专业质量的视频。该平台拥有多种功能，如文本转视频、虚拟形象、自动字幕、语音翻译等，支持用户在线录制、编辑和分享视频。

VEED.IO 可以轻松生成高质量的视频，用户可以通过自定义文本、字体、颜色、音乐等来创建独特的视频。VEED.IO 还可以轻松地一键转录的视频文件。用户所要做的就是上传视频，点击“自动转录”，然后下载转录视频即可。除了视频编辑功能外，VEED.IO 现在还提供免费的在线视频压缩工具，支持AVI、MP4、MOV和其他视频格式。

其界面设计简洁直观，用户可以快速找到所需的工具和功能，即使是没有视频编辑经验的新手也能在短时间内掌握基本操作‌。

图片来自于veed.io，版权属于原作者

【价格】$12/月起，可免费试用

【主要功能】

视频编辑：用户可以轻松剪辑、修剪、裁切视频，并添加字幕、音乐、滤镜等效果。
自动字幕生成：VEED 可以自动生成字幕，支持多种语言的翻译。
屏幕录制和直播：用户可以录制屏幕内容或进行直播，并将直播内容编辑成短视频。
文本到视频：将文本内容快速转换为视频。
虚拟形象：创建和使用虚拟形象作为视频中的角色。
语音翻译：将视频中的语音内容翻译成不同语言。
音乐和音效库：内置丰富的音乐和音效资源。

通过EXtrabux链接到VEED.IO官网下单，即可获得消费金额高达20%超级现金返利！

11. D-ID

【支持操作系统】网页端、App（iOS、Android）

全球最专业最全面的数字人视频生成AI工具，真人口播，三分钟打造超炫虚拟数字人。D-ID是一个突破性的AI视频生成工具，能够将单张照片转化为逼真的高质量视频，这一技术被广泛应用于娱乐、教育、市场营销和个性化领域。它利用深度学习算法生成生动的面部表情和动作，与音频和上下文完美匹配。D-ID不仅为用户提供了一个简单易用的平台，还通过创意现实工作室（Creative Reality Studio）提供了广泛的自定义选项，包括背景、声音、情绪和视频持续时间的选择。

D-ID的优势在于其创新性和灵活性。用户可以上传任何清晰的正面照片，D-ID的先进技术能够根据提供的音频内容和脚本生成逼真的视频。此外，它还支持多种语言，提供了文本转语音的功能，并允许用户上传自己的声音记录。D-ID的API访问能力意味着开发者和企业可以在自己的应用程序中集成这些高级功能，为客户、员工和社区创造更个性化的连接。

D-ID AI Studio是一个合法的视频创作平台，它遵守所有相关的法律和规定，不会侵犯任何人的版权或肖像权。D-ID AI studio只是提供了一个工具和服务，让用户可以使用人工智能创作视频，但是用户需要对自己的视频负责，并且遵守道德和社会规范。用户不应该使用D-ID AI studio制作或传播任何有害的内容，否则将承担相应的法律责任。

图片来自于d-id.com，版权属于原作者

【价格】$4.7/月起，可免费试用14天

【主要功能】

文本到视频：将文本内容转换成具有逼真数字人物的视频。
图像识别与人脸生成：用户可以通过上传少量图片或视频素材，快速生成逼真的虚拟形象。
语音助手服务：用户可以通过语音与虚拟人进行互动，增强了用户体验的真实感和互动性。
API接入：提供API支持，方便用户将服务集成到现有系统中。
数字人物定制：选择和定制数字人物的样式和特征。
实时面部动画和高级语音合成：支持实时面部动画和高级语音合成，使虚拟人物更加逼真。
生成性AI用于对话人物：利用生成性AI技术创建对话式人物。

12. Pika

【支持操作系统】网页端、App（iOS、Android）

Pika是Pika Labs推出的AI视频生成工具，最新推出的Pika 2.0模型在视频生成领域具有显著的创新。Pika 2.0的核心特性包括改进的文本对齐和动作渲染，将详细提示转化为连贯且富有想象力的视频剪辑变得更加容易。增强了运动渲染，提供自然的动作和可信的奇幻物理效果。Pika 2.0引入了“场景元素”功能，支持用户上传和定制个体元素，如角色、对象和设置，通过高级图像识别技术无缝集成到场景中，给予创作者更细粒度的控制权。

图片来自于pika.art，版权属于原作者

【价格】$8/月起，可免费试用

【主要功能】

文本/图像转视频：输入几行文本或上传图像，AI可创建简短的高质量视频。
视频转视频：将现有视频转换为不同的风格，包括不同的角色和对象，保持视频的结构。
场景元素功能：Pika 2.0引入了场景元素功能，支持用户上传和自定义角色、对象和设置等个体元素，通过先进的图像识别技术无缝集成到场景中，提供更细粒度的控制权。
动作渲染增强：在动作渲染方面进行了增强，提供自然的动作和可信的奇幻物理效果，弥补了传统生成AI工具在这一领域的不足。
视频生成能力：Pika 2.0能根据用户提供的图片和提示生成视频，高级图像识别功能可以直观地感知每张图片的作用，无缝地结合到一个镜头中。
动作理解：Pika 2.0在理解动作方面表现出色，能使真实动作更加逼真，奇幻动作（如人类飞行或外星世界元素）更加可信。

二、国内AI视频生成工具/软件推荐

1. Vidu AI

【支持操作系统】网页端、App（iOS、Android）

Vidu AI 是一款由生数科技与清华大学联合开发的AI 视频生成工具，为用户提供快速、高效且易用的视频创作体验。 Vidu AI采用原创的U-ViT 架构，结合了Diffusion 与Transformer 技术，能够生成4 秒和8 秒、分辨率支持720p 和1080p 的视频内容。

Vidu不仅能够模拟真实物理世界，还拥有丰富的想象力，具备多镜头生成、时空一致性高等特点，这也是自文生视频大模型Sora发布之后全球率先取得重大突破的视频大模型。Vidu能够模拟真实的物理世界，生成细节复杂、并符合真实物理规律的场景，例如逼真的光影效果、细腻的人物表情等。Vidu还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。此外，它能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

图片来自于vidu.com，版权属于原作者

【价格】目前 Vidu AI 有免费和付费套餐，免费套餐包括：每个月免费 80 积分、生成4s视频、生成极速视频、不支持商用，需要更多高级功能的可订阅会员$8/月起。

【主要功能】

视频生成：Vidu可以将文本提示转换为长达8秒的高清视频，支持多种场景和情感表现。
图生视频：用户可以通过上传图片描述自己想象的画面，Vidu AI会自动生成动态视频，使创意得以生动呈现‌。
角色一致性：用户可以通过上传人像图或自定义角色图，并通过简单的文字描述，让该角色在任意场景中做出指定动作。
首尾帧功能：用户只需上传视频的首帧和尾帧，Vidu AI会自动填充中间的过渡帧，生成流畅的视频‌
漫画图片生成动画：将漫画图片转化为流畅自然的动画视频，适用于动漫创作等场景‌：Vidu新增了动漫风格的功能，可以生成具有动画效果的视频片段。
文字与特效画面生成：除了常规的视频生成外，Vidu还可以根据输入的文字生成带有特效的画面。
多镜头生成：Vidu具备丰富的想象力，能够生成多镜头切换的复杂视频内容，模拟真实物理世界中的光影效果和人物表情。

2. 即梦AI

【支持操作系统】网页端、App（iOS、Android）

即梦AI是字节跳动推出的一站式AI创作平台，支持AI视频生成和AI图片生成。用户可通过自然语言或图片输入生成高质量的图像和视频，支持生成3秒、6秒、9秒、12秒视频。生成效果优秀，图生视频还支持首尾帧，能做出很多有意思的视频。还支持对口型，用文本或音频，来驱动图片或视频的嘴型动作，让任何人成为你的演员。AI工具领域热门的功能，它都具备了。但有不是最重要的，最重要的是能用、好用。

该工具提供AI绘画、智能画布、视频生成以及故事创作等多种功能，降低创作门槛，激发用户创意。用户可以用即梦AI的AI视频生成功能，输入简单的文案或图片，快速生成视频片段，且视频动效效果连贯性强、流畅自然。

即梦AI还提供中文创作支持，根据中文提示词进行创作，拥有更好的语义理解能力。除此之外，该工具还设有创意社区，用户可以在这里与其他创作者交流灵感，共同探索创意。

图片来自于jimeng.jianying.com，版权属于原作者

【价格】即梦AI的产品定价策略包括免费版和付费会员制。免费版用户每天可以获得60-100积分，积分可用于生成图片和视频。平台还提供了多种付费订阅选项：

基础会员：价格为79元/月，提供更多的积分以生成更多的图片和视频。
标准会员：价格为239元/月，相较于基础会员，提供更多的积分和其他特权。
高级会员：价格为649元/月，是最全面的订阅选项，提供更多的积分和其他高级功能。

【主要功能】

AI图片创作：即梦AI支持文生图和以图生图两种方式，用户输入关键词或描述，AI能迅速生成相应的图片，支持超现实场景、人物肖像等多样风格。用户上传一张图也能生成具有不同风格的新图片。
AI视频创作：提供从剧本构思到视频成片的一站式服务，用户只需输入故事梗概或关键描述，AI能自动生成连贯、视觉冲击力强的视频内容。
AI图片编辑：用户可以对现有图片进行创意改造，如背景替换、风格转换、人物姿势保持等。
智能画布：集成AI拼图生成能力，支持局部重绘、一键扩图、AI消除去水印和AI抠图等多功能操作。
对口型：即梦AI的“对口型”是视频生成中的二次编辑功能，支持中文、英文配音，主要针对写实/偏真实风格化人物的口型及配音生成，为用户的创作提供更多视听信息传达的能力。
社区互动：用户可以浏览、评论其他用户的作品，参与创意挑战赛，构建开放、多元的创意社区。

3. 白日梦AI

【支持操作系统】网页端、App（iOS、Android）

白日梦AI是光魔科技推出的一款AI视频创作平台，通过自然语言处理技术，支持用户输入文本内容，快速生成视频，最长可生成6分钟的视频。该平台支持文生视频、动态画面、AI角色生成等功能，并能保持人物和场景的一致性。白日梦AI特别适合创作儿童绘本和连环画，提供简单易用的创作工具，让创意快速转化为可视化的视频内容。无论是短小精悍的故事，还是情节丰富的长篇故事，白日梦AI都能轻松应对。

白日梦AI绝对是新手友好型工具，操作界面简单，生成速度超快。用它做一条AI小说推文视频，发到抖音、快手、小红书，挂上小说链接，躺着等分成到账就行！用户可以通过官方网站访问白日梦AI，注册登录账号后，按照平台的创作流程操作，即可生成优质视频。

图片来自于aibrm.com，版权属于原作者

【价格】关于白日梦平台的具体价格信息，目前尚未公开。用户可以在平台上注册、登录后，根据实际需求选择相应的服务。

【主要功能】

文本到视频转换：用户只需输入文字描述，AI就能理解其内容，并自动生成视频。最长可生成6分钟时长的视频，无需用户具备视频制作技能。无论是故事情节、对话还是场景描述，AI都能将其转化为生动的视频画面。
动态画面生成‌：平台支持生成超酷的动态画面，甚至能生成栩栩如生的AI角色‌。
AI角色生成‌：白日梦AI拥有一个庞大的角色库，包含各种年龄、性别、职业、风格的人物形象。用户可以根据视频内容的需要选择合适的角色，也可以自定义创建‌。
多种风格的视频生成：白日梦AI的视频创作平台支持多种视频风格生成，如国风仙侠、AI短剧、萌宠星球、神奇脑洞、同人二创、逸闻趣史、儿童故事等，满足不同场景的需求。
角色一致性保持‌：确保所选角色在视频中的连贯性，无论场景如何变换，角色的外貌和特征都会保持不变，有助于塑造角色的连贯性和辨识度‌。
智能分镜设计‌：AI会智能分析文本，设计出合理的镜头切换和场景过渡，以适应故事的叙事需求‌。
图文模式输出：除了视频模式，白日梦AI还提供图文模式的输出。在图文模式下，用户可以像阅读绘本一样，欣赏故事的文字和配图，很适合儿童绘本创作。

4. 可灵AI

【支持操作系统】网页端、App（iOS、Android）

可灵AI是快手推出的一款强大的AI视频生成器，能够根据用户输入的文本、图像等提示生成高质量的动态视频内容。自2024年6月发布以来，可灵AI已经经历了多次迭代和升级，新版本在图像质量、美学表现、运动合理性以及语义理解方面有显著提升，还引入了“运动笔刷”功能，进一步提升了视频编辑的能力。

作为AI生成内容（AIGC）领域的突破性产品，可灵AI结合了自研的3D时空注意力机制和扩散变压器技术，使得它在模拟复杂动作、生成逼真的场景方面具备独特优势。它最长可以通过不断延长，制作出3分钟的连续视频，不仅降低了视频制作的门槛，还让我们的想象力得以在视频中尽情展现。

图片来自于app.klingai.com，版权属于原作者

【价格】有免费版和高级功能的付费会员版，目前会员共分为黄金、铂金、钻石三个类别，三档会员每月的价格分别为66元、266元和666元，对应分别获得660、3000、8000“灵感值”，可生成约66个、300个或800个标准视频。

【主要功能】

AI视频生成：支持文生视频和图生视频，生成视频质量可达1080P，最长可达3分钟。
AI图片生成：支持文生图和图生图，可以生成多种尺寸和风格的图片，并支持将图片一键生成视频。
创意圈：提供一个供用户交流和分享作品的平台，用户可以浏览他人作品，获取创作灵感。
模拟物理世界特性：基于自研模型架构，能模拟真实世界的物理特性，生成符合物理规律的视频。
强大的概念组合能力：能将用户丰富的想象力转化为具体的画面，创造出现实世界中不会出现的场景。
支持自由的输出视频宽高比：采用可变分辨率训练策略，能输出多种视频宽高比，满足不同场景的需求。
视频编辑功能：包括视频续写、运动笔刷、局部重绘等功能。

5. 智谱清影

【支持操作系统】网页端、App（Android）

智谱清影是智谱AI推出的AI视频生成工具，该工具支持文本生成视频和图像生成视频功能，用户可以通过PC端、手机App及小程序免费不限次使用，30秒内即可生成10秒、4K、60帧视频。支持多种风格和背景音乐，适用于个人创作和专业制作。基于CogVideoX模型，能提升视频的连贯性和逻辑一致性。适合内容创作者、广告营销、教育、影视制作和艺术设计等领域使用。

图片来自于chatglm.cn，版权属于原作者

【价格】智谱清影生成视频目前免费，生成时间大概为30S，如果需要加快视频生成速度，则可以额外进行购买。目前价格为24h加速￥5，1年加速￥199

【主要功能】

文生视频‌：用户输入文字指令可生成6秒视频，可选卡通3D、油画等十余种艺术风格。
‌图生视频‌：上传静态图片生成动态视频，包含“老照片动起来”专项功能。
音乐融合‌：生成视频自带AI匹配背景音乐，增强表现力。
画面调度‌：实现镜头流畅跟随画面主体移动，例如动态追踪多个对象。
老照片动起来：通过“老照片动起来”小程序，让静态的老照片通过AI技术动起来。

6. 海螺AI

【支持操作系统】网页端、App（iOS、Android）

海螺AI是MiniMax公司推出的AI视频生成工具，能根据文本提示或上传的图片快速生成高质量的视频片段。只需提供简单的描述或图片，能创作出具有丰富情感和细腻动作的视频内容。操作简单、支持多种风格和场景生成而受到欢迎，擅长捕捉和表现人物的情感和表情，能生成从快乐到悲伤等复杂情绪的丝滑转换。

生成视频动作效果较好，幅度范围较大，生成人物面部表情细节到位，表情控制可能是全网效果最好的。它不仅是智能助手，更是一款覆盖学习、工作、创意等多场景的生产力工具，致力于通过自然交互降低用户使用门槛，提升效率与体验。

图片来自于hailuoai.com，版权属于原作者

【价格】

免费：每日登录可获得100个贝壳，可生成3个6秒的视频片段。
基础会员套餐：￥105每月，1000个贝壳。
高级会员套餐：￥666每月，无限贝壳，所有生成任务都会通过快速通道处理。

【主要功能】

文本生成视频：海螺AI能将书面提示转化为生动的6秒视频片段，支持多种语言，包括中文和英文。
多样化场景生成：能创建从电影风格到奇幻场景的各种场景。
风格灵活性：根据提示产生真实和动画风格，支持超现实主义、幻想、科幻、动漫和抽象等多种风格的视频生成。
面部表情生成：创建详细的特写镜头，精确捕捉并生成复杂的面部表情和细腻的身体动作。
自定义功能：可以自定义视频中的文本、颜色、配乐等元素，满足个性化需求。
支持多种格式：支持MP4、AVI、MOV等多种视频输出格式，确保视频兼容性。
高清视频输出：支持生成最高1280*720分辨率、25帧每秒的高清视频片段。
图生视频（I2V）：上传一张图片，海螺AI基于图片生成具有高度一致性和连贯性的视频内容。

7. 讯飞绘镜

【支持操作系统】网页端、微信小程序

讯飞绘镜是科大讯飞基于星火大模型开发的AI视频创作平台，支持从文本描述到完整视频的自动化生成。该工具通过多模态技术整合，覆盖剧本生成、分镜设计、视频渲染及智能音画合成全流程，提供7类视频生成模型与12种视觉风格选择，支持短剧、MV、预告片等多种题材，显著降低专业级视频制作门槛。

讯飞绘镜还提供对比预览、镜头编排、对白补充、音乐添加等多种功能，极大地提高了短视频创作的便捷性和质量。

图片来自于typemovie.art，版权属于原作者

【价格】首次注册讯飞绘镜的用户可以免费获赠150点数(可以生成10多条视频)。

【主要功能】

文本到视频的自动生成‌：用户只需输入想法、故事或任何文本描述，讯飞绘镜就能自动将其转换为视频剧本，进而生成相应的视频分镜，最终扩展成完整的短视频‌。
智能视频编辑‌：平台提供多种智能编辑功能，包括通过文本直接调整视频内容、自动合成背景音乐、快速生成旁白和对话等，极大地简化了视频制作过程‌。
一站式视频分发‌：支持一键分发功能，用户能够轻松地将制作完成的视频推广到各种社交和视频平台，同时提供粉丝互动和数据汇总管理功能‌。
多场景支持‌：适用于短剧、预告片、音乐视频等多种视频类型‌。‌
丰富的视觉风格‌：提供多种艺术风格选择，如国风、赛博朋克等，满足不同创作需求‌。
粉丝互动与数据管理：讯飞绘镜还提供粉丝互动功能和数据管理工具，帮助用户有效管理与粉丝的互动，同时对视频内容的表现进行数据分析，以便更好地优化内容策略

8. 腾讯混元AI视频

【支持操作系统】网页端

腾讯混元AI视频是腾讯推出的AI视频生成工具，基于拥有130亿参数量，目前最大的视频开源模型。用户只需输入一句话，能自动转化为视频内容，支持中英文双语输入，提供多种视频尺寸和清晰度选项。在视觉效果上呈现出高真实感，在光影、色彩和细节处理上表现出色。能精准理解复杂的语义指令，处理具体场景和细节，运动画面流畅，支持镜头切换功能，增强画面的张力和视觉效果。

据介绍，基于图生视频的能力，用户只需上传一张图片，并简短描述希望画面如何运动、镜头如何调度等，混元即可按要求让图片动起来，变成 5 秒的短视频，还能自动配上背景音效。