家电网-HEA.CN报道:AI生成失败时不会觉得不好意思。 不好意思的只有用户。 因为钱已经花了,Token已经烧了,小猫也已经长出手了。
AI帮我省了时间,也帮我烧光了Token
AI视频最神奇的地方,在于它总能用最认真的方式,把事情做得非常离谱。
比如输入一句朴素的指令:
“生成一个小猫做饭的视频。”
在人类世界里,这句话没有理解难度。小猫站在温暖的厨房里,用猫爪扒拉两下锅里的煎蛋,画面可爱、童话,动作笨拙但合理。

AI却会告诉你,事情没这么简单。
它生成了小猫、厨房和锅铲,也让小猫开始做饭。唯一的问题是,这只猫长出了一双人类的手。
你甚至很难说AI完全错了。你要小猫,它给了小猫;你要做饭,它也安排了做饭。它只是顺手解决了一个更底层的问题:小猫怎么拿锅铲?
答案是,给它安一双手。

AI生成视频让人崩溃的地方就在这里。它不是完全听不懂,而是听懂了一半。小猫负责可爱,做饭负责动作。至于人手能不能长在猫身上,用户如果没写,它就可能自己补。
AI的补全能力有时像一个过度热心的实习生。它不会停下来问:“这只猫要用猫爪,还是需要五根手指?”它只会默默生成,然后把一只长着人手的小猫端到你面前。
用户只能深呼吸,开始补提示词:
不要人手。
不要人类手指。
保持猫爪。
不要半人半猫。
不要多余肢体。
不要把锅铲插进猫爪。

到这里,一个六个字就能说清的需求,变成了一份创意合同。用户不再像创作者,更像风险控制专员。每一个“不要”背后,往往都对应一次已经发生的事故。
问题还不止于此。
AI视频有一种近似抽卡的机制。同一句提示词,第一版小猫可爱,但是手坏了;第二版手正常了,锅飞了;第三版厨房质感不错,小猫的脸却像通宵了三天;第四版猫和锅终于都没问题,下一秒又多出一条胳膊。
于是用户进入一种熟悉的状态:
再来一次。
刚才那一版已经很接近了。眼神不错,光线也可以,只要手别那么像成年人就行。用户又点了一次生成。

然后Token没了。
更麻烦的是,修改未必让结果越来越好。第一次只是小猫长了人手;第二次强调不要人手,它可能直接不做饭;第三次要求做饭但不能有人手,锅铲开始悬浮;第四次要求猫爪握住锅铲,它又在猫爪和人手之间反复横跳。
你以为自己在修Bug,AI以为你在增加剧情。
这也是很多人使用AI视频后的感受:它确实快,但快得不稳定;它确实能生成,结果却总差一口气。
完全不能用,用户会直接放弃。差一点能用,用户就会想:是不是再加一句就好了?是不是换个词就好了?是不是再抽一次就好了?
差一点,才是最贵的。

笑完之后,小猫长出人手这件事,暴露了AI创作里的一个基础问题:模型不能稳定理解人类省略掉的常识。
人类说“小猫做饭”时,不会想到人手。我们知道猫的身体结构,也知道童话里的拟人化有边界。猫可以站起来、戴围裙、拿迷你锅铲,但它最好还是一只猫。
这些前提,人类不需要说出来。
AI可以识别“小猫”,也能识别“做饭”,却未必能处理好两者之间的关系。做饭这个动作,在大量图像和视频中都和人类手部绑定。模型需要完成翻炒动作时,便可能调用最常见的方案:一双能握住锅铲的手。
它知道猫长什么样,也知道做饭长什么样,却不一定知道猫该怎样以猫的身体结构做饭。
视频又比图片麻烦。

图片只要一个瞬间看起来正确。视频则要在几秒内保持主体、动作、道具和空间连续。第一帧出了错,错误还会沿着时间延续。猫开始有点像人,后面可能越来越像人;锅铲开始握得不对,下一秒便可能穿过爪子。
因此,AI视频真正的问题并非生成能力不足,而是可控性不够。
这也解释了为什么用户明明在使用一种效率工具,最后却觉得更累。
过去,视频创作的成本主要在拍摄、剪辑、绘制和建模。AI压低了部分执行成本,一句提示词就能迅速生成雏形。但成本没有消失,只是换了地方。
一部分转移到了提示词里。用户要把默认常识写出来,把主体结构、动作方式和禁止事项逐项说明。
一部分转移到了试错里。同一句提示词可能产生完全不同的结果,用户需要不断生成、筛选、比较和放弃。
还有一部分转移到了质检里。手指数量、物体穿模、动作漂移、镜头跳变和角色一致性,都要重新检查。
AI让人更快看到结果,也让人更快看到错误。它降低了制作门槛,同时抬高了控制门槛;省掉了一些执行劳动,又增加了提示词劳动、抽卡劳动和返工劳动。
很多人为了节省Token,会下意识地缩短指令。但在AI视频里,短指令省掉的往往不是钱,而是约束。
“小猫做饭”很便宜,却把所有关键判断都留给了模型。更可靠的提示词需要说明:保持猫科身体结构,使用猫爪操作尺寸合适的锅铲,不出现人类手指和多余肢体,动作轻微,镜头固定。
这段话更长,却可能比抽十次便宜。
真正贵的从来不是第一行提示词,而是为了纠正它付出的后续成本。气氛和风格可以少写,主体结构、动作边界和禁止事项却很难省。
复杂视频也不适合塞进一条提示词。一个镜头先解决一个动作,先保证小猫仍然是猫,再讨论光线、运镜和节奏。先低成本试方向,再锁定主体、扩展动作,最后检查不能出错的部分。
AI视频生产更接近“测试、筛选、修正、再生成”,而非输入一句话后坐等成片。
这多少有些讽刺。
AI出现时,人们以为它会让创作变简单。现在看,变简单的是生成,控制仍然很难。人确实少做了一部分执行工作,却被调到了提示词、质检和返工岗位。
那只长着人手的小猫,正好说明了这一点。
AI听懂的可能只是“小猫”和“做饭”。至于怎样让一只猫以猫的方式做饭,仍需要用户把常识翻译成约束。
否则,省下来的时间会花在抽卡里,省下来的Token会烧在返工里,省下来的人工成本,最后可能变成用户自己的精神成本。
最荒诞的是,AI生成失败时不会觉得不好意思。
不好意思的只有用户。
因为钱已经花了,Token已经烧了,小猫也已经长出手了。
(欢迎关注家电网微信jiadianwangHEA,点击阅读 家电网头条,最新家电、科技资讯,最专业的新闻资讯解读,我们期待与您分享交流)
(家电网® HEA.CN)
责任编辑:编辑E组