用完这次更新的豆包 我想把PS卸了 |
珠江路在线
2024年11月12日
【
转载
】西瓜影视
|
本文标签:刘华强 |
有一说一,前几天就已经立冬了,眼瞅着又快到年底了现在 。
搁往年的状况,到了年底这才到各大厂商纷纷发力的时候,年关将近嘛,总得搞出点啥新东西,给大家涨涨眼界 。
? 固然说近期对于 AI 的新 信息不是众多,然而人家这段 工夫 确定也没闲着,这不,一个多月前,也便是 925 那天我们才跟大家说了豆包的视频生成,这两天,豆包又又又上新了新 性能 。
容易来说,这回豆包 支撑?“?一句话编辑 批改图片?”?了 。
固然文生图已经搞了两三年,但这回,我敢说真算是国产 AI 文生图里的新 打破了 。
可能不少差友还觉得, AI 生图不是已经挺厉害的了嘛,怎么还不能 批改图片?
实际上,我们这几年也测了不少文生图大模型了, 支撑图片精确 批改的还真没有,当前做的最好的真便是豆包 。
?就 比方说 ChatGPT-4o ,你让他画个打篮球的人还 能够,然而你要想 改变一下,把环境换成沙滩,不 好心思,整张图都变了 。
不止 OpenAI 的不行,谷歌的 Gemini 也一样 。
原来说让它把图中的鸡变成鳄鱼, 后果不只没变成,还把背景给全改了,两次的篮球也 彻底不一样 。
拿 AI 自己生的图搞都这样,更别说当地上传的照片了 。
就拿最 容易的给图像换 色彩来说, 即便在豆包以往的版本里,这种 动机也不 现实 。
比方我们直接把 925 运动里,给脖子哥拍的照片传上去, 而后告诉豆包,你给我把脖子哥抱着的小白狗换成小黄 。
后果便是,整张图都变了, 格调大变就算了,构图也不一样 。
然而现在,这回用上这个上新了的豆包,同样的照片同样的 揭示词,你再看看:
滑动查看AI 动机
固然有丝毫点小瑕疵,但要跟前面的一比,是否高下立判!
?不单保留了脖子哥的动作,表情,小狗的 形态也跟上传的图差不多,说换成黄色就换黄色,丝毫不模糊 。
再来试试图像 肃清, 动机也不错 。
Prompt:?帮我生成图片: 肃清白色小狗
发现没,这个文生图变得智能了,它能 鉴别出照片里的内容,你想 批改啥他就只改啥,哪里不对改哪里,?so eazy!?
并且不只能做到 鉴别, 批改 色彩, 肃清物品这些 根本 性能,你想整点复杂的也一样 能够 。
比方改换图片的背景 。
我们把差评硬件部视频里,米罗的照片传上去, 而后叫豆包把我们的拍摄间背景改成上海陆家嘴 。
Prompt:?帮我生成图片:背景换成陆家嘴
哎嘿!还真就换成了,纸张的折痕还都丝毫没变 。
?你甚至 能够分得清背景里,哪个是?“?开瓶器?”?环球金融 核心;哪个是?“?注射器?”?金茂大厦;哪个是?“?打蛋器?”?上海 核心大厦,陆家嘴三件套 调度的明清楚白 。不晓得的有意第一眼看去,还真 认为我们公司搬到浦东了 。
除了这些 事实中存在的场景,科幻作品中 设想的东西,这回豆包也 能够生成 。
我们让豆包把米罗革新成战锤 40K 格调, 后果也是相当的 amazing 啊, 固然换了个人种,然而五官还算依稀能看出米罗的影子,要是戴上头盔,真就跟星际 兵士一样了 。
Prompt:?帮我生成图片:衣服换成战锤40K装甲,手拿激光炮
更主要的是, 固然人物的着装 和 格调变了,但图片前面的桌子,跟背景的墙壁、窗帘、挂画可都是丝毫没动 。
就这个 动机,你要不跟别人说,谁晓得这到底是 AI 生成还是 PS ,一眼望去是真分不清 。
?不过,在人物测试中我们还发现,假如你拿AI?生成的图进行 批改, 动机比用照片还要强上不少 。
你 比方就说,我们先生成一张屏幕前各位彦祖的日系写真, 而后告诉豆包,把彦祖的衬衣换换 色彩 。
Prompt:?帮我生成图片:衣服 色彩换成棕色
你瞅瞅,脸部的细节,头发的细节,甚至背后墙砖上的纹理,远处的电线杆子,都丝毫没动,说换装就换装,那叫一个 清洁利落 。
?固然了,用人像演示还是为了测试它在人脸细节上的把握 威力,毕竟人脸这玩意,一但生成的不好,就会产生恐惧 欢畅谷效应,一眼盯真的事 。
戴珍珠耳环的少女都见过吧,世界名画,我们让豆包给你把人脸换成猫脸版本,来看看它对跨物种的面部 交融做的咋样 。
Prompt:?帮我生成图片:把人脸换成猫
后果整体瞅下来, 体现还是相当不错 。不单保留了头饰、衣服纹理的细节,小猫耳朵这块也 解决的很好,没穿模,直接能拿去当微信头像用了 。
除了照片人像这些,物品啥的 实际上会更方便,然而我们还得测, 譬如说汽车 。
我们把一张大众 CC 的照片传上去,让它给换成 驰骋 。
Prompt:?帮我生成图片:车头换成 驰骋
后果也还行,前脸一套都改成了 驰骋 C260?,还是现款的, 其余的像车身 色彩, 四周的环境,也都没变 。
但遇上了多人物,复杂场景的状况下,豆包又会 体现成啥样呢?
?就像刘华强买瓜这段,咱今日就把这个换成刘华强买炸鸡和棉花 。
后果 动机还怪好嘞,瓜贩子衣服上的图案都 如出一辙,全部的西瓜都改掉了,特聪慧 。
Prompt:?帮我生成图片:把西瓜换成棉花和炸鸡
还有一个重点是,假如同时给豆包不同的 批改要求,它能不能全部 实现 。
就 比方,西游记里的唐三藏,我想给改成战地版唐三葬,给的 揭示一句话里有三个指令,同时要 实现戴墨镜,拿机枪,换背景,三样 使命 。
滑动查看AI 动机
Emmm , 后果还是全部都 实现了, 动机也 能够 。墨镜一戴谁也不爱,身处战场手拿机枪,六根清净贫铀弹,一息三千六百转,杀生为护生,斩业非斩人,主打一个物理超度 。
综合来看的话,不止照片、视频截图,包含在制作梗图表情包这一块,豆包都 能够手到擒来, 即便细节上还能发现 能够 遍及的地方,但话又说回来,不怕人比人,就怕货比货嘛 。
?就当前来说,比起以往的文生图模型, 确切是高的不晓得哪里去了 。
看到这可能有差友就要问了,世超鸽鸽,为啥豆包这次蓦地就跟换了个妈妈生的一样,比之前聪慧了这么多?
该说不说,这里面 确切有门道 。
这么说吧,我们以往用的文生图模型, 根本用的都是 Diffusion 技术,是先把图片一步步变糊, 而后反向 综合怎么从糊到清楚,从而产生新的图像 。
?但问题是,在这个过程中,模型生成图像是基于全局信息的,要想 部分 批改,不 好心思,整体全都要重来,所以每次生成的都不一样,也没法在细节上再调整 。
我们这两年也测了不少文生图模型,咋说呢,东西是没问题, 能够生成,但都没法 如出一辙的,精确还原出 设想中那个样子,就 比方这种:
是否觉得跟人家用的都不是一个软件?
图源:Mac Baconai ,?“Al 的异星 cult 梦想之城?”?
可要实现人家这种 动机, 揭示词弄的就得巨复杂,还要微调很久很久,甚至他们还编纂了专门的 揭示词辞典 。大伙要是没训练过这个,实际上就很难做好图,更别说把自己的照片传上去编辑了 。
假如能像画画一样,哪里不对改哪里,逐步成型就好了 。
而豆包这次更新的,正是这个方向 。为了实现图片编辑的 动机,豆包这次的文生图采纳的是 SeedEdit 模型 。
相比只不过通过文字生成,这玩意更微操,它会把图片的 了解和生成 交融到一个统一的大模型框架里,从而在生成和编辑图像的时候, 能够事无巨细的参考咱传上去的图像,完事儿操纵的就 绝对精准,并且出来的图片也更自然 。
?打个 譬如,假如说以往的文生图模型是无情泼墨画匠, SeedEdit 就更像画笔精致,有制造力的画家 。实际我们上面用下来, 能够说 动机 确切相当不错 。
实际上, SeedEdit 这样的技术,当前行业内也刚开始用,能集成在 AI 帮手里的,豆包其实是第一家 。
而像 AI 编辑图片这种方向,现在早就已经是是图片编辑行业的标配,各种修图软件、剪辑软件甚至手机相册里都在做 。
?然而先不说 动机,起码现在其实大多数产品都还是要手动涂抹 批改,或者自己在上面 P 图,加配饰,不晓得大伙怎么觉得,我反正每次 P 背景, 肃清人物,都得花不少功夫 。 。 。
至于 AI 直接出的图嘛,咱上面也说了,跟抽卡似的,很难一次就有 现实的图,还没法再二次 批改 。
这也便是为啥咱开头就说,由 AI 直接操纵的编辑 批改图片,会是一个技术 打破了 。
换句话说,这个技术不只转变的是 AI 文生图, 其余的照片 批改、视频剪辑啥的, 根本全都能用得到 。
到时候,直接跟语音帮手说一声给我出图!AI 就帮你往你想的方向调整,美美当甲方,想想都爽 。