智东西欧洲杯体育
智东西8月19日报谈,当天,阿里推出Qwen-Image-Edit,这是其此前8月5日推出的图像生成基础模子Qwen-Image的图像裁剪版块。(阿里开源图像大模子,实测华文渲染智商绝了!精确护士复杂字体排版,硬刚字节OpenAI)
这下,PS可能果然要被干掉了。如下图所示,用户不错通过Qwen-Image-Edit在图中添加换取牌,指定换取牌中上的文本为“Welcome to Penguin Beach”。底下右图不仅准确生成了用户所需成分,换取牌下还生成了天然的倒影。
▲Qwen-Image-Edit赞助语义和外不雅裁剪功能
Qwen-Image-Edit基于其20B的Qwen-Image模子进⼀步查考,将Qwen-Image的文本渲染智商延展至图像裁剪规模,达成了对图片中笔墨的精确裁剪。同期,Qwen-Image-Edit将输⼊图像同期输⼊到Qwen2.5-VL(达成视觉语义限度)和VAE Encoder(达成视觉外不雅限度),从而兼具语义与外不雅的双重裁剪能⼒。
Qwen-Image-Edit的主要性情包括:
1、语义与外不雅双重裁剪:Qwen-Image-Edit不仅⽀合手low-level(低阶)的视觉外不雅裁剪,如元素的添加、删除、修改等,条款图片其他区域都备不变,也赞助high-level(高阶)的视觉语义裁剪,如IP创作、物体旋转、作风迁徙等,允许举座像素变化但保合手语义一致。
2、精确⽂字裁剪:Qwen-Image-Edit赞助中英文双语笔墨裁剪,可在保留原有字体、字号、作风的前提下,获胜对图片中的笔墨进行增、删、改等操作。
3、强⼤的基准性能:在多个公开基准测试中的评估标明,Qwen-Image-Edit在图像裁剪任务上具备SOTA(最好发扬)性能,是一个宏大的图像裁剪基础模子。
当前,用户不错看望Qwen Chat(chat.qwen.ai)并遴选“图像裁剪”功能,体验Qwen-Image-Edit。本文通过实测及一些官决议例,发现Qwen-Image-Edit一经能达成相比准确的文本运转图像裁剪,比如在笔墨生成、视角切换、场景创设、配景幻化等方面都生成较精确,况兼主体能保合手较高一致性,明后和质感会随场景天然变化。不外,当前其在Qwen Chat和Hugging Face的免费体验都有次数截至,不成无尽使用。
▲Qwen-Image-Edit体验进口页面截图
ModelScope地址:
https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Hugging Face地址:
https://huggingface.co/Qwen/Qwen-Image-Edit
GitHub地址:
https://github.com/QwenLM/Qwen-Image
一、赞助语义和外不雅裁剪,或成IP打造神器Qwen-Image-Edit的一大亮点在于其语义和外不雅裁剪功能,智东西对此进行了一手体验。
语义裁剪是指在保留原始视觉语义的同期修改图像内容。
如下图所示,当智东西输入以下男士相片,并输入“在桌子上生成一个立牌,写着‘沐屿咖啡’”,Qwen-Image-Edit能输出准确的笔墨,东谈主物保合手了一致性,镜头拉近了小数,肤色略变黄了一些。
输入图片:
输出图片:
当智东西输入一张小兔子的图片,并输入“让小兔子拿着画笔画画”的指示词,Qwen-Image-Edit准确生成了这幅画面,且保合手了小兔子形象的性情,不绝了作风可儿轩敞作风,柔光下毛发致使愈加考究。
输入图片:
输出图片:
当我进一步条款“为小兔子穿上写着‘智东西’的短袖,画板上写上‘AGI’”,Qwen-Image-Edit也大约准确生成,而且画板上的笔墨与原来的画作作风一致,其他的元素莫得发生变化。
输出图片:
当智东西让Qwen-Image-Edit将底下这幅书道中的“层”改为简体写法时,如输出图所示,Qwen-Image-Edit此次误将“穷”(标红框)字识别为了“层”,而莫得将原来需要修改的字(标蓝框)改正。不外只可说中国文化博大高超,让大模子看草书属实有点为难它了。
输入图片:
输出图片:
Qwen-Image-Edit还赞助视角治愈、配景修改、添删细节等外不雅裁剪。当咱们输入一张小山公卡通图片,提倡“朝向左侧”的视角治愈条款,Qwen-Image-Edit大约生成小山公的侧面,不错说形象和场景都备保合手一致,就像动画的前后两帧。咱们还有益不雅察了下算作的生成情况,莫得出现近似“六根指头”的恐怖谷效应。
输入图片:
输出图片:
当咱们输入一张女孩相片,并输入“将配景变为高原雪山”指示词,Qwen-Image-Edit快速更换了配景,值得一提的是女生身上的光感也切换到了外场现象,与内场的聚光灯成果有所区别,显得相比天然。
输入图片:
输出图片:
再来望望阿里官方公布的一些案例,以Qwen的祯祥物——水豚为例,在输入对应笔墨后,Qwen-Image-Edit输出了不同场景的水豚图片。
天然裁剪后的图像与输入图像(最左侧图像)的像素大部分不同,但水豚的形态一致性得到了无缺保留。语义裁剪功能不错让原创IP内容创作变得卤莽浅易,且内容丰富各样。
团队还围绕16种MBTI性格类型缱绻了一系列裁剪指示,基于这些指示生成了一套以祯祥物水豚为原型的MBTI主题款式包,这不错用于拓展IP的影响力。
新颖的视图合成是语义裁剪的另一个要津期骗场景。如底下的两个示例图所示,Qwen-Image-Edit不仅不错将物体旋转90度,还不错进行完整的180度旋转,让用户大约获胜看到物体的后头。
语义裁剪的另一个典型期骗是作风治愈。举例,给定一幅输入肖像,Qwen-Image-Edit不错卤莽地将其治愈为各样艺术作风,举例吉卜力使命室的作风。此功能在假造化身创建等期骗中具有遑急价值。
除了语义裁剪除外,外不雅裁剪是另一种常见的图像裁剪需求。外不雅裁剪强调在添加、移除或修改特定元素时,保合手图像的某些区域都备不变。开篇提到的案例展示了一个将牌号添加到场景中的案例。如图所示,Qwen-Image-Edit不仅得胜插入了牌号,还生成了相应的反射。
底下这个例子演示了奈何从图像中去除细发丝和其他小物体。
此外,图像中特定字母“n”的神采不错修改为蓝色,从而达成对特定元素的精确裁剪。
外不雅裁剪在调整东谈主物配景或更换服装等场景中也有正常的期骗。底下的三幅图差异展示了这些本色用例。
Qwen-Image-Edit的另一大亮点在于其精确的文本裁剪智商,这源于Qwen-Image在文本渲染方面的功底。
以下两个案例纯真地展现了Qwen-Image-Edit在英文文本裁剪方面的性能:
Qwen-Image-Edit还不错获胜裁剪华文海报,不仅不错修改大标题文本,还不错对微细复杂的文本元素进行精确调整。
临了,通过一个具体的图像裁剪示例,通义团队演示了奈何使用链式裁剪圭表渐渐改进Qwen-Image生成的书道作品中的失误:
在这幅作品中,几个汉字存在生成失误,Qwen-Image-Edit不错渐渐改进这些失误。举例,用户不错在原始图像上绘图鸿沟框来象征需要校正的区域,并换取Qwen-Image-Edit建筑这些特定区域。在这里,演示者但愿“稽”字大约正确地写在红色框内,而“亭”字大约准确地呈当今蓝色区域内。
但是,在本色操作中,“稽”字相对蒙眬,模子未能一次性将其正确改进。“稽”字的右下角部分应该是“旨”,而不是“日”。此时,演示员进一步用红框隆起泄露“日”部分,换取Qwen-Image-Edit微调此细节,将其替换为“旨”。
通过这种链式、依次渐进的裁剪圭表,咱们不错握住地改进字符失误,直到达到理思的最终收尾。
最终,演示员得胜赢得了完整正确的《兰亭集序》书道版块。
结语:AI图像裁剪更精确,裁减视觉创作门槛通过体验,咱们发现Qwen-Image-Edit具备较宏大的语义和外不雅裁剪功能。尽管在衔接多轮修改中,Qwen-Image-Edit裁剪的精确性和一致性仍有待擢升,在草书等更复杂字体生成上有局限,况兼使用次数有截至,但其当前已能达成大多物体增删、笔墨生成、角度治愈等实辛苦能。
跟着这一智商还在合手续迭代,其有望鼓动图像生陋习模的发展欧洲杯体育,裁减视觉内容创作的手艺门槛,并激勉更多改进期骗。