【天天时快讯】一位 AI 画家的成长历程丨TECH TUESDAY
文丨贺乾明编辑丨龚方毅
在电脑上输入几个词,等着在屏幕上看到它们被转化成图片,比如山川湖海、鸟兽鱼虫、楼宇院落、人物肖像。不管效果如何,都不是容易的事。
因为实现这些前,需要解决计算机视觉和自然语言处理中那些最难的问题:电脑要学会听懂我们说的话,知道我们想表达什么,还要知道怎么把我们的话变成图画里的东西,最后还要尽可能好看。
(相关资料图)
这方面的产品化已经相对成熟,譬如 Stable Diffusion、Midjourney、OpenAI 旗下的 DALL·E 2,以及百度的文心一格。背后的实现算法也大同小异。
但上周文心一格画了一些让人难以理解的 “错图”。例如收到提示词 “起重机” 后画了一幅 “仙鹤”,或者把 “鼠标” 画成 “老鼠” 等。
百度用 177 字声明为其人工智能研发能力辩护,称是用 “符合行业惯例” 的全球互联网公开数据训练自研模型。它回应了有关 “抄袭”“套壳” 的质询,但没有说清楚为什么会出现这些错误。
机器画图是个听懂人话然后匹配图像的过程
当你在文本框里输入作图提示语(prompt),可以是几个词或一段话,用来形容你想要的作画主体、背景、风格、尺寸等,然后发给电脑。理论上提示语越精确,作图效果越惊艳。
系统接收到提示语以后,其背后一系列算法、模型便开始工作。第一步是理解人类语言,这得通过 “编码器” 把文字转化成一连串的数字、符号或字母,变成这套系统看得懂的语言。
因为已经提前学习了很多人画的东西,所以系统知道不同的东西长什么样子,对应什么样的文本。此时,它开始匹配最接近提示语特征的图像。比如猫有尖尖的耳朵,狗有长长的舌头,花有漂亮的颜色等。
接着它开始画图。先画出一张(或一组)很模糊的图片,有点像在雾里看东西一样。再过一会儿,画中主体的轮廓、色彩以及画作背景慢慢清晰。这是个不断地检查图片和文字是否匹配的过程,如果不匹配,它就会改变图片,让它更接近文字的意思。
最后,它可能会画出一张很清晰和漂亮的图片。
文生图应用生成图片的过程。图片来自 Midjourney。
这里的每一个环节都需要结合大量数据地反复训练。即便如此,机器也可能不理解提示语的含义,从而画出奇奇怪怪或者压根不合你意思的图片。
各家产品都依赖 Google 和 OpenAI 搭建的基础设施
这一轮人工智能根据文本提示语画图的爆发点,是 OpenAI 在 2022 年 4 月发布 DALL·E 2,它们展示了一系列新模型生成的作品,比如宇航员骑马、泰迪熊在时代广场上玩滑板,将现实世界中几乎不可能搭配在一起的元素巧妙地融合在一起。
教机器画图的尝试则更早启动。2015 年起,许多科学家试着通过一种称为 “对抗生成网络” 的技术,让电脑学习如何生成图片。其原理是用大量同类的图片,比如人脸,训练模型,让它学习一个人的面部都有什么特征,然后让一个模型负责生成人脸图片,另一个模型负责鉴定,符合要求后才算完成。
经过多年迭代,通过这种方法训练出来的图片已经以假乱真。但它局限也很明显,教它认识什么,就只会画什么 —— 用人脸数据训练,它只能随机生成人脸 —— 无法融入其它元素。
2017 年 Google 发布的 Transformer 架构极大程度地拔高了电脑理解文字的能力,后来成为诸多大语言模型的底层技术,如 OpenAI 的 ChatGPT、GPT-4 等。2020 年,Google 开始在图像处理领域试验 Transformer 架构,开启视觉领域的大模型研究。
借助 Google Transformer 架构的学习能力,OpenAI 在 2021 年带来文字生成图片领域的关键突破。它们训练了超过 4 亿个图文对,实证经过大量数据训练后人工智能模型,既可以根据文本提示较精确地找出图片,反过来它也能看懂图片。OpenAI 将这一研究成果取名 CLIP。
今天我们讨论的几乎所有文生图产品,包括 DALL·E 2(OpenAI 研发)、Midjourney、文心一格,要么直接用、要么借鉴 CLIP 的技术来理解语义和图像之间的关系,最后通过 “扩散模型” 生成图片。
如果把 “扩散” 想象成一种画画的方法,它是这样的:
首先,你在一张白纸上随便涂满一些颜色,这样就得到了一张全是噪声的图片。噪声就是一些没有意义的颜色点,看起来很乱。然后,你开始用橡皮擦擦掉一些颜色,让图片变得稍微清晰一点。你要按照你想画的东西的形状和位置来擦,比如你想画一个苹果,就要在中间留下一个圆形。接着,你继续用橡皮擦擦掉更多的颜色,让图片变得更清晰一点。你要按照你想画的东西的细节和特征来擦,比如你想画一个红色的苹果,就要在圆形里面留下红色。最后,你重复这个过程很多次,直到你觉得图片已经很完美了。这样就完成了一张根据你想画的东西生成的图片。训练数据质量和作图 “技法” 都很重要
机器从大量带有文字解释的图片中不断学习,才能较准确地把文本和图像关联起来,通常需要经过上亿甚至数十亿的 “图文对” 的训练。每一个产品化的文生图应用都经历了这一过程。
由于实现原理大同小异,区别不同产品的关键,成了训练大模型的数据质量和生成模型的调教策略。
百度文心一格的大模型 ERNIE-ViLG 公开于 2021 年,其模型训练的基础方法和同行近似,去年 10 月更新到了 2.0 版本。据其论文介绍,ERNIE-ViLG 训练数据集一共有 1.7 亿个图文对,其中一部分是百度的中文数据集,还有一部分是基于公开英文数据集的中译版(经百度机器翻译)。百度没有说明不同数据集的占比。
这就导致百度的大模型在没有上下文的情况下误判提示词的含义。比如 Mouse 既是鼠标也是老鼠,BUS 既是总线也是巴士, Musk 既是马斯克也是麝香。由于文心一格学习了大量的机翻英译中图文对,所以当接收到 “总线” 或者 “巴士” 的中文提示语,可能都会指向英文数据集中 “BUS” 对应的图片。
Midjourney 早期训练数据集和百度的一样,但前者既没有机器翻译造成的误差,同时自去年 11 月起即着手清理数据,删除其中模糊、带水印和边框的图片,以重新训练图像生成模型。
他们还花了大量资源和精力训练生成模型。Midjourney 创始人大卫·霍尔兹(David Holz)说,大多数团队只想让机器生成写实的图像,比如输入 “狗”,它会生成一张狗的图片,而他们自己想做的是 “弄清楚人们真正想要的是什么”,让机器学会什么样的图像有美感和创造力。
Midjourney 的进化。V2-V5 四个引擎下生成的“教皇打碟”(Papa Francesco DJ in a white jacket smiling)
为此 Midjourney 先花大量的时间给模型生成的图像评分反馈,持续调整模型,随着去年 7 月开放给普通用户,得以进一步借助用户反馈让模型学会审美。霍尔兹说 “随着时间的推移,用户的美感会融入系统”。
百度也在生成的环节投入了不少精力。根据他们发布的论文,百度的研究人员在生成图片时,针对不同的步骤,设置了不同的强化方式,尽可能提升生成效果。论文称在图像细节和质量方面的测试中,百度文心一格的模型,明显优于现有的模型,比如 DALL·E 2。
但对于人工智能应用来说,算法决定它的上限,而数据决定它离上限有多远。
一位百度人士称,他们已经开始清理数据、迭代模型。最新版本的文心一格已经分得清楚老鼠是老鼠,鼠标是鼠标。其他的产品也在飞速迭代,Midjourney 的最新版本基本攻克图像生成模型长期存在的问题 —— 画不出真实的手。
题图来自 Midjourney。本文得到了 ChatGPT 的协助。
标签:
-
2022-02-07 14:57:45
奇迹!绝杀!女足亚洲杯逆转夺冠!<
刚刚,中国女足上演逆转绝杀奇迹!她们在亚洲杯决赛中3:2力克韩国队,时隔16年再夺亚洲杯冠军!
-
2022-02-07 14:57:45
中国政府与阿根廷共和国政府签署共建“一带一路”谅解备忘录<
新华社北京2月6日电(记者安蓓)国家发展改革委6日称,国家发展改革委主任何立峰与阿根廷外交、国际贸易和宗教事
-
2022-02-07 14:57:43
中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明(全文)<
新华社北京2月6日电中华人民共和国和阿根廷共和国关于深化中阿全面战略伙伴关系的联合声明一、应中方邀请,阿根廷
-
2022-02-07 14:57:40
春节假期国内旅游出游2.51亿人次<
春节遇冬奥,旅游年味浓。根据文化和旅游部数据中心测算,2022年春节假期7天,全国国内旅游出游2 51亿人次,同比
-
2022-02-07 14:57:40
中吉签署关于经典著作互译出版的备忘录 开启两国人文交流互鉴新阶段<
新华社北京2月6日电(记者史竞男)国家主席习近平6日会见来华出席北京2022年冬奥会开幕式的吉尔吉斯斯坦总统扎帕
-
2023-03-29 08:26:40
【天天时快讯】一位 AI 画家的成长历程丨TECH TUESDAY
都是AI文生图,为何差别这么大。文丨贺乾明编辑丨龚方毅在电脑上输入几个词,等着在屏幕上看到它们被转化成图片,比如山川湖海、鸟兽鱼虫、楼
-
2023-03-29 06:43:03
世界热议:千眼菩提子_关于千眼菩提子的介绍
1、千眼菩提,酒椰果实的硬化胚乳,因表面有很多天然斑点,仿佛有众多的眼睛而得名。2、千眼菩提坚硬无比,为实心状,密度硬度
-
2023-03-29 03:10:58
速读:失业金如何领取北京_失业金如何领取
1、我先说个前提哈,首先是你现在与单位解除或终止合同了,并且不是你主动要求离职的,其次单位给你交养老保险满一年了。2、办理方法:第一步
-
2023-03-28 23:05:45
即时看!《铃芽之旅》似乎是这个新时代的千与千寻
今日刚刚看完。仅代表个人说下观点。我看完的第一感觉是这部作品堪称“新时代的千与千寻”。哇,刚查了下《千与千寻》是2001年的,那真的在...
-
2023-03-28 21:54:52
每日速看!纯电续航500km,体验女神专属座驾——欧拉芭蕾猫
如今国内女性消费者的购买能力不容小觑,在汽车市场同样如此。不少车企为了博得女性消费者的关注,还推出了不少契合女性朋友审美的专属座驾。
-
2023-03-28 20:06:34
【独家焦点】新华社在洪都拉斯设立分社,为全球第182个驻外分社
经洪都拉斯政府批准,新华通讯社特古西加尔巴分社27日成立。26日,中国与洪都拉斯政府签署建交公报,两国建立外交关系。洪都拉斯战略计划部部
-
2023-03-28 19:08:43
热头条丨ego是什么牌子(ego是什么牌子鞋)
ego是什么牌子?ego是什么牌子?Ego澳洲家庭保养第一品牌QV澳洲EGO大药厂出品,该药厂成立于1953年。意高的信念建立在职业道德上,专注于皮肤
-
2023-03-28 18:21:50
焦点快播:GBA集团(00261)发盈警 预期年度股东应占亏损同比扩大约两倍
GBA集团(00261)发布公告,截至2022年12月31日止年度,集团预期将取得
-
2023-03-28 17:31:08
世界微速讯:沈阳“雅馨苑北”地块重磅亮相,首府新区这块地到底“值钱吗”?
沈阳“雅馨苑北”地块重磅亮相,首府新区这块地到底“值钱吗”?
-
2023-03-28 16:35:25
天天微资讯!湖北省2023年普通高校招生专项计划报考资格申报时间提醒
湖北省2023年普通高校招生专项计划报考资格继续实行网上申报,考生个人申报时间为3月29日至4月10日,逾期不再受理。 请符合条件的考生在规
-
2023-03-28 15:54:22
世界新资讯:obs怎么推流直播_obs推流是什么意思
1、开始推流是给直播用的。2、直播平台开启直播之后开始推流就将主播的画面推送到直播网站,此时观众就可以看你的直播了开始录
-
2023-03-28 14:14:05
快播:乐蔓驱虫药_乐蔓
1、白熊啤酒酒精度数为7%,白熊啤酒是以麦芽、啤酒花、香料、香橙皮为原料制作而成的比利时小麦啤酒,在整个比利时啤酒的大类
-
2023-03-28 12:48:32
天天百事通!闽西职业技术学院学报_闽西职业技术学院
1、同学你好,没有任何一所院校在所有招生计划录取之前是会公布分数线的,因为如果一旦先划线。2、那么可能我只招2000名同
-
2023-03-28 11:25:18
天天热点!刚刚发布,2023年青岛市中小学招生政策来了!
28日上午,市政府新闻办举行发布会,发布了2023年全市中小学及幼儿园招生政策。发布会有哪些重点内容,观海君带你来看↓↓↓幼儿园招生2023年
-
2023-03-28 10:32:16
视点!小钱期市:黄金原油3月28日操作建议
【现货黄金3月28日操作建议】技术面黄金昨日延续回调并大幅下探日线大阴报收并下破10日线MACD0轴上方金叉红柱收缩整体呈继续回调态势60分钟图
-
2023-03-28 09:17:48
全球热议:下月起,开发商一旦存在这5种错误行为,就等着“吃牢饭”吧!
近年来,关于开发商的负面新闻可是越来越多了,就连碧桂园、万科等知名房企也频频曝出丑闻。然而,不管开发商怎么可恶,购房者在维权时总是困
-
2023-03-28 08:10:58
热推荐:北京今天晴转多云最高温21℃ 花粉浓度极高需注意防护
预计明后天,北京阳光将持续“在岗”,气温一路“狂飙”,后天最高温可达25℃,需及时增减衣物,谨防感冒。
-
2023-03-28 05:54:24
【环球速看料】维维股份疯狂跨界后遗症净利降57% 两主业营收下降“双百千亿”目标遥不可及
“维维豆奶,欢乐开怀”,这句经典广告语曾让维维股份红极一时,但维维股份(600300 SH)的日子过得远未“欢乐开怀”。 3月24日晚间,维...
-
2023-03-28 01:13:48
天天通讯!为什么朋友圈有的视频打不开怎么回事
原因:1 网速过慢导致,暂时不要打开微信朋友圈,等网速正常时再打开。2 微信信息等内容太多,可以清除下无
-
2023-03-27 22:05:52
【天天时快讯】恢复现场祭扫、取消预约入园……多地清明祭扫不对疫情防控做要求
清明临近,多地已发布清明祭扫通知。人民日报健康客户端不完全统计,多地的清明祭扫通知中已不对疫情防控做出要求。2022年清
-
2023-03-27 20:17:48
焦点日报:当虹科技: 杭州当虹科技股份有限公司2023年第一次临时股东大会决议公告
当虹科技:杭州当虹科技股份有限公司2023年第一次临时股东大会决议公告
-
2023-03-27 18:57:02
当前热讯:网传海锅股份参与了海油观澜号的改造?公司回应
27日,有传闻称,海锅股份参与了海油观澜号的改造,对此,海锅股份证券部工作人员回应:“没有听说。公司是生产锻件的。把锻件提供给下游客...
-
2023-03-27 17:50:48
每日讯息!钢结构防火涂料厚度与耐火极限是多少-钢结构防火涂料厚度与耐火极限
1、按照GB9978建筑升温曲线的标准的话有如下关系1 5h2 0h2 5h3 0h11mm15mm19mm23mm按照BSEN1363-2:199
-
2023-03-27 16:27:04
天天观天下!原奶收购价走低 酸奶零售价缘何坚挺
原奶(即生鲜乳)收购价格持续走低。农业农村部近日发布的2023年3月第3周价格数据显示,内蒙古、河北等10个主产省份生鲜乳平均价格3 99元 公斤
-
2023-03-27 15:16:53
观速讯丨汉阴公安平梁派出所:多举措优化营商环境,全力护航企业发展
汉阴公安平梁派出所:多举措优化营商环境,全力护航企业发展
-
2023-03-27 14:08:45
当前时讯:老豆是什么意思_老豆是谁
1、老豆,也就是爸爸,习惯用粤语称呼父亲,甚至当面称呼。比如他给客人介绍父亲的时候,习惯说“这是我的老豆”。2、香港回归
-
2023-03-27 12:23:28
环球时讯:网状网络——更广泛的无线连接
自1999年Wi-Fi联盟创立、IEEE802 11a和IEEE802 11b标准发布以来,无线网络,特别是Wi-F
-
2023-03-27 11:01:54
全球观热点:四川省月子服务机构行业标准正式立项,促进母婴产业高质量发展
封面新闻记者易弋力3月25日,“四川省优生托育协会月子行业分会成立大会暨生育友好型城市峰会”在成都举行,资深行业专家共聚一堂,深入探...
-
2023-03-27 10:12:23
环球今日报丨沙河下有个地铁站!四川首个河流下的地铁站主体结构实现封顶
3月27日,从中国铁建大桥局传来消息,当天凌晨,成都轨道交通17号线二期工程城隍庙站主体结构实现封顶。该地铁站下穿成都市的主要河道之一的沙
-
2023-03-27 08:47:14
世界速看:饕餮耄耋怎么读_呱呱坠地读音
1、呱呱坠地的呱呱的读音是[gūgū]。2、gū的声母是g,韵母是u,声调是第一声。3、【解释】:形容婴儿出生或事物