让 AIGC 演绎《独上江楼》

Robert’s MetaMask
2023年9月29日
cover

又到一年的中秋佳节, 关于中秋节,我一直很喜欢中学的时候就喜欢的一首诗:


“ 独上江楼思渺然,

月光如水水如天。

同来望月人何处?

风景依稀似去年。”


那么用 AIGC 来演绎一下这首诗,会有什么效果呢? 而各个不同的AIGC 引擎产生的画面又会有什么区别? 实验一下。


直接输入诗歌

首先直接输入中文诗歌作为Prompt的实验。这个可以预期不会效果太好, 几个月前我的一次测试中, Dall-E 最理解中文, 其他的都不太行。


Dall-E 2

image.png

内容基本画出来了, 但完全没有应该有的意境。


Dall-E 3

Image


Mid journey

Image

一如既往,MJ 对中文promt 的支持很烂, 四张图里面,第一张还算有点接近(但没有月亮,基本不及格)。 但下面三张,尤其第四完全是胡来。


Stable Diffusion

通过 Poe 昨天发布的Stable Diffusion XL Bot来产生。生成4次,挑选了表现最好的一幅。

Image

产生了一幅中国画!内容差强人意, 独上江楼有了, 但很重要的“月光如水水如天” 没有了。


LLM + AIGC

很简单,先用 LLM对诗歌文字进行理解,产生出英文的描述prompt,再让各个模型产生。 (这也算是一种所谓的“多模态” 的实现了)

我分别尝试了直接内容翻译作为AIGC 的prompt, 和写了一个 LLM 的 prompt 来理解内容后产生 AIGC prompt ,分别做了比较。

用于理解诗歌的prompt 我很简略写了一个,如果好好改进应该可以提高。

请把下面的诗词中描写的景色简短句子简要描述出来,用英文输出。


直译版本:

Alone on the Chinese riverside pavilion, my thoughts soar like the vast expanse, Moonlight like water, water like the sky. Where are the people who came here to admire the moon? The scenery faintly resembles that of last year.


Prompt 理解版本:

The poet is alone on a Chinese river tower, feeling the scenery is ethereal. The moonlight is reflected on the water, making it look like the sky. The poet wonders where the person who came to admire the moon with them is. The scenery seems vaguely reminiscent of last year.



Dall-E

直译版:

image.png

理解版:

image.png


Mid journey

直译版:

Image

理解版:

Image


Stable Diffusion

生成4次,挑选了我最喜欢的一幅。


直译版:

Image

理解版:

Image


结论

采用 LLM首先处理后再给 AIGC能大幅度提高产生的质量(即便只是做一下翻译,因为MJ,SD这些对非英文prompt可能太弱了),这个显然毫无疑问。 对于 Open AI 家的 AIGC,这个步骤可能没那么关键, 但提升的空间也显而易见。


产生的画面质量上, Dall-E 最粗糙, MJ 有些匠气过重的感觉, 第一次会觉得惊艳,看多了觉得有些千遍一律而且过于匠气。 SD 质量不是很稳定,但能挑到喜欢的。

你获得 0 积分