8 个月前,我评估比较了一下AIGC 工具 Dall E2 和 Mid Journey 的文生图能力,故意用古诗来“刁难”了它们。 当时我的判断是 Dall E 更合适,虽然它产生的图质量差一些,但是对prompt的理解更正确。
进而在我们的产品中采用哪种AIGC 引擎,我也比较评估了一下, 还是选择了用Dall-E。
如今 Dall-E 3 出来了 (目前还得通过微软的 Bing 来获得,但期望十月份,能通过API 集成,这样ArcBlock的产品里也全面升级为支持 Dall E 3), 再次来考验了它一下。
并不惊讶,直接全诗还是不太行。 显然可以看到Bing 是先翻译为英文再产生图片的:
但给一些更好的提示预处理,出来的效果相当惊艳:
Prompt:A withered vine, an old tree, a cawing crow, a small bridge, the flowing water, and a lonely cottage home of a small village, sunset, . Chinese classical painting.
Prompt: A man, a horse, a long narrow path, desolate, rugged, windswept, lonely, melancholy, despondent, sunset, Chinese classical painting.
如果两句prompt 合并起来,输出:
这一张我觉得最贴切: