Dall-E 3 在产生图的质量上已经达到了 Mid Journey 和 Stable Diffusion 的水平, Dall E2 的确要差一大截,但3 已经完全追赶了上来。 而且 Dall-E 3 对文字的理解能力, 细节的控制能力,最重要的是其官方的 API 支持, 会把至今还藏着 Discord 里的 MJ 大幅度甩开。
MJ 一开始的时候采用Discord 来发展有其合理性, 通过 Discord 群来形成了用户社区, 用户在社区里看到别人产生的图,一下子就明白了MJ 的能力, 也学会了更多prompt。 防止出现自己的创意不足而怪罪工具的问题。 但是如今, MJ 还一直在Discord里,也不开放 API,对这个思路我不太能理解。
在前面的测试中,我们已经发现了,用 LLM 来先优化再把LLM辅助产生的 Prompt 给 AIGC 产生图片效果好于直接输入prompt。 Bing 集成的 Dall-E 3 明显可以看到是首先采用 GPT-4 来产生Prompt,在产生的时候还搜索网络来更好理解prompt 内的内容, 产生的结果更好是不言而喻的。
GPT-4V 是Open AI 的最新模型 GPT-4V(ision), 也就是带了“视觉” 的能力。 这相当于是“文生图”的反方向,从图来理解其中的含义。 这个支持将变得非常有意义,从此我们面对的不仅仅是 LLM, 而是 Large Vision Model了, 这个应用范围一下子变得更为广阔。
微软的一篇最新文章( https://arxiv.org/pdf/2309.17421.pdf )中提及,GPT-4V 在理解和处理任意混合的输入图像、子图像、文本、场景文本和视觉指针方面表现出了前所未有的能力,GPT-4V 还能够很好地支持在 LLM 中观察到的技术,包括指令跟随、思维链、上下文少样本学习等。这意味着展开了无限的可能性。原论文如果是 TLDR的话,这里有篇文章详细介绍了: https://mp.weixin.qq.com/s/8FtR6JcEFVcRLWCaANXQ6g 。
我看到一个巨大的机会是, Dall-E 3 + GPT-4V 可能带来前所未有的应用创新大潮。 OpenAI 提供的模型就是一些基础的构建, 这些构建组合起来可能形成无数种新的应用。 这个时代大潮滚滚而来, 弄潮儿们又将有无限的可能, 太令人兴奋了!