一个令人惊艳的ChatGPT项目,开源了!

最近在github上发现了一个爆火的开源项目,star数一顿暴增。
好家伙,凑近一看,居然还是由微软开源,并且和最近炙手可热的chatgpt息息相关。
项目的名字叫做:visual chatgpt。
https://github.com/microsoft/visual-chatgpt
https://github.com/microsoft/visual-chatgpt
这个项目最早是3月上旬微软开源的,项目宣布开源后仅用了短短一周,就斩获了2w+ star。
截止到目前,距离当初项目开源仅仅过去了3周多,仓库star数则来到了27k+,亦可谓是火箭式上涨。
众所周知,chatgpt自2022年11月推出以来,持续走红。
chatgpt具备强大的会话能力,可以理解文字、聊天、写小说、解答问题、编写代码... 但是目前还并不能直接处理或生成图像。
而visual chatgpt这个项目则可以把chatgpt和一系列视觉基础模型(vfm,visual foundation model)给联系起来,以便实现在chatgpt聊天的过程中来发送和接收图像,也使得chatgpt能够处理更为复杂的视觉任务。
讲白了,就是通过visual chatgpt,可以把一系列视觉基础模型给接入chatgpt,使得chatgpt能胜任更为复杂的视觉处理任务。
visual chatgpt的整体技术架构图如上所示,我们可以清楚地看到chatgpt和视觉基础模型(vfm,visual foundation model)分别位于其中的位置。
一方面,chatgpt(或llm)作为一个通用接口,继续发挥它本身的优势,提供对不同话题的智能理解。
另一方面,基础视觉模型vfm则通过提供特定领域的深入知识来充当领域专家,它们通过交互管理模块(prompt manger)进行连接和适配。
这样聊可能比较抽象,我们可以拿官方给的一个例子来进行说明:
1、首先是用户:输入一张黄色的向日葵图片,并且要求chatgpt根据该图像预测深度来生成一朵红花,然后再一步一步将其做成卡通画。
2、接着是交互管理模块(prompt manger)发挥作用,在它的协调和控制下,vfm模块开始发挥作用:
首先需要运用深度估计模型来预测并生成图像的深度信息;
然后需要运用深度图像模型来生成对应空间深度的红花图像;
最后运用stable diffusion的风格迁移模型来完成图像风格的变换。
3、最后visual chatgpt系统再将最终结果返回给用户,完成本次对话。
说到这里,有兴趣的小伙伴可以可以看看微软给出的一篇有关visual chatgpt的论文:https://arxiv.org/pdf/2303.04671.pdf
https://arxiv.org/pdf/2303.04671.pdf
里面关于这部分的流程解释得非常详细,而且还给出了多轮对话的案例、以及实验结果,有兴趣的小伙伴可以看看。


区块链互操作性时代什么时候到来
泽石固态硬盘模组及芯片封测生产基地签约落户
三星Galaxy S9系列新机发布:AR和AI全面升级
12起智能工厂应用案例的“前沿性”
使用运算放大器和分立元件构建三角波发生器的方式
一个令人惊艳的ChatGPT项目,开源了!
物联网如何增强智能停车技术?
芯片设计进阶之路—从CMOS到建立时间和保持时间
天津联通联合华为,对基础通信网络进行升级使网络智能化
ST多核微控制器SPC56EL70符合最严格的汽车安全标准
以太网通信和串口通信区别
力矩电机的工作原理_力矩电机的种类
艾法斯为TM500 LTE-A测试移动终端新增对多用户设备载波聚合支持
In-Context-Learning在更大的语言模型上表现不同
小米米家对讲机2体验 比市面上普通的对讲机更智能也更易用
用6V电源驱动20个白光LED的电路图
贾跃亭的FF91融资10亿 第二架大飞机C919上海浦东首飞
工信部指导和规范运营商的5G建设工作
如果医疗诊断可以通过机器学习和人工智能实现自动化?
SPI有几根线,SPI通信原理