报告题目:视觉语言大模型浅谈及其在医学图像的应用
报告时间:2023年11月3日14:30
报告地点:9728太阳集团A403
报告人:史淼晶
报告人国籍:中国
报告人单位:同济大学
报告人简介:同济大学电子与信息工程学院教授、伦敦国王学院客座教授,国家海外高层次人才。博士毕业于北京大学,历任法国国家信息与自动化研究院研究员,英国伦敦国王学院信息系助理教授,副教授。主要研究计算机视觉及其在医学图像、遥感图像的应用。先后主持中国自然科学基金项目,英国工程与自然科学研究理事会项目,欧洲研究理事会地平线项目等多项国家级项目。https://viscom.nms.kcl.ac.uk/
报告摘要:本次报告将首先简单介绍视觉语言大模型的兴起,而后介绍两个相关工作,运用视觉语言大模型分别进行自然图像的开集物体检测和医学图像的手术器械分割。前一个工作的重点在于设计可学习的检测提示词模块,后一个工作则聚焦基于文本提示词的分割框架设计。
邀请人:罗勇