上一篇文章介绍了什么是生成式人工智能(Generative AI)。本篇为您介绍与生成式人工智能有关系的多模态人工智能如何实现像人一样综合处理多个信息和数据,以及多模态人工智能有哪些常见应用场景。
本文引用地址:
01 生成式AI与多模态AI
人工智能技术正在迅速发展,不断改变我们的生活和业务等的存在方式。在这些人工智能技术中,目前特别受到关注的人工智能有“生成式人工智能”和“多模态人工智能”。
生成式人工智能是一种拥有能够自动生成并输出文本/图像/音乐等多种形式的数据的能力,并且能支援迄今为止由人类承担的创造性作业的人工智能。
多模态人工智能(Multimodal AI)是一种输入数据(模态)有多种形式的人工智能。例如,输入“文本”和“图像”等不同数据,并将这些数据综合后进行预估,就是多模态人工智能的代表性例子。这里提到的“模态”,意思是指数据的模态(Modality),“多模态”指的是多种形式的模态(文本、图像、声音等)。
图一、多模态可以处理包括输入和输出在内的不同数据形式的人工智能。例如,即使输入数据和输出数据分别为一个,输入是声音,输出是文本,这种数据形式不同的人工智能有时也被称为多模态人工智能。
02 多模态AI与单模态AI
既然有多模态人工智能,就不得不解释一下对应的单模态AI是什么。相对于处理多种形式数据的多模态人工智能,处理传统人工智能中的单一数据的人工智能就是单模态人工智能。
图二、多模态人工智能和单模态人工智能的示意图。单模态人工智能输入单一信息(例如仅文本、仅图像或仅声音)并分别处理,例如,使用网络上的文本学习和用户的文本输入的生成式人工智能服务就属于单模态人工智能。
此外,单模态人工智能的另一个例子是使用在网络末端的传感器等终端(边缘设备)进行AI推理的边缘人工智能处理影像或语音。
另外,人们也在自动驾驶等方面尝试边缘人工智能的多模态化,毫无疑问,边缘人工智能的多模态化今后将在多种领域不断取得进展。
03 多模态人工智能的演变
与多模态人工智能相关的构想和研究据说始于上个世纪80年代。自2000年代以来,多模态人工智能的研究随着机器学习中的深度学习而不断发展。2010年代,多模态人工智能应用程序问世,它让人工智能学习人类面部表情和文本,画面上的阿凡达会根据文本改变其表情。
2015年以后,可以有效捕获多种形式的数据之间关联性的人工智能模型出现,数据综进一步发展,因此,复杂处理和高阶识别也可以实现。而且,进入2020年代后,多模态人工智能在主要的生成式人工智能服务和人工智能平台中引进得越来越多。
例如,出现了综合图像和文本等数据并通过大语言模型(LLM:Large language Models)提供自然语言应答、根据用户提的问题输出图像和文本这两种形式的数据、输出说明图像的文本等使用方式。而且,还发布了配备多模态人工智能的可穿戴设备等,在日常硬件中也引进得越来越多。
人们预计不断取得进展的多模态人工智能今后将继续迅速向多种领域渗透,包括自动驾驶技术、安保、医疗、制造和工程、商业支持和管理、体育及娱乐等。
04 多模态人工智能的应用事例
多模态人工智能可以处理多种数据形式作为输入,因此是一种能够用于多种目的的高度灵活的人工智能。下面介绍多模态人工智能的几个主要应用事例。
1. 网络领域:识别假冒产品和假视频
一个为人熟知的应用事例是为识别私人交易中介网站上的假冒产品——根据新销售产品上附带的文本(说明文和标签)和产品影像数据来进行判断的识别提供支持。此外,它还可以用于在视频发布网站等处从图像和语音等多种数据识别假视频。
通过让多模态人工智能学习,让它能够对容易被伪造的知名产品的真假难辨复制品、模仿各国重要人物和名人的深度伪造视频进行高精度识别,多模态人工智能的识别能力有望进一步提高。
2. 汽车领域:支持自动驾驶控制
为了让5级自动驾驶(一种可以在任意地方自动驾驶且不需要方向盘操作的驾驶系统)在未来实现实用化,人们目前正在进行多种研究和验证工作。多模态人工智能在前沿自动驾驶技术研究中的应用已受到全世界的关注。
从众多传感器获得的汽车内部和外部数据、通过无线通信获得的与位置、其他车辆和交通状况相关的数据、与乘客之间说话的语音数据等,多模态人工智能综合处理多种数据的能力可以说是控制自动驾驶不可或缺的技术。
3. 医学领域:提出辅助性诊断和治疗方案
通过利用多模态人工智能来综合分析电子病历和检查图像等数据,以实现早期发现疾病和优化治疗计划的研究正在医学领域不断推进。例如,可以考虑让多模态人工智能输出对疾病的状态和经过进行的多角度判断、对癌症复发时期进行的预估、在诊断和决定治疗方法时提供辅助性建议。在本例中,据称它不仅有助于预估再次就诊的时间和选择适当的治疗方法,而且还可以通过提供适当的医疗来降低医疗成本,并通过消除属人化来减轻医务人员的负担。多模态人工智能在医疗领域也有望做出广范围的贡献。
4. 安保和监控领域:状况判断
使用传统人工智能的安保摄像头通过使用人工智能仅分析影像(图像)来支持状况判断。但是,在实际的人类监控业务中,除了视觉以外,还需要根据声音、振动、气味以及与其他监控人员的交流等大量信息来对状况进行判断。
人们认为综合处理图像和声音等多种形式数据的多模态人工智能对于噪音和骚乱等滋事行为、打斗、擅自或非法进入等复杂情况也能判断其处于什么状况。随着这些利用方法的研究和实用化的进展,通过人工智能对监控业务提供的支持程度有望大幅提高。
5. 制造和开发领域:对机器人控制和材料开发提供支持
目前,工业机器人在制造现场的引进数量正在显着增加。这些传统工业机器人的动作是通过程序指定机械运动角度、速度、强度等,并组合图像辨别等识别技术来进行控制的。另一方面,使用多模态人工智能的机器人控制的研究不断取得进展,通过综合和学习来自多种传感器的数据等,机器人的判断能力将变得比传统机器人更进一步提高,执行更精细的作业的可能性越来越大。作为一项不仅可以应用于制造领域,而且可以应用于医疗、护理、农业机器人等领域的技术而受到关注。
在开发领域也能看到使用多模态人工智能的情况。例如,通过综合处理自己获得的实验数据、论文等当中报告的物质化学构造和组成、测量数据(显微镜图像、光谱等),可以高精度预估该物质的物理和化学特性,利用它可以在虚拟空间中高速进行混合条件和成分的优化等。该技术是材料信息学(MI:Materials informatics)的一种,有望帮助提高新材料探索等研究开发的效率,例如帮助大幅减少时间和成本。
我们认为,除此之外,多模态人工智能在制造和工程中的应用今后也将继续迅速发展,例如通过综合来自配置在生产设备中的多种传感器的数据信息来实现高精度的异常检测,以及迄今为止一直很难实现的自动化——通过机器人实现质量检查和维护活动的自动化等。
近年来,主要人工智能平台上都推出了能够处理文本、图像等多种形式数据的多模态人工智能服务。随着更多此类平台的出现并变得更加精良,多模态人工智能有望在商业和创意等宽广的领域扩大应用。除了本文介绍的事例外,它还有望应用于体育、娱乐等多种领域。多模态人工智能及其进步可以说是目前非常值得关注的趋势技术之一。
敬请期待后续...