图中扎着马尾辫、背着双肩包,漫步校园的是清华大学计算机系“学生”、清华大学首位虚拟数字人——华智冰。那么,什么是虚拟数字人?又是怎样的技术让虚拟数字人如此逼真?
华智冰
一、陪伴在虚拟空间的“朋友”
虚拟数字人存在于电脑和网络世界中,你可以和它们交流,它会慢慢“了解”你的习惯,变得越来越“懂”你。为了让这些虚拟朋友更真实,科学家开发了一系列技术。
听懂你在说什么
听懂的背后是自然语言处理技术在起作用,它包括语音识别、语言理解、语言生成等技术,这让虚拟数字人可以理解并生成自然语言。
此外,为了让虚拟数字人的表情和动作更生动,科学家利用面部表情和身体动作捕捉技术,对人类运动数据进行采集和分析,从而控制虚拟数字人的运动和行为。这样,它们就能以更自然和有趣的方式与人交流了。
情绪“补给站”
当涉及情感交流时,情感识别技术就派上了用场。这项技术不仅可以通过收集用户的说话内容、语音语调、面部表情等信息分析其情感状态,还会给予适当的情感反馈。
理解你的意图
为了让虚拟数字人能够记住用户喜好并提供更好的服务,深度学习技术对大量数据进行学习和分析,使虚拟数字人可以自主改进行为。
在自然人与虚拟数字人交流的过程中,自然语言理解技术可以使虚拟数字人理解用户输入的自然语言,并作出回应。近年来,大语言模型的横空出世也为人机交互的智能性带来新的突破。
二、活灵活现的“人”
熟悉的声音
在自然语言理解并生成回复文本基础上,语音合成技术可以将文字内容生成为音频,让虚拟数字人说出的话更自然。
早期的语音合成技术使用的是单元拼接合成,即先构建语音片段数据库,然后选择合适的语音片段拼接成想要的语音。
从输入信息到虚拟数字人输出内容所需的处理技术
随着深度学习技术的不断成熟,深度神经网络被用来学习文本与语音之间的“复杂关系”,利用大量的训练数据学习如何从文本生成更自然的语音。并且,随着深度学习模型的更新迭代,现在最新的模型已经可以做到使用某个同学的几条语音片段,就能“克隆”出这个同学的声音,实现从文本到声音的转换。
人工智能技术幻化成“人”
3D建模技术是创建虚拟数字人的外观和形态的基础。建模软件可以创造出栩栩如生的虚拟形象;运动学引擎可以模拟虚拟人的运动和动作,让行为更加真实和流畅;关节驱动技术和程序驱动技术,则为虚拟数字人提供了直观的交互体验和高度自定义的行为控制。
三、虚拟数字人能做什么?
作为客服代表,虚拟数字人展现出了巨大潜力,它们不仅能提供全天不间断服务,还可以根据用户的情感状态提供个性化服务,在提高服务效率的同时,增强用户体验。
虚拟数字人
在教育领域,虚拟数字人则可“化身”教师或助教,根据学生的学习情况,智能推荐学习内容,甚至在虚拟环境中模拟实验操作,为学生带来更生动直观的学习体验。
例如,北京邮电大学的智慧教室借助“5G+全息投影”技术,将授课老师的三维全息投影人像清晰呈现在教室讲台上,实现了跨校区远程互动教学。同时,教室里配备了人工智能助学机器人,可辅助同学们更好地完成学习任务。
在医疗健康领域,虚拟数字人可以辅助医生进行病情诊断,提供治疗建议,甚至在远程医疗中扮演重要角色,例如,通过模拟手术和解剖,帮助医学生进行实践学习。
虚拟数字人,就像是来自未来的使者,与它的每一次交互都是一次奇妙的“冒险”。在未来,它们将变得更加智能化、个性化,或许会成为我们生活中不可缺少的一部分。