除了做「爱豆」整活,虚拟人的出路到底在哪?

虚拟人之间看起来很类似,但一直存在着路线之争。

柳夜熙、翎 Ling、AYAYI、A-SOUL、小冰……过去一年,虚拟人越来越多地出现在我们的视野中。

虽然看起来很类似,但虚拟人一直存在着路线之争。像 A-SOUL 就是通过动作捕捉、实时渲染而成的虚拟女团,她们背后都是真人,也就是所谓的「中之人」;也有像小冰这样的纯虚拟人,完全由 AI 生成。

慧夜科技就是一家专注 AI 驱动虚拟人的技术服务商。用创始人渠思源的话来说,AI 驱动虚拟人就是要赋予虚拟人特定的人格,让它可以实时地与人交互。

最近,我们邀请到了慧夜科技的联合创始人 & CEO 渠思源,以及慧夜科技 Pre-A 轮投资人——顺为资本副总裁冯铮,和他们一起聊了聊虚拟人的可能性。

1、AI 驱动的虚拟人和真人动作捕捉,会是互补关系。

2、虚拟人的最大价值是它是虚拟世界的交互方式。

3、过去的虚拟人满足的是娱乐需求,但 AI 驱动的虚拟人背后是服务属性。

4、很多行业的热度都是从反共识逐渐形成共识的,虚拟人行业整体还在一个爬坡的过程中。

01

A Site:创始人说

Founder Park:慧夜科技目前的虚拟人都比较偏向二次元风格,ACG(动漫、漫画、游戏)文化对你产生了什么影响?

渠思源:我们公司的产品支持的美术风格有写实、卡通、二次元等,这个是结合市场需求决定的。

ACG 的影响首先是当你不断沉浸在这些作品里面的时候,你真的会发自内心地相信,未来我们能跟这些虚拟形象在线上线下共存。我也面试过很多人。虽然基本能力很强,但他骨子里对这些东西是不太相信的。

第二点,就是在游戏中免不了被虐,当你卡在某些关卡的时候,你会绞尽脑汁去克服它。久而久之,当你遇到困难的时候,你的第一反应不是躲开,是习惯性去想办法克服它,有一种相对更平常心的心态面对。

Founder Park:你在创立慧夜科技前的经历是怎样的?有什么事情影响到你,从而创立了这家公司吗?

渠思源:我之前在欧洲读商学院。当时看了 Y Combinator 联合创始人保罗·格拉汉姆(Paul Graham)的《黑客与画家》,受到了一种疯狂的鼓舞,觉得用技术解决一个需求是一件很酷的事。

于是就在边学代码边开发产品的过程中,做了一个跨境购物物流订单追踪系统。我们当时花了一年左右的时间做了过亿元的营收,后来被国内的平台方收购了。

回国之后加入了一家 3D 打印领域的创业公司——清锋时代,做到了垂直领域的第一名。我是这家公司的 1 号员工。在 B 轮融到 3000 万美元的时候,我出来创立了慧夜科技。

而创立慧夜科技的契机,我在和公司的联创 CTO 步宇玩一款叫做《古剑奇谭》的游戏的时候。当时我们发现里面主角的口型和声音对不上,所以我们当时讨论能不能用 Deep Learning(深度学习)方法做口型的生成。

我们最开始在清华旁边公寓里面办公,我和步宇还有四个实习生,找到了追光动画,他们对技术有追求,愿意尝试新技术,并且提供口型和音频的数据给我们用。于是我们就做了一些尝试,结果比我们的预期还要好。

这件事给我们提供了一个抓手,验证了声音和口型这件事。之后我们又慢慢积累技术能力、推出自己的产品。到 2020 年之后,我们正式以公司的形式运转,一路走到今天。

Founder Park:最初决定进入虚拟人行业的时候,你看到了怎样的机会?当时对这个行业的洞察是什么?

渠思源:我觉得有两方面,一方面是虚拟人行业的发展趋势,另一方面是供给侧和需求侧的变化。

从发展趋势来说,我们当时划定了所谓的虚拟人 1.0、2.0、3.0。

我们认为当时的虚拟人是 1.0 的虚拟人,借助当下的 Blender、3ds Max、Maya 等软件能够完成数字人内容制作,输出定制化图片和视频。

那接下来它会往什么方向演进?我们想 2.0 的虚拟人最核心的特性,就是有更完整的交互。有交互就要有输入、输出,有处理这些信息的系统。输入包括用摄像头捕捉你的情绪、语音以及文字,包括自然语言的处理和决策系统。

再往后我们又推想了一步,3.0 的虚拟人是怎样的?我们当时给了一个定义叫个性化。就是虚拟人不应该是千篇一律的,它会有不同的形象,有自己个性化的表达。

这是我们一直以来的思考路线。我们的愿景就是在未来让数以亿计的虚拟人以机器人的形式服务我们。

另一方面是我们从需求侧看到,虚拟人慢慢从动漫游戏行业破圈到了其它行业。很多品牌都会推出自己的虚拟形象代言人,变成虚拟的讲解员、模特、健身教练甚至心理医生。并且不光是需求方的广度在不断扩大,他们在对内容制作和互动深度的要求也越来越明显。

还有一个就是供给侧,我们通过 AI 技术为数字人提供完整的解决方案,提升效率并且能够降低门槛,未来不止 B 端用户,数字人进入每个人的生活也成为了可能。

Founder Park:从你的判断来说,从 2.0 过渡到 3.0 需要多久?

渠思源:目前的想法的话,大概是 3-5 年。

Founder Park:这中间的核心挑战会是什么?

渠思源:核心挑战分两块,一个是技术上的挑战,另一个是产品定义的问题。

技术上,我们现在需要解决的问题还有很多。包括动作的精细程度、表情的自然程度、渲染的速度;自然语言的处理等,还是有一些技术问题需要解决。

另一个挑战就是产品定义。当数字人完成任务的时候,我们应该用怎样的方式交互,是能比真人的体验更好的?传统企业服务客户的时候,最早是网页的形式,之后是用 App 或者小程序来传递信息。当未来企业用虚拟人去完成这些服务的时候,具体的方式是什么?其实还是需要做很多探索来完成这个定义。

《雨人》电影剧照慧夜科技旗下虚拟人物 | 来源:慧夜科技

Founder Park:现在虚拟人还有一个分支就是真人动作捕捉。如果说 AI 驱动的虚拟人是未来的话,它会取代真人动捕吗?

渠思源:我觉得这两种是互补关系。

从需求来看,第一类需求相当于我有一个剧本,需要演员把它表演出来,那真人动捕就更合适。

但如果我需要的是一个规模化的服务,比如一个 24 小时的点餐员,那 AI 虚拟人显然是更合适的。

我坚信未来使用更多的是 AI 驱动的虚拟人。但如果是一些对精度要求和剧本定制化要求比较高的情况,依然会使用真人动捕。这两种形态应该是并存的。

Founder Park:AI 虚拟人是如何提升一些应用场景的效率的,可以给我们举个例子吗?

渠思源:比如在舞蹈表演这个场景。如果是制作 1 小时动画的话,一名动画师 1 天的产能大概是 7-10 秒。一个小时的动画就需要 10 名左右的动画师一个月的时间。

如果采用动作捕捉的话,需要找到一个会这段表演的演员对着这一小时内容排练好,然后找到场地捕捉动作,再进入后期的修补。整个流程最快大概是一周时间。

但对我们来说,输入这段音乐之后,可以实时生成内容,所见即所得。所以在效率上,还是有一个质的提升。

Founder Park:现在虚拟人另一个特别流行的方向就是所谓的超写实,但慧夜科技似乎还是更偏动漫风格。你会怎么看超写实?它会成为下一个虚拟人的竞争核心吗?

渠思源:我们之前的案例确实比较偏二次元,但我们并不是一个二次元公司,我们会兼容超写实虚拟人。包括今年我们的很多客户,像宝马、百丽等,都在和他们合作超写实虚拟人。

但我并不认为未来只会有超写实一种风格。我觉得虚拟世界的最大意义,就是它承载人类的的想象力,这个想象肯定是千奇百怪的。它可能是超写实,也可能是卡通或者其他风格。我们需要做的是兼容各种美术风格在里面发生。

Founder Park:慧夜科技比较典型的客户使用场景是什么?

渠思源:我们目前产品还是针对 ToB 领域,主要的客户有两块。

第一块以品牌方为主,包括服装鞋帽、汽车日化,以及一些珠宝品牌。他们希望通过我们的端到端的数字人产品,打造一个属于自己并且能长期驱动的形象。

第二块是互联网公司,包括大厂和创业公司,想把原来 2D 的交互方式 3D 化,例如我们音乐场景,用户输入各种音乐后能伴随 3D Avatar 的舞蹈表达。

还有一些偏探索型的业务,比如游戏公司,我们尝试类似《底特律:变人》或者《Sleep No More》的虚拟体验中,提供 AI NPC,带给用户更丰富的体验。

Founder Park:会担心大厂的竞争吗?你觉得慧夜科技的竞争壁垒是什么?

渠思源:大厂就在那里,我们也会继续野蛮生长,并不担心大厂的竞争。

我觉得我们的竞争壁垒有三点。

首先是对行业的认知。包括行业趋势、行业内问题、我们主要解决方向。认知会影响我们战略选择,服务的用户定位,公司节奏从技术验证期过渡到 go-to-market(产品进入市场策略)发展期,以及对应每个阶段的目标。一直在行业里面进化自己的认知。

第二是在技术上,从算法端到数据端,公司发展的过程中我们已经产生了一些实际可量化的壁垒。

第三块是产品迭代速度。我们尝试了各种方向,一直保持着最小的产品迭代和最快商业化探索的可能性。

Founder Park:慧夜科技现在做了哪些产品?

渠思源:我们正在做一个叫做雪浪纸(Snowave)的 web 端数字人产品,大概会在今年和大家见面,早期会以 B 端用户为主。

Founder Park:作为一个 90 后的创始人,你会怎么定义一个优秀人才应该具备的特质?

渠思源:首先要具备岗位上的职业技能。

其次在个性上,我希望 TA 是一个聪明乐观、皮实、自省的个性,这是我心中好人才的基本标准。

另外站在公司的立场上,有两点也很重要。

第一点就是价值观上, TA 真正相信我们公司正在做的事情。

第二点是 TA 能够站在一个相对更高层面上,理解公司在做的产品的需求。这一点听起来简单,但很多背景很好的人,他们理解了自己工作的需求,却没有办法为整个团队产出的结果负责。这需要有一个完整的宏观理解能力,也是我们在寻找的优秀人才应该具备的品质。

Founder Park:慧夜科技未来一段时间的规划是什么?

渠思源:近期的话,我们肯定是希望尽快推出 Web 端的产品,交付给我们的用户使用。长期的话,运用 AI 技术为数字人提供完整的解决方案。

02

B Site:投资人说

Founder Park:你之前给慧夜科技下过这样一个判断,说慧夜科技是这个领域非常前沿和稀缺的团队。为什么会这么判断?

冯铮:其实顺为资本看这个方向比较早。当时我们有一个判断,虚拟人的最大价值就是它是虚拟世界的交互方式。

在有了这样一个判断之后,我们发现市面上的大部分虚拟人技术公司其实做的是动作捕捉的生意,类似 A-SOUL 这样的场景。虽然我也很喜欢看,但是从投资的角度说,我们更希望看到的是用技术驱动的虚拟人,在虚拟世界里像机器人一样给人类服务的公司。在这个维度上,我们看了很久都没有找到合适的标的。

所以看到慧夜的时候,真的是眼前一亮。包括思源上一家工作的公司本质是做 3D 的,另一位联合创始人也是图形学的背景,和虚拟人这个方向都非常匹配。

Founder Park:从个人的角度来说,慧夜科技有什么打动你的点?

冯铮:因为这个产业的投资周期非常长,所以我首先会看创始人的愿景是怎样的,至少要给我震撼。如果创始人的认知是一个比较长期的方向,就是一个极大的加分项。

另外就是做一个长期的事情需要非常坚定的信念。

我印象特别深,当时是我做完慧夜 DD(尽职调查)后第二天请思源吃饭。当时我跟他说,我觉得你这个东西没法落地,不是一个能够规模化的生意。

思源听完后没有辩解,他就直接看着我说:对,我们就是想验证一下自己的技术是不是真的能够从运动角度去驱动形象。我知道我们这只是刚开始。

那个时候我就觉得思源认知非常清晰,而且也很坚定,给我留下了非常强的印象。

Founder Park:其实虚拟人不是一个新概念。我们现在讨论的虚拟人,和之前的虚拟人有什么区别?

冯铮:其实过去的虚拟人有两类,一类是初音未来、包括沿袭下来的柳夜熙这种偏表演的虚拟人。另一类是游戏里的虚拟 NPC。

如果说最大的区别是什么?我觉得过去的虚拟人本质上满足的是娱乐的需求,但我们今天讨论的虚拟人背后是一个服务属性。比如今年的 GTC 大会上,英伟达就展示了它的虚拟人在做餐厅的点餐员和自动驾驶汽车的助手。这些虚拟人服务的是我们的真实需求,靠的是服务用户赚钱。

另外一点是背后的技术也产生了区别。 基于娱乐的虚拟人背后是 CG 特效,但是当一个虚拟人要服务你的时候,就一定有实时交互,就需要借助 AI。

还有很重要的一点就是,今天看起来服务型虚拟人没有那么刚需,你在餐厅并不一定需要一个虚拟人帮你点菜。但如果未来以 VR、AR 为代表的下一代设备普及的话,虚拟人一定会成为那个空间里的刚需。这是这个行业一个巨大的长期价值。

Founder Park:从投资人的角度来说,你是如何看待虚拟人赛道的这种「由冷转热」的?

冯铮:其实对于投资人来说,很多时候是孤独的。就是在我觉得这个赛道很好的时候,大众往往还没意识到。

在元宇宙概念起来之后,虚拟人的热度也逐渐起来了,因为市场的认知慢慢跟上了。大家开始朦胧的意识到,虚拟人是元宇宙很重要的一部分。

到了去年下半年,就能看到很多 A 股的元宇宙研究报告里,会有很大篇幅在讲虚拟人。但大家今天更多讨论的还只是作为虚拟偶像的虚拟人。所以我觉得这个认知还在逐渐形成过程中。

其实很多行业的热度,都是从反共识逐渐形成共识的。所以我觉得虚拟人行业整体还在一个爬坡的过程中。

Founder Park:你会怎么看超写实风格的虚拟人?

冯铮:我觉得任何一个新技术出来,都应该用原生的思维去思考它。就是要扬长避短,把它的好处用到极致,规避它的劣势。

但我们人类会有一种趋势,就是看到新技术,第一反应往往是能不能用它去复刻老的体验,这种尝试通常是不成功的。

今天我们看到虚拟技术,就想复刻一个真人。但当你真的去做的时候,会发现造一个和真人一样的虚拟人,技术代价是极高的。结合刚刚说的用虚拟人提供服务,这个成本就更高了。

所以我个人认为,做一个和真人一样的虚拟人,意义不大。

Founder Park:你觉得哪些虚拟人公司可以更快地跑出来?

冯铮:大家可能首先会觉得是 AI 背景的公司。他们会特别强调技术的创新,比如一上来就去做能跟人情感交流的虚拟人。我个人觉得这件事挺难的,在过往也没有成功案例。

我认为能更快跑出来的公司应该具备三个能力。

第一是 AI 的能力。它是一个基础能力,但不应该是唯一的能力。

第二是做 3D 内容的能力。这个能力其实是比较稀缺的,因为这种能力往往掌握在游戏公司手里,并没有大量的人才出现在虚拟人的创业市场上。

第三个能力是对行业的理解,也就是所谓的定义产品的能力。

这三个能力结合起来,才会是一个完整的好团队。但这其实对团队的要求非常高。我个人更偏向的公司,是能够在产品方向上创新,在产品和用户的需求驱动下再去找相应的技术创新的公司。

Founder Park:作为渠思源的投资人,你有什么想提醒他的吗?

冯铮:我觉得首先是专注,因为诱惑很多,还是要朝着长期有价值的方向做事。

第二是落地,能够在长期的愿景下不断找到应用场景。

同时很重要的就是挣到钱,这对各方面来说都是很好的正反馈。

Foudner Park:我理解虚拟人背后其实可能是虚拟内容正在快速崛起,你觉得这中间还有什么样的创业机会?

冯铮:以后每个行业的人可能会根据自己对行业的理解去做垂直的虚拟人。有时我会开玩笑说今天的 App 将来都会变成虚拟人,但可能不是今天这些类别的 App。至于会是什么,也是我特别期待的一件事。

另外一块,我们也投了一些虚拟体验的公司,比如会议、音乐会等各种各样的场景。他们的产品看起来像游戏,但目的是解决生活中的一些问题,赚的是提供服务的钱。

还有就是这些虚拟人、虚拟场景的基础设施,比如 3D 内容的生成。这里面有一些看起来没那么大、但也很不错的机会。

猜你喜欢