文/VR陀螺 万里
近日,Oculus联合创始人之一Nate Mitchell在Linkedin宣布将加入一家名为Sesame的初创公司,并担任首席产品官。
这一消息引起了业内广泛关注:一是Sesame是业内小有名气的AI初创公司,二是因为这家公司创始成员中“Oculus派系”达2/3,看起来就像是Oculus元老集体再创业。
不过,这一次,他们所瞄准的不再是VR,而是基于AI驱动下的智能眼镜平台。
图源:Sesame
Sesame成立于2023年,如果简单描述,这是一家致力于开发个性化对话式AI以及配套的智能眼镜硬件终端的厂商。
根据网络信息,Sesame团队目前约有50人,企业曾在2023年10月获得A16z所领投的4750万美元A轮融资。
此外,今年3月,有消息传出企业正在谋求2亿美元的新一轮融资,红杉资本以及Spark领投,投后估值将超过10亿美元。只不过由于当时具体交易尚未正式敲定,不排除后续有变化的可能。
图源:网络
Sesame创始团队
从团队成员来看,Sesame无疑具有很高“Oculus含量”。企业共有三名联合创始人:Brendan Iribe(CEO)、Ryan Brown(工程师)以及Ankit Kumar(CTO)。
先来简单看一下Brendan Iribe的简历,他出生于1979年,职业起点是一名游戏程序员,后来创办了游戏界面技术公司Scaleform,后被Autodesk收购。
Iribe于2012年担任Oculus CEO一职,并领导了开发套件、Rift、Quest等产品的开发。他被很多人誉为Oculus商业化的最重要推手,因为他让Oculus初代产品在Kickstarter平台大获成功并且成功主导了Facebook的收购案。
Iribe在2018年离开Facebook,有传言称他辞职的原因在于他倾向于PC VR,但这与Facebook当时的VR一体机战略不一致。
在创办Sesame之前,他曾参与过一些投资以及汽车锦标赛事,如他曾在2023年投资了AR初创公司Brilliant Labs。
Brendan Iribe,图源:网络
Ryan Brown与Oculus同样具有很深的渊源,他曾在2013年加入Oculus并担任硬件架构师,在2019-2023年间,他调往Reality Labs并担任工程总监。
最后一个联合创始人Ankit Kumar曾创办了AR多人在线平台Ubiquity6,并担任CTO一职,该企业于2021年被Discord收购。
Nate Mitchell加盟
这里再介绍一下刚入职的Nate Mitchell的简历:他同为Oculus的联合创始人,也是在Oculus任职时间最长的联合创始人之一,在公司担任了多年VR产品副总裁一职。
2019年,Mitchell宣布离开Facebook,该事件被外界视为Oculus创始团队的终结。2020年,Mitchell创办了游戏工作室Mountaintop Studios并担任CEO一职。工作室曾发布了一款战术设计游戏《Spectre Divide》不过反响平平。
今年6月,Mitchell更新了Linkedin简历并宣布加入Sesame,后续将担任企业的首席产品官一职。他在社交平台上写到,其致力于“帮助让计算机焕发生机,并将与与Brendan Iribe、Ryan Brown以及Oculus的众多原班人马重聚,再次携手共创未来。”
也就是说,Oculus共计有6名联合创始人,Sesame现如今就占据了两席:Brendan Iribe、Nate Mitchell。再说个题外话,Oculus另外四名联合创始人中,Palmer Luckey于2017年创办了国防公司Anduril Industries;Michael Antonov于2022年创办生物技术公司Deep Origin;Andrew Reisse于2013年因车祸不幸离世;Jack McCauley现如今担任加州大学伯克利分校董事会董事一职。也就是说他们均已离开了VR赛道。
Nate Mitchell,图源:网络
从业务布局来看,Sesame是一家试图以软件切入再逐步打通智能眼镜硬件的厂商。关于软件,企业所瞄准的是对标真人的AI语音助手。
至于为何会从语音助手切入,Sesame官网给出过以下解释:
声音是我们人类最亲密的媒介,它通过音调、音高、节奏和情感的无数变化,承载着层层含义。
如今的数字语音助手缺乏真正发挥作用的必要素质。如果不能充分释放语音的力量,它们就无法与我们有效地协作。一个只用平淡语气说话的私人助理,在最初的新鲜感消退后,很难在我们的日常生活中找到一席之地。
Sesame的企业愿景是“让计算机焕发生机”,而团队认为声音会是关键的钥匙所在。在Sesame看来,未来的数字伴侣应该具备解读并回应情感背景(情商)、自然的时间、停顿、打断与强调(对话动态)、调整语气和风格以适应情况(情境意识)以及保持一致的个性四大属性。
今年2月,团队在语音助手方面取得了较大进展,并对外开源了其对话语音模型(CSM)。普通用户也可以基于其官网“https://app.sesame.com/”免费体验企业所开发的Maya以及Miles两大语音助手。
图源:Sesame
Sesame的模型具有以下几大特点:
一、可以联系上下文,因而它可以记住用户的名字、爱好等背景信息;
二、端到端与多模态。与传统的LLM+语音转文本方案不同,它的输入输出由同一神经网络处理,这样的好处在于响应速度更快,并且还能够“理解”用户交流过程中的一些语音语调等文本以外的情绪信息。
笔者近期也体验了一番,总的来看,除了Sesame AI助手不支持中文,网络不太稳定等小问题外,与它对话其实充满了不少惊喜,因为它的响应很快,并且支持打断,就跟与普通人聊天一般,有时候你甚至会感觉它真的带有自己的情绪在里面。
此前团队曾进行过一次主观指标测试:80名受邀者分别对Sesame AI生成语音以及真人录音进行盲听,结果在没有背景信息的情况下误认为AI是真人的比例达到了52.9%;不过,当实验中进一步提供语境信息,误认为AI是真人的比例会降至33.3%。
图源:Sesame
三、Sesame对话模型号称采用了双Transformer架构,主干模型用于理解文本和对话上下文,而解码器是一个小模型,专注于音频输出。
值得一提的是,今年6月,Meta重金挖走了Sesame的机器学习主管Johan Schalkwyk,外界猜测这可能是为了改善Llama大模型的语音和个性化功能体验。
图源:Sesame
关于硬件,Sesame团队并没有公布过太多进展,不过可以肯定的是这是一副智能眼镜,官网表示它“设计为全天佩戴,为您提供高品质音频,并方便与您的同伴一起观察世界。”此外,Sesame官网也在醒目的地方贴出了几张智能眼镜开发图片。
图源:Sesame
从专利来看,目前Google Patent可以搜出企业9条专利,这些专利核心聚焦于眼动追踪、视觉检索,此处略举几例:《使用眼动追踪功能确定注视深度》、《基于眼睑追踪信息监测心理运动表现》、《使用带有共线光源组件的差分相机的跟踪系统》......
其中一项名为《凝视辅助搜索查询》(US20240419721A1)的专利提到,头戴式设备会基于相机捕获图像,并基于眼动相机洞悉用户所注视的区域对图片进行再加工,如用户关注的是桌子上的花瓶,系统会将花瓶截取下来再进行后续检索等操作。
图源:网络
此外,该专利还展示了VR/AR两款产品的简单构造信息,如对于一款眼镜,里面将会集成屏幕、相机、眼动追踪传感器、位置传感器、声学传感器等组件。
值得注意的是,Sesame已经公开的专利大部分来自眼动技术团队Zinn Labs的转让,相关介绍指出,Zinn Labs一直致力于开发注视和注意力追踪技术,以在极小尺寸上实现新型用户界面。今年2月,Zinn Labs团队已经整体并入Sesame。
图源:网络
伴随着6月底Nate Mitchell的加入,企业也开始加大了招聘力度。目前Sesame官网共有14个岗位空缺,硬件相关岗位有6个,涵盖硬件产品经理、电气工程师、嵌入式操作系统架构师、机械工程师等,此举应该是为了加速硬件产品上市所做的准备。
嵌入式系统工程师岗位需求,图源:Sesame
如果横向对比,Sesame的愿景其实跟OpenAI比较类似,基于大模型出发并试图构建AI硬件。此外,两家企业都想要打造科幻电影《Her》里面所呈现的AI智能终端:AI可以与用户亲切交流,并且洞察用户需求。
为了开发硬件,OpenAI曾于今年5月斥资65亿美元收购了前苹果首席设计师Jony Ive的初创公司io,外界猜测OpenAI的新硬件可能是一个类似于iPod shuffle或者AI耳机之类的产品,它内置SLM,没有显示功能,分析师郭明錤表示该产品有可能会在2027年量产。
再来看Sesame,企业已经毫不掩饰表明这是一款智能眼镜,眼动功能会是眼镜的核心之一,暂未明确初代产品是否会搭配屏幕。考虑到当前AI眼镜井喷的市场现状,产品2026年发布会是一个可能性比较大的时间节点。
图源:Sesame
2012年,Oculus创立,其最初愿景是“让每个人都能体验到虚拟现实”。十年后,ChatGPT发布,市场上关注到了基于AI驱动的新的计算时代的广阔前景。Sesame团队在这个背景下成立,愿景也有了很大的不同。
由于Sesame团队具有较强的VR、AR背景,加之团队与Oculus有着很深的渊源,外界不少人都期望它们能在智能眼镜市场开创新的“Oculus时代”。得益于Sesame真实声音驱动的理念,Sesame是否能作为一匹黑马脱颖而出?这值得我们持续关注。
投稿/爆料:tougao@youxituoluo.com
稿件/商务合作: 六六(微信 13138755620)
加入行业交流群:六六(微信 13138755620)
元宇宙数字产业服务平台
下载「陀螺科技」APP,获取前沿深度元宇宙讯息