360集团孙浩:大模型重新定义儿童手表
发布时间:2024-08-13 21:54 浏览量:14
2024年7月27日,第三届超声波俱乐部AI Open Day“2024垂直引爆:AI教育引领AI应用大爆发”在北京360总部成功举办。本次峰会聚焦AI教育领域,二百余名教育与AI领域的创始人,投资人,知名教育集团的创始人、CTO、AI负责人等现场出席。
360智慧生活集团副总裁孙浩进行了一场精彩的分享,以下为孙浩的分享整理:
主题:大模型重新定义儿童手表
嘉宾:孙浩 360智慧生活集团副总裁
7月8日,我们发布了全球首款搭载大模型的儿童手表——360儿童手表A9 AI红衣版。发布会后,我对怎样看待新技术、新产品,以及对外的公众表达方面,有了很多新的感悟。今天来的都是行业内的朋友,我想把一些偏技术和产品的内容以及背后的故事稍微展开讲讲。
周总之前做过预测,2023年是基础大模型突飞猛进的一年。去年大家都在卷大模型,我们的一个工作重点是做多模态的视觉大模型,并发布了360的视觉大模型,战略聚焦也更多的是在安防上。
多年来,我一直围绕硬件和AI的结合进行探索,手表是其中一个场景。总的来说,这些年做产品属于越做越自闭的类型,尤其硬件这两年在创投圈比较冷淡,而大模型已经千模大战、万模大战。做大模型的门槛非常低,尤其是以Llama为代表的大模型开源后,出现了一堆Agent的创业公司。
接着,很多公司进行了大模型+智能硬件的尝试,但每个硬件都有自身的定位,在没有达到对应的技术或场景积累的时候,不要硬拔它。做一个硬件就能够彻底颠覆某一个品类的预期太高了,但换到很多垂直场景里可能会完全不一样。把现有的能力增强以后,一样能够取得非常好的效果。
当然,我们也在反思两个问题。第一,大模型需要什么硬件?第二,我们是否又盲目地说做了一个革命性的智能硬件?世界上这种革命性的机会一定有,但往往是极其稀缺的,不可能随便做一个就能颠覆一个产业,更多的还是要找准这个场景的真实需求,把这个场景限定好,把这个场景里面限定的功能做齐,再有了大模型这样一个强有力的工具之后,能切实解决一些问题,这才是合理的。
AI是不是会取代人类?我们认为,在整个大模型技术不可逆转的今天,更明确的观点是:会使用AI工具的人会取代不会使用的人。所以,如果00后是互联网原住民,那么现在的孩子就是大模型的原住民。
这也带来了新的焦虑:未来大模型技术不断发展的情况下,这批原住民真正步入社会的时候,给他们的空间还有哪些?我们希望手表能作为一个切入点,让孩子在和大模型的交互过程中,学会探索世界并激发好奇心。
为了做好产品,我们一直考虑的是,如何在孩子的成长过程中将技术有温度地结合,给孩子打造一个强大有耐心的AI伙伴,能够伴随他成长,引导他持续地学习向上。
从2014年360在行业内首创儿童手表这一新品类开始,我们的核心定位逐渐从安全转到沟通,直至今天进入大模型时代。
2016年,我接到了做一款革命性的儿童手表的任务,当时无知者无畏,对儿童手表的基本认知是:这是孩子唯一的通讯设备,本质上是孩子的小手机。但那时候很多儿童手表的产品都做了一个低龄化的外观,比如有对小耳朵,甚至连正常的屏幕都没有。大家会天然从成年人的视角出发,觉得小孩就应该用一个非常低幼的卡通化的东西。
可调研发现并非如此,7岁是孩子很重要的时间节点,孩子7岁以前独立意识很弱,7岁以后独立意识增强。我们认为反正都是孩子,但实际上有很多细分在。我当时的认知就是儿童手表需要在一定程度上成人化,起码在硬件配置和形态上需要成人化。现在来看,那时的认知是成立的。
2016年做这款手表的时候当然没有普通手表那么成人化的外观,但功能已经相对多样化了,其中第一个核心的功能就是语音交互。因为我们判断儿童手表上如果出现杀手级的应用,那第一个肯定是语音交互类的应用。当时我们面临的挑战是怎样把语音交互面向孩子的场景做好。
虽然当时很多语音助手呈现出来的是科技感,但我第一天做儿童手表上语音交互功能的时候,拒绝给用户呈现任何生硬的科技感。手表上屏幕一滑,跳出来的是一只可爱的宠物形象,叫巴迪龙——这个形象一直保留到现在。巴迪龙会吃饭、跑步,还可以升级等等,我们给它运营了很多有趣的动作。
受限于传统的语音处理技术,我们遇到了非常多的挑战。比如做一些兜底回答的时候,我们最常见的兜底回答是:“抱歉这个问题我不会,你可以问一下你的爸爸妈妈。”但如果总是给孩子说这个,孩子会感觉很无趣。所以我们也做了一些新的尝试,比如“哼,你今天的话怎么这么多,你是个话痨吗?”这种方式反而更能激发孩子的沟通欲望。
后台的数据显示,和巴迪龙的互动已经是用户最常用的功能了,而不是打电话或者给妈妈发消息。78%的用户每天会用巴迪龙、跟巴迪龙对话。平均每天能到20轮以上,15分钟以上;周末节假日能到30轮以上,30分钟以上。从发布到现在我们服务端已经超过了50亿次的调用,那么多年来即使没有大模型我们也一直在做这个事情。
另外,我们做了很多小功能,比如巴迪龙不会的部分会在家长端生成问题记录,我们的预期是家长能够知道孩子对什么信息好奇,然后在跟孩子沟通的时候告诉他。
其中有一个案例令我印象深刻。一位单身父亲曾向我们发了一个巴迪龙不会的问题记录截图:爸爸妈妈离婚了我该怎么办?原来这个父亲认为,给孩子买最好的东西,让孩子用到最新最酷的数码设备就是对孩子好,但是实际上缺失了对孩子内心的关怀。此事对他产生了触动和反思,我也第一次察觉到这一功能背后蕴藏的温度。
后来,为了使巴迪龙更具个性化,我们尝试做了一些生成式的聊天算法,但也踩了许多坑。首先由于技术局限,我们只能精准地去找一些问答去做训练,比如论坛里的对话,但要花很大力气去清洗数据。清洗完后,发现生成的内容还是不可控,于是我们又做了一些限制性的问答,同样花费大量人力,清洗出一个干净的语料库后再做训练。结果这样下来,整个聊天会变得很无趣。我们不断地在尺度和安全性之间反复徘徊,所以当时做到最后,我们还是去掉了生成式闲聊这个功能。
但是,孩子本身说话经常没有逻辑性,他们的很多问题也是偏娱乐性的,对答案的预期要求没那么高,所以生成式闲聊功能一直以来也深受孩子的欢迎。
去年大模型火了之后,我们发现机会来了。但问题也随之而来,核心是幻觉问题,如果没有检索增强或图谱类的技术,这种幻觉问题会持续存在。比如我们之前用的ASR技术,都是三段式的,先要ASR转文本。这样就很受局限,哪怕你的知识库匹配的是对的,但它前头的ASR识别不出来你也没办法。但今天,大模型有很好的输入的冗余能力,即使它输错了,一样能够很好地去理解回答,有了很大提升。
另外,现在大模型的上下文窗口对于一个聊天应用来说,也足够把上下文串起来了。以前没办法真正做到跨场景的多轮聊天,但孩子跟它聊15到20轮的时候,它也能够串起来,之前一直困扰我们的聊天功能终于实现了质的飞跃。
但我们仍然很慎重,担心幻觉问题的出现,比如大模型可能会说“风吹草低见牛羊”是杜甫写的。于是我们没有着急抢概念,而是认认真真做了八九个月的时间,慎重地做一些探索。
我们目前的儿童手表,严格来说有一个系统级的入口,这个入口还是巴迪龙。孩子有一个伙伴的形象,就会愿意去跟它沟通交互。
巴迪龙有它自己的人格,背后是统一的基座大模型360智脑。因为是内部团队,合作起来比较顺畅,整体还是基于智脑来做。后面我们也会渐渐开放,并不要求一定是智脑,我们基于智脑做好意图的分发。如果有一些比较好的三方场景应用,我们分发也会用外部的大模型,并不完全局限在智脑,但作为一个基座大模型串起所有功能。
因为你上了云助手,传统的通过语义处理的实现或订闹钟、查天气,一些本地的功能操作还是要在的,包括一些细分场景,写作文这些东西,调不同的功能,所以说也有一套针对手表上的专用的Agent。
最后,为使聊天功能有组织有逻辑地呈现,并突出显性卖点, 我们包装了9个场景,有类似于英语老师、语音老师,孙悟空、爱因斯坦这样一些角色的形象呈现。我们通过预设的prompt和一些数据的微调对齐,尝试做了一些孩子的核心场景。
我们给手表的定义就是一个随身携带、偶尔问一句的伙伴,它并不是一个老师,而是一个助手。随身陪伴、随身携带是它最大的优势。
我们的基本思路不是说在手表上装一个360智脑的APP,而是通过底层的技术做一个AI-Native的实现,围绕孩子的生活学习场景,把语言模型、视觉模型结合好,揉到一个场景里,解决孩子的一些问题。
例如爱因斯坦的相对论怎么解释给孩子,我们花了很大的精力让它去做总结做抽象,保证把它的字数压下来,可以几句话就把核心的东西说出来,不求全,但求简单,让孩子能听得进去。
其实孩子没有人盯着,很难自觉学习。所以我们的核心还是将一些日常的场景和教育的需求融合起来。比如我们的手表上有多模态大模型,手表可以拍照,拍完照之后它就会把这个照片描述出来,还能生成对应的英语,也可以针对这个照片做一些问答。
孩子在探索的过程中满足好奇心,又顺带学到知识,是我们希望手表扮演的角色。我们发现,很多时候孩子会用手表问作业,但我们始终坚持的一个原则是,给思路要比给答案重要,给素材要比给结果更好。
比如孩子问怎么写一个苏州的作文,它会告诉你写作思路,要怎么打头,怎么写中间,怎么结尾,给他几个参考的素材,最后给他一些参考的标题,让孩子自己去组织,可能80%的东西已经给出来了,但它是零散的,孩子在组织的过程中也会自主思考,而不是盲目去抄,这就是我们在教育功能上的思考和体现。
既然孩子没有那么强的自律力,那么我们的思路就是抓住他有限的问问题的机会。但凡他主动问一次,就不要把这次机会浪费了,要举一反三,不断延展给他塞更多的东西进去。因为手表这个形态,本身占用的就是孩子的碎片时间,很难强制孩子对着手表做系统化学习,所以怎样把这些碎片时间利用好,是做这个产品的核心。
视觉大模型能展示出它的认知能力,知道某个图片的笑点在哪里。但在实际生活中,我们很难找到一个人对着图片问问题的场景。我们在安防场景里面应用多模态大模型,有设定好的程序,对每个店铺巡检的图片,自动问问题打分出来。但儿童场景的核心,就是为了满足孩子的好奇心。
如何保持孩子的好奇心不被磨灭呢?是及时正向的反馈。所以,去年我做的多模态视觉大模型就派上了用场,我们把对图像问答的场景放到手表里面,孩子看任何一个东西觉得不理解的或者想知道什么问题,都可以直接拍照。比如孩子去一些名胜古迹,或者看到一些花草,问这是什么的时候,大模型会结合相应的知识告诉他。做这个功能的核心目的,是满足孩子好奇心的场景,这具有非常大的价值。
虽然我们做了大语言模型的问答,也做了多模态视觉的理解,但更成熟的一个技术是AIGC,通过语言文字来生成图像。以Stable Diffusion、Midjourney的文生图工具在过去一年发展迅速,已经广泛地应用到很多创作场景,但是往往需要复杂的提示词,像咒语一样。
现在还有很多人做Agent,去生成Midjourney的咒语。而我们做的,是把科技隐藏起来,所以做了很多后台的工作,都是为了让孩子专注描述他想要的东西。孩子随便说一句话,就能生成图片。我们也在思考怎样引导孩子,一定程度上孩子要发挥想象,然后通过交互来训练和延展自己的想象力。
孩子们追求个性张扬,会把生成的图片用做头像,而成本也远超我们预期,因为他们换头像特别频繁。现在画图的成本是比较高的,后台发现每个孩子平均一天换头像7、8次,这导致我们服务端的成本飙升,原来认为一年的成本可能是40多块,目前最新的数据统计下来,一年服务器成本会到70多块。
安全方面,孩子私下聊的内容涉及到一些危险想法的,或者有安全风险的,我们也在做一些防范行动。我们和一些机构有合作,针对孩子常见的心理问题做了定义,然后用大模型根据对话记录做一些区分和识别。像孩子提到的父母离婚问题,及某些相对危险的点是可以告诉家长的,能够对于孩子有及时的干预和关怀,这是一个前沿性的探索。
文生图方面也是如此,我们以模制模,以大模型来制衡大模型,专门训练了一个图像审查的大模型。手表原来通过定位、沟通等守护物理世界安全,现在通过大模型技术,能够给孩子提供安全的内容交流。
大模型儿童手表能够真正实现听得懂、看得懂、问不倒、讲得清,做到实时响应解决困难和需求,但不能取代家长对孩子的照顾或取代老师,让孩子教育平权,这又拔得太高了。有一个能够随时呼叫出来的小伙伴给他很好地解决困难和需求,这就够了。
一个新的技术一定会带来一个行业革新的机会,但是很多时候一些传统的商业规则必须得遵守。我们说大模型的出现是工业革命,但是工业革命本身是一个很缓慢的过程,不可能寄希望于一个技术,忽视现在一些产品硬件的设计,忽视人家前期的渠道积累和品牌宣传。让用户能够快速认知、快速突破,这个也不现实。
我们一定程度上更多的是把功利心藏起来,就想着这个技术来了,能不能带着敬畏之心踏踏实实地把之前没做好的功能做好,给孩子的成长带来更多的帮助,这才是我们真正在乎的东西。
孙浩
360智慧生活集团副总裁
峰会现场
超声波俱乐部目前拥有超过300位AI领域的顶级创业者,连接超过2000位AI领域的创始人、CTO、产品经理、风险投资人。
超声波俱乐部定期组织成员开展内部分享会,也会举办不定期的开放交流活动,分享内容涵盖AI行业趋势、技术创新、产品及商业等方向。