开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口

开云体育多模态和 AI 连合之后-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口

发布日期:2026-04-03 06:14    点击次数:160

开云体育多模态和 AI 连合之后-开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口

出品|虎嗅科技组

作家|陈伊凡

剪辑|苗正卿

头图|AI生成

“AI原生100”是虎嗅科技组推出针对AI原生立异栏目,这是本系列的第「48」篇著述。

“一个好的 AI 原生硬件,如果拿掉 AI,一定是个极端蠢的硬件。”

这句话,黄勇说过不啻一次。

这是一个行业里险些莫得东说念主确凿想明晰的问题:作念一款AI原生的硬件,究竟应该从那边启动?大大量团队的谜底是从硬件启动,先把开荒作念出来,再往里叠 AI 智商。黄勇认为这是错的,他说硬件不是容器,是躯体,先界说一个智能体,再为这个智能体造一个形体。两者不可分割,分割了就作念不出好东西。

想明晰之后,他我方下场了。

2025年,黄勇创立奇朵,作念了一台面向6到12岁儿童的科学相机。先是作念了一个智能体,相机仅仅承载的躯体。

在此之前,他有另一个身份。

黄勇本东说念主 相片由奇朵提供

行业里叫他“帮主”。珠三角的儿童硬件圈子,凡是有东说念主在家具上卡住了,会开车来找他;哪家辞书笔体验歪了,哪家故事机内容结构有问题,谁的点读家具在交互上出了岔子……他齐见过、齐帮过。岑岭期,他一年通过 API license 装进接近两千万台开荒,隐敝儿童硬件险些统共的品类。黄勇我方,即是中国硬件生态的横截面。

这是黄勇第一次袭取这样的深度交流,他谈话带着南边口音,语速不快,SDK、RAG、蜂窝模组、SOC资本……这些词张口就来,但落地神志像是在把玩一个乐高或是魔方,硬件在他嘴里从来不是一个举座,是可以终止、替换、从头咬合的东西,终末达到性能、外不雅和资本的最大条约数,这是辞天下供应链中心反复西宾出来的话语体系。

“当你读一册书读10年,你详情要成精了。”

黄勇遴荐这个时机下场,AI 硬件的淆乱给了他原理。

大模子干与快速落地阶段之后,华强北的感觉素来聪敏。AI 音箱、AI 学习机、AI 眼镜、AI 陪同机器东说念主,最快的团队从立项到出货不跳动三个月。客岁 CES,满场齐是中国 AI 硬件公司,有东说念主说那届 CES 其实是中国公司的主场。创投圈同步甘愿,带“AI”的硬件 BP 拿到融资的速率,比任何时候齐快。

但大大量逻辑不谋而合:找一个熟练品类,塞进一个大模子对话进口,加上语音交互,包装成“AI native”出货。硬件照旧阿谁硬件,仅仅多了一个可以聊天的功能。黄勇认为,这是上一代的逻辑,仅仅换了一件新一稔。

为了践行他清楚的AI原生硬件,黄勇以致重塑组织。

传统儿童硬件产业单干是按专科切割的:作念内容的作念内容,作念 AI 的作念 AI,作念硬件的作念硬件,三条线各自上前,终末拼在一齐,这套单干在工业化期间是有收尾的。AI期间,智能体即是内容自己,硬件是智能体的躯体,是一枚硬币的正反两面。把它拆成三个部门去作念,作念出来的一定是割裂的东西。

是以奇朵从第一天起,把这三件事放在合并张桌子上。

他的团队把“十万个为什么”常识库从10万条膨胀到百万级,隐敝6到12岁孩子99%的百科类问题,西宾出“小K淳厚”这个智能体。之是以是相机:这个智能体的中枢智商是多模态领会,它需要看见天下,相机是最当然的感知进口;同期,黄勇把奇朵的家具线筹算成一条沿影像延长的分龄矩阵——3岁前是 baby monitor,3到6岁是AI领会发蒙卡,6到12岁是科学相机,12岁以上是类大疆 Pocket 3 的 DV。

然后,他启动减法。莫得触摸屏,莫得 APP 格子,几个物理大键。好意思颜和贴纸功能,作念了,其后全部砍掉——小一又友根柢不追求这个。

回味,随机候就藏在你敢去掉什么里面。

还有一个更大的判断。往时十多年,iPhone 把 CD 机、Walkman、数码相机全部长入了进去,大大量浪掷电子品类在这个经过里隐没或萎缩。这在行业里留住了一种惯性:作念硬件即是在跟手机博弈,胜算迷茫。

黄勇的判断是反向的,他认为接下来会有一个“拆手机”的经过。因为 AI 原生体验的界说,手机里 APP 已毕的功能正在被从头硬件化。每个垂直硬件在某个特定场景上启动优于手机。当越来越多的功能被“硬化”,手机可能弱化为稠密硬件中的一员,退化成一个随身算力中心。

每个垂直硬件在某个点上优于手机,手机里的 APP 会逐渐被硬化,最终手机可能仅仅稠密硬件中的一员,弱化为一个随身算力。

奇朵开发不到一年,就完成了两轮融资。

趋势在,团队在,供应链在,全球化的合规壁垒也搭起来了。天时地利东说念主和,他认为齐具备了。

被问到如果有一天奇朵失败了,原因会是什么,他停了一下。

“这个……不好说。可能是命不好吧。”

“新一代硬件,是围绕智能体筹算硬件形态”

虎嗅:你其时为什么想要切入这样卷的儿童 AI 表示这个赛说念?

黄勇:咱们一直在表示和儿童硬件行业里作念,看到这块趋势在逐渐起来。儿童家具,内容上不管是文籍、APP 照旧智能硬件,齐是内容作品。

但当今,跟着新一代原生 AI 东说念主群的崛起,在硬件形态里浪掷内容的比重会越来越大。多模态和 AI 连合之后,咱们打造的“十万个为什么”IP,传统上是一册文籍,当今这台相机把它变成了一种 AI 驱动的、带启发性的多模态文籍。这种新的内容形态,会进一步开脱儿童硬件的市集需求。

 

虎嗅:为什么遴荐相机看成承载,有莫得接头过其他硬件形态?

黄勇:我照旧从儿童视角启程,眼镜跟儿童的连合我锤真金不怕火过,最大问题是分量,当今最轻49g,小一又友不成跳动29g,否则鼻子塌了,家长要怪咱们。

机器狗是我一直在想的标的。我跑到机器狗公司去交流,他们挺成心思意思。他们当今作念的狗腿相比长,是为了搪塞多样地形,但儿童版的机器小狗腿要小小的,上楼梯让孩子抱一下就好了。这个小狗比相机生命力大多了。我跟他说,优化一下结构作念到零卖价5000,一年卖一两万台是可能的。

虎嗅:需要去作念一些表示供应链的事情吗?

黄勇:1.0 阶段咱们先把智能体装进熟练品类,以复用现存供应链为主,只在录像头这类要道模块上有针对性地强化。跟着智能体深刻,需求就会超出现存供应链——比如救援暗拍的微型模组,当今市集上根柢莫得,监控类的大玻璃镜头体积不行。这时候就需要去构筑新的供应链,这既是挑战,亦然壁垒。

虎嗅:为什么遴荐12岁以下这个年齿段?学龄前儿童类硬件仍是有好多在跑了。

黄勇: AI 之前,硬件是内容的容器,接下来,儿童硬件一定会变成智能体的躯体,而智能体自己即是内容。行业在发生两个根柢变化:内容形态从图文、音频、多媒体,演变到智能体形态;硬件舒缓器变成躯体。这是一个重塑通盘家具和产业形态的结构性契机,是以我切进来了。许多作念的可以的儿童硬件家具,照旧上一代的家具逻辑。

虎嗅:“上一代的家具逻辑”是什么?

黄勇:新一代原生硬件,内容是,硬件是智能体的躯体,智能体即是内容自己。上一代硬件是在传统工业化单干下,单干作念出了一个拼装品。

虎嗅:你若何清楚AI原生硬件?

黄勇:我的清楚有四个头绪。

第一,硬件是由智能体驱动产生的。你拿到这台相机,它的内容不是装内容,而是智能体,然后这个智能体需要一个相机看成躯体来抒发,相机的每一个筹算齐是为了让这个躯体更好地弘扬作用。拿掉这个智能体,它就不开发了,即是个平方相机。

第二,当然的多模态交互。

第三,主动感知。跟着感知器件增多和长久悲伤集合,它会主动说:“昨天咱们聊的阿谁,今天来这里可以实地望望。”

第四,捏续迭代的躯体。当今是相机,下一版可能救援微光拍摄,再往后也许会变成一只机器小狗,带着孩子去探索。

 

虎嗅:儿童是一个粘性很低的群体,咫尺似乎莫得一款从3岁到12岁的儿童硬件家具?你认为你要作念第一个吃螃蟹的东说念主吗?照旧这自己即是一个伪命题?

黄勇:每个年齿段的变化极端大,小一又友早期以月龄变化,其后以年齿变化,和成年东说念主那种领会相识的情状全齐不同,一个手机通杀不了。

 

每个阶段送去迎来是正常的。毛毛虫点读笔就作念得很好,稳当3到6岁,大少许就丢了,因为不心爱那种戳戳戳的动作了。“从3岁用到12岁”的办法自己就永诀。是以奇朵的解法是:在不同庚齿段各界说一到两颗中枢家具,酿成发展矩阵。

虎嗅:你是若何筹算这个家具矩阵的先后和布局的?

 

黄勇:沿着影像这条线:3岁前是 baby monitor 形态,分析爬行姿态、教导家长;3到6岁是领会发蒙卡;6到12岁是科学相机;12岁以上是类大疆 Pocket 3 的 DV,加上耳机。然后每个阶段的中枢影像家具再作念一次延长和丰富。通盘逻辑即是分龄的硬件矩阵,每个家具齐浮浅聚焦。

  

“当你读一册书读10年的时候,你详情要成精了”

虎嗅:从你的第一份硬件创业,到当今奇朵,硬件创业的逻辑在发生什么变化?你在这份创业中有莫得一些原有的惯性?

黄勇:我之前作念VisionTalk是以 To B 的体式参与了许多硬件,通过 AI 图像搜索平台为它们作念赋能。而当今,我但愿以更平直、更透彻、更高效的神志,确凿躬身入局。

为什么?因为接下来的标的是 AI native 硬件,智能体的筹算和硬件的筹算必须考究交融。以前是“加 AI”的逻辑,我可以成心郑重 AI 这层,用 SDK 作念就业。但当今是 AI native,如果你打造了一个好的智能体,就应该为它打造好的躯体,灵魂和形体割裂不了。

虎嗅:往时的创业告诫里,当今还可以复用的有哪些?

黄勇:作念 To B 就业作念10年,到背面仍是变成客户家具团队的一员了。读了一册书读了10年,详情要成精了。我岑岭期一年 API license 装了快两千万台,我很明晰各个品类出了若干、哪些功能最受用、哪些内容浪掷最多,看一眼我就能或者知说念一个品类成不成。

我深度参与界说过一款辞书笔,我和首创东说念主说,辞书笔的内容是辞书,买最佳的牛津辞书 IP,然后不成有开关机键。

因为搜词是个突发蓦的需求——就像吃个鸡蛋,如果还要去煮,我就不吃了。回到辞书内容来界说家具,功能极简,笔头按下去即是开机,秒开,放下两秒就关机,800毫安电板用20多天。

作念VisionTalk的时候,我的变装即是用 AI 连系内容和硬件功能,是以我能感觉到 AI 在硬件上若何更好弘扬作用,以及现存单干逻辑里存在的问题。加上对儿童硬件内容内容的领会,对内容资源和版权天下的熟悉,这些告诫齐是平直复用的。

虎嗅:在这款家具当中,最体现你我方家具回味的方位是那边?

黄勇:这台机器自己即是一个 APP,因为它只为小K淳厚这个智能体就业,按键加对话,就可以完成统共操作,不需要在屏幕上点。

智能体的起点,废弃了传统 GUI 的交互神志。这对家具团队和交互筹算师齐是很大的挑战。

奇朵的家具 图片由奇朵提供

虎嗅:在你们这几代家具的迭代经过当中,你作念了哪些加法,又作念了哪些减法?

黄勇:10月份团队到位后,立地用供应链智商推了一款里面叫“小绿”的机器,一个月就丢出去了,进来了300多个家庭,天天开会聊天。两个多月里会聚了七八十个提倡,基本上两天一版。

加法是一个科学淳厚说“我拍彩虹能识别吗”?于是开发了当然时势识别;家长说小一又友心爱拍微距,于是救援了微不雅拍摄;家长说孩子看课外书遭遇不懂的词没法答谢—,于是作念了“拍书对话”模式,拍了某段笔墨,小K淳厚就启动跟你交流这个话题。

减法作念的更多。咱们启动作念了好意思颜和贴纸,因为传统相机齐有这些。但其后发现小一又友根柢不追求这个,全手下掉了。咱们作念的是表示照相、领会照相,不是自拍和创作器具。

虎嗅:咱们在端侧模子的遴荐和算力上,是用了什么计谋?

黄勇:咱们的计谋是强云弱端。在很长的周期里咱们不会接头端侧模子。端侧要作念好体验,系统资本增幅极端大,不如用无处不在的会聚联贯,去调用云表模子和算力。联贯资本越来越低,每台家具加一个蜂窝通信模组就够了。

端侧强化还波及存储、功耗、续航的连带问题。端侧的熟练,一定是先在手机这种大品类上跑出限制,才调延长到浪掷电子。

虎嗅:咱们我方有莫得训一些小模子,或者用微调的神志?

黄勇:咱们用常识工程加 RAG,再加收尾的 SFT,莫得我方调基座,这个不伏击,伏击的是内容的着实和泰斗。

具体作念法是把十万为什么的常识库从10万条膨胀到数百万条,隐敝6到12岁99%的百科类问题;经过模子审计和东说念主工抽检后向量化,再用千问作念 RAG,对交互经过调优。要点在界限常识库的 RAG 工程上。奇朵不追求模子上的树立,追求的是打造一种新的内容智能体形态。

虎嗅:强云弱端这个神志,可能会有什么挑战?你们若何贬责?

黄勇:主淌若会聚波动,这需要工程智商。

咱们当今作念的是拍照类家具,通过算法调试和拍摄框雷同,下品性图传上去就能分析,大幅减少对会聚波动和时延的敏锐度。时延工程是咱们 CTO 的毅力——咱们不追求算法立异,但工程化一定作念到最专科。

“小一又友通过不同阶段的开荒,其实他是在养我方的一个龙虾”

虎嗅:当今AI行业变化太快了,OpenClaw出现之后,许多东说念主说以后不同硬件之间会互连互通。你认为这会给将来硬件带来什么变化?

黄勇:“龙虾”这个事太好了,因为咱们通盘即是分龄的成长矩阵交代,每一个分龄的硬件齐应该连到龙虾。小一又友通过不同阶段的开荒,其实是在喂我方的龙虾、养我方的龙虾。

我一直在想若何让矩阵酿成联贯和复购,龙虾这个技能框架帮我贬责了这个问题。以前那种搞一个成长模子、通过数据匹配分析的神志,不够性感。

虎嗅:你在开发很短的时刻内就完成了连气儿两轮融资,这是若何作念到的?

黄勇:投资东说念主看中的最初是熟练的团队,“熟练”不仅仅专科界限,更伏击的是有一定年齿、带过孩子。别的 AI 硬件神志可以越年青越好,但作念儿童家具可能不行,那种滋味永诀。

第二个是 Day one global 的布局。咱们国内版和国外版同期发,何况全球化是合规先行的。泰西儿童家具的合规极端严格——数据安全、模子土产货部署、未成年保护,咱们从家具界说启动就加入了 KidSafe 定约,这是许多国内团队没意见的方位,而咱们搞通了,这自己即是壁垒。

国外家具的外不雅筹算和交互筹算全部是国外原生的——外不雅是英国顶级筹算责任室,家具司理是在谷歌作念了10年的纽约团队,从国外原生筹算到原生合规一体化界说,不是用出口逻辑作念的。

虎嗅:资方其时有莫得质疑?

黄勇:有,换位想考我也会质疑这少许,作念出好家具不是问题,但交易化经过中会面对流量越来越贵的挑战。

咱们的判断是:破解流量困局的神志是优质内容。接下来营销的内容即是内容,不是投流。

虎嗅:什么样的销量,你认为可以叫作念爆品?

黄勇:儿童表示硬件,第一年合格线是20万台以上,优质的家具界说是爆品的根柢。

虎嗅:越来越多的家具变成了硬件加付费订阅,咱们在交易模式筹算上国内国外有区别吗?

黄勇:国外从一启动就筹算了订阅体系。

国内我作念的是配件化,国内浪掷者很难为软件或内容订阅,是以我把它具象化。比如“拍微距”:当今用调参神志已毕,接下来会推出可以套在镜头前边的微距镜头实体配件,就像小米的照相套装。另外还有实践支架,配合小学科学课的家庭端风趣风趣实践,可以订阅实践材料包。

虎嗅:硬件创业卓绝烧钱,若何去限度资本?

黄勇:三个想路。第一,先把智能体装进熟练品类,熟练供应链资本可控;第二,作念了这样多年帮主,产业链上的供应商齐是匡助过的东说念主,账期和来回条目齐能拿到最佳的;第三,强云弱端,把端侧存储砍掉放云存,4G 及时联贯下离线只作念缓存,大幅裁汰存储波动的影响。

技能旅途上,当今用安卓快速迭代,功能相识后移动到 Linux。Linux 系统小、存储要求低、SOC 资本约为安卓的一半,可以把硬件资本进一步压低。

“接下来可能有一个‘拆手机’的经过”

虎嗅:险些统共的硬件团队齐靠近两个挑战,第一如何面敌手机,第二如何面对华强北,最初问问你们若何面敌手机?

黄勇:国内12岁以下的硬件家具被手机挑战的可能性不大。12岁以上才是手机确凿进来的时候,是以咱们的耳机家具筹算时就接头了与手机的共生相干。专科的垂直硬件和手机是共生相干,不是替代相干,许多有手机的东说念主,也会买 CCD 相机或畅通相机。

接下来可能有一个“拆手机”的经过。iPhone 之前,CD 机、Walkman、数码相机各自存在,其后被手机长入了。但今天,因为原生体验的界说,手机里 APP 已毕的功能在从头硬件化。每个垂直硬件在某个点上优于手机,手机里的 APP 会逐渐被硬化,最终手机可能仅仅稠密硬件中的一员,弱化为一个随身算力。

虎嗅:若何面对华强北?

黄勇:当你回到内容内容来想考家具,就不怕华强北了。咱们作念的不是硬件,硬件是为内容抒发就业的。要复制奇朵,需要能把内容、AI 和硬件三者交融清楚的团队,放眼全球,这齐是稀缺的。

虎嗅:软硬连合仍是很难了,你又加上了 AI 和大模子。在这个连合经过中,坑和难点在那边?

黄勇:这主淌若传统工业化单干导致的。内容、智能体、硬件,在我心目中是一个东西:智能体即是内容自己,硬件是智能体的躯体,是一枚硬币的正反两面。

但用传统单干来作念,作念内容的作念内容,作念 AI 的作念 AI,作念硬件的作念硬件,就变成了三件相互割裂的事情,若何作念出好家具?

虎嗅:奇朵第一天起就瞄着全球,但 AI 硬件这个品类,中国公司占了八九成,客岁 CES 人人齐说是中国的 CES,若何看硬件在国内卷,到国外亦然跟中国公司卷?

黄勇:中国咫尺是基础练功房——人人相互卷,练肌肉,再去卷国外。先在国内找到特有定位活下来,是前提。

出海最要道的是尊重在地文化,从筹算、交互到内容 IP,全部原土化。“十万个为什么”是中国最佳的科普 IP,但在英国叫 DK,在西班牙有当地版块。咱们在每个市集齐会找当地最泰斗的内容 IP 互助。咱们作念的是让每个方位的原土内容 IP 在 AI 期间新生。

 

虎嗅:有东说念主说,中国东说念主老是尝试把一款浪掷硬件作念的更有性价比,但泰西东说念主会想考如何让这个家具变直快思,在你看来,是性价比更伏击照旧意思更伏击?你们若何作念的?

黄勇:意思是比性价比更伏击的。儿童的家具要作念到意思,有2个标的。第一个是比如用屏幕+声光电刺激(比如在中间加入看视频或者各样游戏)来作念到意思,这样虽然可以让孩子千里迷,关联词这是不适合儿童发育需求的;第二个是适龄天性的当然开释,比如到了5-6岁,孩子启动无数的“是什么”、“为什么”的指着问的场景就多了。基于这个家具的智商,让孩子取得开释和炫夸亦然一种神志。咱们遴荐的是第二种。

虎嗅:你会认可“统共传统硬件形态齐会被 AI 化一遍”这个不雅点吗?

黄勇:标的详情是这样的,但要道是若何连合品类内容,收尾地把 AI 抒发出来。既是 AI 驱动的,又不成变成另外一个东西。这需要对行业和品类有很深的清楚。

比如轮椅的内容是扶直,外骨骼可能才是更好的轮椅,在现存轮椅上加个录像头,不一定对。

虎嗅:如果有一天奇朵失败了,可能会是什么原因?

黄勇:这个……不好说。可能是命不好吧。趋势也好,多样因素也好,我认为齐具备,但随机候这个事情可能也看人缘,许多得手终末齐是回归出来的。

开云体育