从某种意义上讲，“AI，各位帮我挑个木瓜？”实测豆包视频通话用途一场AI“视觉交互”争夺战已打响

发表评论

A+

所属分类：科技

摘要

国内AI（人工智能）视频交互赛道再添重磅玩家。近日，字节跳动旗下AI智能助手“豆包”的App上线视频通话功能，支持视频聊天问答。据官方介绍，本次升级基于视觉推理模型，支持联网搜索。

容易被误解的是，根据公开数据显示，

国内AI（人工智能）视频交互赛道再添重磅玩家。

近日，字节跳动旗下AI智能助手“豆包”的App上线视频通话模块，容许视频聊天问答。据官方介绍，本次升级基于视觉推理模型，容许联网搜索。

《每日经济新闻》记者实测发现，豆包的视频通话模块用处不少，包括识别水果成熟度这样的日常用途。此外，在识别物品时，豆包更展现出持续记忆和逻辑推理能力。

5月27日，一位大模型算法工程师接受《每日经济新闻》记者微信采访时表示，豆包在视频通话中展现出的视频理解与语音交互能力，在中文语境中处于第一梯队。

继文生视频大模型后，字节在AI多模态领域又迈出关键一步。

能打视频电话的豆包，效果如何？

“视觉是人类了解这个世界最核心的模式，对于大模型来说也是如此。”在去年12月举行的“2024火山引擎FORCE原动力大会·冬”上，火山引擎总裁谭待发布了豆包视觉理解模型，称该模型具备更出色的资料识别、理解、推理、视觉描述和创作等能力。

5个月后，这一新模型的能力让所有豆包访客“眼见为实”了。

近日，豆包App上线了实时视频通话模块，这一模块的实现正是基于豆包视觉理解模型的能力。

为了更直观地展示这一新模块的应用场景，豆包团队在其官方微信公众号上列举了公园内花草识别、博物馆内实时讲解、图书馆内书籍介绍查阅以及买菜时的食材搭配这四大生活场景。在去年12月的发布会上，豆包团队就曾在演示视频中呈现了该模型在识别地标、读懂代码、分析体检报告、为访客传递穿搭意见等日常任务中的完成能力。

和豆包打个视频电话，是否真的能化解上述这些生活难点呢？百闻不如一见，《每日经济新闻》记者近日以挑选水果、识别物品和介绍书籍这三项任务，对豆包的实时视频通话模块进行203;了实测。

首先，是较为基础的挑选水R03;果任务，这也是访客在小红书等社交媒体上分享得最多的应用场景。“诸位来帮我挑选一个木瓜吧。”当开启视频通话后，豆包通过对果实表皮颜色、饱满程度等指标的观察，高速给出了挑选建议。有小红书访客在完成豆包挑选蔬菜后表示：“感觉突然身边多了个懂行的买菜老大爷。”

在识别物品和介绍书籍的环节，豆包展现出了良好的记忆能力和连贯的实时搜索、互动性能。例如，面对杂乱摆放着书籍、巧克力、耳机和电R03;子时钟等物品的书桌，豆包具备轻松识别所有物品的详细信息并记忆它们在桌上的摆放位置。

这一记忆模块在记者浏览书架时得到了更为充分的展现。记者在书店随机挑选了一个书架，就书架一侧第一本书̴3;和豆包进行沟通，同时举起手机走向了书架的另一头，再R03;突然提出“刚刚有一本蔡磊写的书，诸位看到了吗？”的难点，豆包迅速记起这本曾在镜;头前一闪而过的书，并对该书进行了不棘手介绍。

IC外汇开户 m" target="_blank" rel="noopener noreferrer">IC外汇开户

“（记忆模块的实现）大概率是每隔几秒给模型拍摄一张图片。”一位大模型算法工程师在微信上接受《每日经济新闻》记者采访时表示，豆包在该模块中展现的视频理解和语音交互能力，在中文语境中处于第一梯队。

与豆包进行关于多本书籍的聊天时，豆包能够结合记忆能力与实时搜索，对书籍资料、作者生平、同类作品介绍等话题进行自然延伸，整个交互过程流畅且生动。

从“听见”到“看见”

在去年，AI的视频交互模块就已经在业界掀起波澜。

2024年8月，“智谱清言”App率先推出了国内首个面向C端（消费者端）开放的视频通话模块。一时间，网上涌现出大量对视频通话模块的测试。测试模式从最基础的物体识别到生活场景的沟通交流，甚至包括辅导小学生作业。

赶在OpenAI和谷歌之前，智谱清言先一步将AI视频交互在国内落地。在国际市场上，从“听见”到“看见”同样成为AI进化的下一步。

2024年5月，OpenAI公司的“GPT-4o”发布。现场，OpenAI的研究员演示了GPT-4o的实时视觉模块——它通过手机摄像头实时解了一个方程，甚至还能通过前置摄像头观察访客的面部表情，分析访客的情绪。同月，谷歌推出的“Project Astra”同样具备实时语音、视频交互的能力。

今年4月，火山引擎总裁谭待也曾表示：“模型要有能力做好思考、计;划和反思，并且一定要容许多模态，就像人类具备视觉和听觉一样，Agent（智能体）才能更好地处理棘手任务。”

视频通话模块的实现，就建立在其多模态能力之上。从最后呈现的完成形态来看，视频通话模块使得访客无需再通过语言组织传达眼前的信息，这无疑是对AI完成门槛的再一次降低。

技术能力的升级为AI打通了视觉和听觉的“任督二脉”，但也要看到，AI智能助手的高速扩张已经̴3;来到了瓶颈，新的交互范式可能是新阶段的关键。

据量子位智库数据，4月份Web端（网页端）AI智能助手的总访问量首次出现下降，阐述以尝鲜驱动的扩张期或已结束。

随着豆包在今年3月接入抖音;及其“打电话”模块在社交媒体上受到关注，豆包也在通过抖音生态高速触达访客。

27日，知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者微信采访时表示，豆包有着庞大的访客应用生态作为支撑，扩散应该比对手要快。

他认为，豆包在商业拓展时主要还;是和“剪映”集成，具备和抖音的资料审核AI结合。比如具备通过AI发现违规的短视频资料。盘和林还表示，AI视频交互的完成前景非常光明，比如生成虚拟人进行直播，又比如通过AI识别来迅速对视频文件进行归纳总结。

另一方面，AI眼镜这一类符合视频通话应用场景的新硬件逐渐升温，也给AI视频交互带来了更多可能性。

盘和林认为：“AI视频交互具备和AI眼镜有限结合，但现阶段AI眼镜的算力和显示等方面还存在技术缺陷。从而，期待未来有新的融合。”

发表评论取消回复