OpenAI还没发布的视频对话,又被国产厂商先做出来了

在三个月前的 OpenAI 发布会上,相信大家多少已经见识过了 GPT-4o 那跟真人一样丝滑的视频对话能力了。

还有谷歌紧跟着推出的 Project Astra ,实力看着也丝毫不输 GPT-4o 。

那段时间,几乎全网都在感慨 AI 的交互能力进化得有多强,但 GPT-4o 的视频通话功能是一拖再拖, Project Astra 也是好几个月也没见着个影子,连内测都不见有。

不过,AI 圈好像有个定律,就是好东西不能让人等太久。比如 Sora 遮遮捂捂大半年,结果可灵、Luma AI、智谱清影都冒头发布了。

这两天,我们发现智谱清言 App 突然又来了波大的更新,上线了那个传说中的 AI 视频通话功能。功能推出之后,知危编辑部也在第一时间申请到了内测资格。

之前 GPT-4o 之所以被说得天花乱坠,很重要的一个原因,就是它对视频的理解能力非常强悍。

所以,我们首先测试了一把清言的视频理解能力。

我们给清言扫了一眼编辑部平时脑暴的会议室,看它能不能根据周围的环境猜出来我在做什么,还特意晃了晃镜头,没有保持视频画面的完全静止。

坐在会议室的桌子旁倒是没说错,桌上的纸杯、遥控器,旁边的电视也都描述得挺准确。

再把镜头往后期同事的电脑上一放,也能看出来这是在剪辑视频。

这种对周围整体环境的感知能力,我们之前只在 OpenAI 和谷歌的 Demo 上见过,今天亲自体验到,还真有点科幻照进现实的意思。

而且,清言跟 GPT-4o 演示的一样,在对话的过程中随时都可以打断,时不时还会整点 “ 哎呀 ” “ 嗐 ” 的语气词,说话之前呵呵笑一下,就跟真人聊天差不多。

接着,我又试了试具体的物体识别功能。

从最简单的工位扫描开始,白色键盘、黑色鼠标还有显示器这些大件,基本没有遗漏,物体前后左右的方位也描述得清清楚楚,就连插线耳机、玻璃杯上的卡通人物这些细节,也没放过。

了。

而且清言还有个画圈识别的功能,把同事那台大音响给圈起来,品牌、型号,甚至连具体用途它都知道。

另外我还发现,清言对物体的识别不只是停留在简单的类别上。

就比如这个游戏手柄,你问到底是索尼的还是微软的,它能根据手柄的外形设计分析出来这是微软的 Xbox,而不是单纯告诉你这是一个游戏手柄,又或者干脆糊弄过去说不清楚。

还有这台古早的功能机,诺基亚、具体型号是 N95、2007 年经典款这些细节完全不在话下。

后边儿我们又让清言识别电脑系统、看托尼照片猜年龄、看名人照片猜人名,虽然免不了偶尔抽风的情况,但大多数情况下认得都挺准。

当然了好玩归好玩,像视频通话这种形式其实有很多实用的场景。

比如家长最头疼的作业辅导,以前的 AI 交互还是拍照上传题目那一套,但如果换成视频通话,就变成了线上家教一对一的逻辑。

我们试着让清言做了一些低难度的数学题,小学和初中一些简单的代数题勉强可以拿下。

在解题的时候,清言也不会一股脑把过程全说出来,而是一个步骤一个步骤引导着来,有一个思考的过程。

除了数学以外,语文和英语我们也简单试了试,清言不能说是资深教师级别,但平时写写作业、记记单词、背背古诗,够用了。

而除了作业辅导以外,清言也可以充当一个初级版的生活小百科。

第一次做饭没经验、房间灯泡坏了、不知道怎么养绿植。。。如果你在生活中遇到类似的事情又不知道该咋办,都可以问问它。

比如,很多小朋友可能暂时还分不清电池的正负极,我们就假装把计算器电池装反,清言一两句话就 get 到问题出在哪,还是很有生活常识的。

而且这小玩意儿还特别能提供情绪价值,让它讲故事、讲笑话,也句句有回应。

跟朋友玩 21 点,它甚至还能当裁判。

而且,与 GPT-4o 相似的时,智谱的视频通话功能也是带有一定记忆功能的,当我们测试完 21 点在找它聊别的事情时,它还会问我们 “ 刚才 21 点玩的怎么样 ”。

说实话,这次清言的大升级还是给我带来了不少惊喜,但小瑕疵仍然不少,有时候会说话嘴瓢、认错东西、输出一些胡言乱语,不过概率不大。

就比如 21 点的裁判,有一次把 9 认成了 4,黑桃认成了梅花。玩剪刀石头布,一个出石头一个出剪刀,它会判定出剪刀的赢。。。

槽点不少,我们在这也就不一一列举了。

不过,就凭抢在 OpenAI 和谷歌之前,先让国内用上 AI 视频通话这一点,已经是很不错了。

在这方面,知危编辑部还是抱着一贯的态度:用不到的概念品是 0 分,当下能用到的就是 10 分。

有些人可能觉得,视频对话与图文对话相比,看起来只是形式的变化,视频对话能做的都能用图文对话解决,这样意义不是很大。

但我们认为,AI 视频对话这种交互形式,越往后走应用场景的想象空间也就越大,因为它更接近人类的 “ 视觉+对话 ” 的原生交互方式。

比如把 AI 装到眼镜、项链上,以后可能连手机都不需要了,或者装到盲人的拐杖上,让 AI 帮忙引路,又或者是跟具身智能结合,让机器人真正理解所看到的东西。

借用智谱 CEO 张鹏的那句话:“ 至少我们现在还没有看到(AI)技术的天花板 ”。

未来的 AI 会进化到何种程度,又会创造出哪些价值,大家也不妨开个脑洞想想。

平台声明:该文观点仅代表作者本人,火星财经仅提供信息存储空间服务。发布者:火星财经,转转请注明出处:https://www.sengcheng.com/shichang/9155.html

(0)
火星财经的头像火星财经
上一篇 2024年9月6日 下午2:17
下一篇 2024年9月6日 下午3:20

相关推荐

  • 浦兴祖 | 毛泽东“国体—政体”理论与人民代表大会制度的确立

    今年是全国人民代表大会成立70周年,同时恰逢全过程人民民主重大理念提出5周年。习近平总书记在中央人大工作会议上强调,人民代表大会制度是实现我国全过程人民民主的重要制度载体。这为新时代坚持和完善人民代表大会制度,发展全过程人民民主,推进社会主义民主政治建设指明了方向,提供了根本遵循。今天我们庆祝全国人民代表大会成立70周年,要把落脚点放在如何发展好、实现好全过…

    2024年9月14日
    4400
  • 7旬老太一个动作救了一整栋楼的人 深夜开窗通风显神威

    在浙江宁波高新区,一位七旬的钱奶奶遇到了惊心动魄的一幕。凌晨2点,因感到闷热难以入眠,她起身打算开窗透气,却意外发现外面有火情。“真是吓死人,我只是想通通风,没想到竟然看到着火了。”钱奶奶回忆道。 火情源自居民楼内的配电机房,浓烈的烟味已经弥漫至35层,整栋楼道充斥着刺鼻的烟气。钱奶奶迅速反应,立即通知了物业并报警求助。消防救援大队接报后火速抵达现场,了解到…

    2024年9月12日
    4300
  • 去西藏,一定不能错过八宿!

    总有一些风景 值得你翻山越岭 人人都向往西藏 人人都想要挑战自驾或骑行西藏 无论是走川藏线(G318) 还是滇藏线(G214) 你一定不会错过 八宿 这座藏东小城 (八宿为西藏昌都市下辖县,制图@陈志浩/星球研究所) ▼ 八宿,藏语意为“勇士山脚下的村庄” 抵达八宿的人,都可谓勇士 这一路你上天入地 时而爬升至海拔4000多米的高山垭口 紧接着下降近2000…

    2024年9月14日
    3600
  • 编造虚假信息,刘某被行拘:严打网络造谣维护秩序

    编造虚假信息 ,刘某被行拘 东营市公安局致力于网络环境的净化,通过严格执行法律,有力打击网络谣言。在“打击整治网络谣言”专项行动的框架下,该局采取了依法打击与综合治理并重的策略,针对网络造谣传谣现象进行了严格整顿。下面是一起具有代表性的案例: 2024年8月,一位名为纪某某的东营网民为了增加粉丝和流量,在某自媒体平台上编造并发布了一则关于“某市场普遍使用假秤…

    2024年9月13日
    5800
  • 被挟持的神佛——为什么和尚道士作恶没有愧疚感?

    我们去庙里礼拜的神佛,并不是真正的神佛,而是被挟持绑架的神佛,或许曾经的他们代表真理真知善良美好,但现在,被和尚道士挟持,以此来牟利。 神佛被挟持用来做招牌,信众被PUA用来赚取供养,义工找来做道奴、佛奴,教义用来做广告蛊惑世俗,建大大的庙,搞大大的排场,赚取多多的钱财,世世代代,如此传承。 他们之所以豪车豪宅、娇妻美妾,然后又高道大德、道貌岸然,并不是替祖…

    2024年9月6日
    5600

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:sengchen@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信