首页 >硬件教程 >硬件测评 >大模型厂商密集发力,谷歌也开'卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

大模型厂商密集发力,谷歌也开'卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

王林
王林原创
2024-07-29 20:38:41467浏览

Meta、OpenAI 等大模型厂商密集发力之际,谷歌也宣布了一项重磅更新——

即日起,Gemini 聊天机器人将改由Gemini 1.5 Flash驱动。

与之前的版本相比,窗口长度提高到了 4 倍,响应速度也更快了。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

按照谷歌的介绍,新版聊天机器人背后的 1.5 Flash 模型,主打的就是轻量化和速度提升。

当然模型回复的质量也有提升,上下文窗口也从原先(基于 1.0 Pro)的 8k 提升到了 32k。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

此外新版聊天机器人还增加了" 事实核查 " 功能,可以一键检测生成的内容是否属实,减轻模型幻觉带来的不良影响。

有网友感叹,谷歌今天表现真的很强,先是,接着 Gemini 也发布了更新。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

还有人开启了许愿模式,期待 Google Scholar 学术搜索当中也能加入 AI 功能。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

更长上下文窗口,速度也变快了

本次更新的最主要内容,就是把免费版背后的模型从 1.0Pro 换成了 1.5 Flash。

Gemini 1.5 Flash 最早亮相于 5 月的谷歌 I/O 开发者大会。

通过训练数据的 " 蒸馏 ",Gemini 1.5 Flash 用更轻量化的体积实现了较高的生成质量。

而且小体积也让模型的速度更快、效率更高,同时它还支持多模态推理。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

谷歌介绍,此次更换模型之后,聊天机器人的速度会变得更快,同时旧版 8k 的上下文窗口,扩增到了 32k。

不过 1.5 Flash 自身是支持 1 百万的上下文的,这样的削减幅度属实是不小,但毕竟是免费免费版本。

除了模型的升级,另外一项重要更新就是事实核查功能了。

在最新的 Gemini 聊天机器人当中,可以通过该功能一键对输出的内容进行检查。

系统会针对输出中的内容在谷歌上进行搜索和比对,然后标记出相符和不符之处。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

有网友评论说,看到 OpenAI 上线 GPT-4o mini 时就觉得谷歌上新只是个时间问题。

的确,不仅是 OpenAI 和谷歌,Meta、Mistral 等在做大模型的厂商最近都是动作频繁。

而关于模型的表现,这位网友也表示自己试过 1.0 Pro 和 1.5 Flash,两者表现几乎相同,而 1.5 Flash 速度更快。

所以,谷歌的这波操作,一定程度上也是适应了最近兴起的 " 模型轻量化 " 趋势。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

那么,更换了 1.5 Flash 之后的 Gemini 聊天机器人,表现到底怎样呢?

一键检查模型输出

量子位对新版的聊天机器人进行了简单测试。

首先来看一下这次更新的事实核查功能,第一步是像正常对话一样随便提一个问题,Gemini 也会正常作答。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

可以看到在答案的下方有一个谷歌的 logo,这就是事实核查功能的按钮了。

点击之后系统会自动在谷歌进行搜索,然后与自己的输出内容进行比对。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

比較が完了すると、ソースが検索され、一致するコンテンツが緑色で強調表示され、検索結果と一致しない場合は、背景が薄赤色でマークされます。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

マークされた場所をクリックすると、Gemini が比較に使用するコンテンツ リンクが表示されます。

このような注釈は、出力内容が間違っていることを意味するものではないことに注意してください。たとえば、ここで引用した比較データでは、トム・クルーズの母親はメアリー・リー・サウスです。

テキストの不一致のため、回答のこの部分はシステムによってマークされましたが、実際にはどちらも正しい回答です。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

このファクトチェックはインターネット検索に依存しているため、比較情報の品質にもばらつきがあり、100% 正確ではない可能性があります。

たとえば、「林大宇がしだれ柳を根こそぎにする」という古典的なジョークに関しては、双子座は明らかに正解を出しましたが、赤マークが付けられました。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

引用した比較情報を改めて見てみると、確かにストレッチは少し難しいですね。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

つまり、この機能の機能は主に、より便利な認証方法を提供することですが、それをどのように受け入れるかは、複数の当事者による認証とユーザー自身の判断に依存します。

さらに、モデル自体に関しては、大きなモデルが壁にぶつかることが多い、最近よく見られるいくつかの問題もテストしました。

たとえば、ジェミニは 2 つの数字をお金に変換しましたが、1 回の操作後の最終結果は…間違っていました。

この質問が発見されて以来、これが 2 番目に面白い答えであれば、1 位を主張するモデルは誰もいません。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

私も最初は間違った答えをしてしまいましたが、後ほど分析の過程で修正しました。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

しかし、英語で質問すれば、正しく答えられる可能性はまだあります。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

別の質問ですが、この答えは実際に中国語の文字を数えることができます...これは人々を混乱させます、そしてそれはまったく予測の範囲内ではありません。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

最後に、このアップデートで言及された速度の向上については、テストの結果、Gemini 1.5 Flash は Claude 3 Haiku よりも最初の単語を出力する時間が短いことが判明しました。その後の速度の違いは、肉眼ではあまり明らかではありません。

 大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

上記はチャットボットにおける Gemini 1.5 Flash のパフォーマンスです。興味のある読者はご自身で試してみてください。

参考リンク:

[ 1 ] https://blog.google/products/gemini/google-gemini-new-features-july-2024/

[ 2 ] https://x.com/GeminiApp/status /1816512086232731696

以上是大模型厂商密集发力,谷歌也开'卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn