こんにちは!けーじです
今回はGoogleから発表されたGemini 2.0についてまとめてみたいと思います。Googleから発表された以下のwebページ内容を個人的にまとめつつ、見解をぼそっと綴ってみます。(全部はとりあげないので、ご理解ください)
Introducing Gemini 2.0: our new AI model for the agentic era
全体を読んだ感想
実際にGemini 2.0 Flash Experimentalを使用したのですが、かなり早く、そして質の良い回答を返してきてくれました。これだけでもGemini 2.0すごいなと思っているのですが、Project Astra, Project Marinerの紹介を読むと、未来の生活を垣間見るようで、非常に期待が高まりました。まさに「エージェント」として人間のそばについて、あらゆるタスクを手助けしてくれる存在が実現したら真っ先に使ってみたいと思います。
Gemini 2.0
Gemini 1.0/1.5の時にもマルチモーダルモデルとして動作していたが、それからさらに進化してネイティブな画像や音声、ツールの使用が可能になったとのことです。「ネイティブな」ということについてあまり説明はなかったかもしれないですが、おそらく画像であれば「見たまま」、音声であれば「聞いたまま」ということだと思います。つまり、カメラを現実の風景に向けることで、AIがその情報を基に行動を開始できるということだと考えられます。ウェブページに掲載されている動画では、カメラを対象物に向け、『これは何?』とAIに質問する様子が紹介されています。
以下でも登場しますが、後述しますが、このようなモデルによって、リアルタイム応答が求められるソリューションが実現可能になると感じました。Gemini 2.0がスマートフォンに搭載されて、快適な生活を送れることを心待ちにしてます。
Project Astra: agents using multimodal understanding in the real world
Project Astraは「ユニバーサルなAIアシスタントの可能性の研究」のことのようで、紹介動画では街中を歩きながら様々なタスクにAIを利用するシーンが収められていました。天気の確認、カメラに映した作品の説明要求、道中の店舗情報の問い合わせなど、多岐にわたるタスクを柔軟にこなす様子が描かれていました。このプロジェクトはすでに取り組まれているもので、今回のGemini 2.0リリースにあたって、対話の改善や、google検索、lens, mapを利用できるようになったり、AIの記憶力の向上、レイテンシの改善などが行われたようです。
紹介動画を見ると、まさに執事を一人連れて歩いているような様子が印象的でした。街中での音声入力はまだ不自然に感じる部分もありますが、将来的に普及する可能性もあるでしょう。個人的には、まずはテキスト入力で試してみて、状況に応じて音声入力も検討したいと思います。
Project Mariner: agents that can help you accomplish complex tasks
こちらもAIエージェントとして振る舞うものですが、ブラウザ上でのタスクを助けることに特化しているようです。紹介動画ではスプレッドシートに挙げた企業名からコンタクトをとるのに適した連絡先を聞いていましたが、指示を出すと自動で連絡先を検索して拾ってくる様子が見て取れます。ユーザーが安心して利用できるよう、『現在、XXを検索するためにスクロールしています』といったように、AIの動作状況が逐一表示され、最終的な結果(動画では連絡先)についても納得して受け入れられるように工夫されていました。
AIの活用の仕方としては「XXがわからないから教えて」のように、知らない情報を逐一聞くような使い方があると思いますが、どうしても本当かどうか疑わしい場面があると思います。しかし、Project Marinerでは、人間が調査するのと同様に、検索から情報の抽出までの一連の流れがブラウザ上に表示されるため、そのような懸念は軽減されると考えられます。誤って決済ができてしまうページに飛んで勝手に決済されたりしてしまわないかと心配がしましたが、そこはさすがに考慮に入れているようです。
Building responsibly in the agentic era
今回のようなプロダクトを開発するうえで切っても切り離せないのが安全性やセキュリティです。Gemini 2.0もこの点について説明されています。Responsibility and Safety Committeeとの協力、リスク軽減のための評価とトレーニングデータの自動生成、入出力の複雑性の増大に伴う安全性向上に向けた評価と訓練、Project Astraにおける機密情報の扱い、Project Marinerにおけるプロンプトインジェクションの対策などが挙げられています。
便利なプロダクトが生まれると試してみたい一方で安全性は気になるところです。このような取り組みがしっかり示されることはユーザを安心させるためにもかなり重要なのかなと思います。
おわりに
いかがでしたでしょうか。今回紹介された機能の中で使用したことがあるのはGemini 2.0 FlashのExperimentalモデルだけでした。有料のサービスもありますが、試せるものは積極的に取り入れてみたいと思います。個人的に今回の発表において「AIエージェント」というのはひとつのキーワードと考えています。かなり人間らしく振る舞ってきており、各社で開発競争が繰り広げられてきているなと感じました。今後もこのような情報をキャッチアップしていきたいです。
コメントを残す