Googleは、生成AI「Gemini(ジェミニ/ジェミナイ)」をリリースしました。スマホからデータセンターまで、様々な端末に対応するために3つのモデルが用意されています。
今回は、Geminiでできること、料金、いつ使えるようになるかなど、基本的な内容について満遍なく紹介したいと思います。
機器に応じた3種類のモデル
Geminiは、3種類のモデルがあります。
- Gemini Nano(ナノ):スマホに対応したモデル
- Gemini Pro(プロ): 幅広いタスクに対応する最良のモデル
- Gemini Ultra(ウルトラ):非常に複雑なタスクに対応する、高性能かつ最大のモデル
この中で、「ウルトラ」は、ChatGPTの最新モデルGPT-4を多くの面で超えたことをGoogleはアピールしています。
「ChatGPT超え」は最上位モデルのウルトラのみ
ここでミスリードしないよう明記しておきますが、「ChatGPT超え」を謳っているのは最上位モデルのウルトラのみです。
プロに関しては、GPT-4以下、GPT-3.5 Turboと同等レベルとなっています。
ジェミニなの?ジェミナイなの?
読み方は「ジェミニ」なの?「ジェミナイ」なの?というところですが、GoogleのピチャイCEOは「ジェミナイ」と動画内で発音していました。しかし、日本のニュースの報道では「ジェミニ」と記載しているところも多いです。
現地の発音に合わせれば「ジェミナイ」なのでしょうが、日本では「ジェミニ」派もいるようで、正解が分からないのが正直なところです。とりあえず好きなように呼べば良いんじゃないでしょうか(適当)。
料金は?
結論、ナノとプロは無料で使えます。
Googleのスマホでは、「Google Pixel 8 Pro」がナノを実行できるように設定された最初のスマホとなっており、Google Pixel 8 Proをお持ちの方はスマホでジェミニが使えるようになります。
また、Googleが提供する無料の生成AI「Bard」は、2023年12月7日よりアップデートにて、理解と要約、推論、ブレインストーミング、文章編集、計画の立案などできることが大幅に向上するとのことです。Bardはもともと無料版しか存在せず、今回のアナウンスでも有料版に関する内容はなかったので、ジェミニ プロをBardで使えるようになると考えられます。
日本語対応は未定
Google公式ブログによると、現在は英語版のみの対応となっているようです。日本語対応は未定です。
いつから使えるの?
Googleの公式ブログでは、以下のような記載がありました。
12 月 13 日より、開発者や企業は、Google AI Studio または Vertex AI の Gemini API を介して Gemini Pro にアクセスできるようになります。
引用:最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに
「Google AI Studio」というのは、開発者向けのAPIです。
音声・動画でのやりとりが可能
Googleは、Hands-on with Gemini: Interacting with multimodal AI という動画にて、人間とジェミニが対話しながらやりとりする様子を公開しました。
「これは何に見える?」
Gemini「私には鳥に見えます。」
画像による応答は既にGPT-4でも可能になっていますので、この程度ではもう皆さん驚かないのではないでしょうか?では次です。
Gemini「この国を当ててください」
動画内の人間が、世界地図をうつしました。すると、ジェミニ側から問題を出してきました。
Gemini:「この国を当ててください。カンガルー、コアラ、グレートバリアリーフ」
人間:「オーストラリアだと思います。」(地図上で指をさす)
Gemini:「ピンポーン!」
まるで、オンラインで誰かと会話しているかのような、自然なやりとりです。
「これで何が作れる?」
人間:「この毛糸で何が作れる?できれば動物がいいな」
Gemini:「ブタ、もしくはタコ、もしくはピンクの鼻をしたウサギなんてどうでしょう?」
すべて作成後の画像付きで応答していました。
「どっちが速く走る?」
Gemini:「右のほうが速いと予想されます。より空気抵抗が少ないです。」
動画を見せて、何をしているか尋ねる
Gemini:「マトリックスの、有名な弾丸シーンを演じていると思います。」
別の動画を見せて、それを正確に認識できました。
所感:まるで人間が裏にいるかのように自然!
Youtube動画を数秒見たら分かると思いますが、まるで人間対人間でやり取りをしているかのような自然さでした。画像だけでなく、動画にて質問したり、クイズを出したりできています。
しかも、従来の生成AIのように、プロンプト(質問)を投げてから応答までの時間がなく、スムーズなやり取りが実現できています。
ただし、これがいつ日本語対応されるのか、実際に使えるようになった際にこの動画のようにスムーズなやり取りができるかは分かりません。
英語版Bardを使ってみた
英語版Bardでは、既にアップグレードされたということで、実際に使ってみました。
英語版Bardに切り替える方法
アップグレードされたBardは、現在英語版でしか使えませんので、まず英語版に切り替えます。
英語版Bardに切り替える方法については、以下で解説しています。
え?性能良くなって・・・・ない・・・?
従来のBardとの差が分かるよう、以前質問した内容と同じ質問をしてみました。(以前のブログ記事はこちら)
これは、ChatGPTの「Code Interpreter」に生成させた、2005~2015年までのハリケーン発生総数のグラフです。このグラフから読み取れることをまとめてもらったところ、黄色の部分は図から読み取れない内容・間違った内容でした。
ちなみに以下は以前のバージョンで試したときのものです。なんか悪化してません・・・・!?
画像読み取り機能がダメかも?
いくつかテキスト形式でプロンプトを投げてみたところ、文章要約、記事作成、コーディング等に関しては以前よりも応答スピードが向上し、応答内容の精度も良くなっていました。
Xで、英語版Bardを試された人のツイートを見てみると、思うような回答を得られなかったと発言している人は画像読み取り機能を使用している人が多いようです。
早速英語版Bardで、あるpdfの学習時間を見積もってもらったけど、うまくいきませんでした。ちなみに、copilotは根拠をそえて見積もってくれました。 https://t.co/ZVuQoMq4jz
— 3流SE (@3ryu_se) December 7, 2023
うーん?
Bardの英語版本当にGemini proなのか?
色々試しているけど、前よりは結果よいけど、結構おバカでgpt4vには正直負けてるんだけど
BIOSのスクショでハングの原因聞いてるけど、gpt4vはCPU温度に着目して正確に熱暴走を予想しているけどBardは一般的な対処方法しか書いてない pic.twitter.com/WOxdYrDQSt— Ryousuke_Wayama (@wayama_ryousuke) December 7, 2023
ChatGPT超え「ウルトラ」は開発者・企業向け
Bardに搭載されているGeminiは、「Gemini Pro(プロ)」です。これは、GPT-4を超えた「ウルトラ」よりは性能が劣りますので、賢くなったとはいえGPT-4以下、GPT-3.5 Turboと同等レベルです。
ナノとプロに関しては12月13日に使えるようになるようですが、ウルトラについては以下のように記載がありました。
Gemini Ultra を近日公開予定
Gemini Ultra については、信頼できる外部関係者によるレッドチームを含む広範な信頼性および安全性チェックを実施するとともに、展開前のファインチューンと人間のフィードバックによる強化学習 (RLHF) によってモデルのさらなる改良を行っています。
このプロセスの一環として、来年の開発者や企業への公開前に、初期実験とフィードバックを目的とし、一部の顧客、開発者、パートナー、安全責任専門家に Gemini Ultra を提供します。
来年には、Gemini Ultra で動作する、高性能モデルと機能にアクセスできる最先端の AI 体験を提供する Bard Advanced もリリース予定です。
引用:最大かつ高性能 AI モデル、Gemini を発表 – AI をすべての人にとってより役立つものに
「来年の開発者や企業への公開前に」と記載があることから、一般向けには公開しないことが分かります。Android開発者や、企業に向けたモデルとなっているようですね。
しかし、「ChatGPT超え」を謳うのであれば、我々一般ユーザー向けにそれを体感させてほしいところではあります。
まとめ
今回は、Googleが発表した「Gemini(ジェミニ/ジェミナイ)」について、概要を解説しました。
実際に英語版Bardで使ってみた限り、テキストでのやりとりは性能アップしていたものの、画像読み取り機能に関しては性能アップどころか、むしろ悪化しているような気さえしました。
また、「日本語対応は未定」ということで、日本語でGeminiが使えるようになるのはまだ先になりそうです(Bardがリリースしたてのときも、なかなか日本語版の対応はされませんでしたので)。
デモの動画では、まるで人間とやりとりしているかのようにGeminiと対話していたことに驚きました。スマホで、動画のやりとりが出来れば、製品の使い方を教えてもらったり、対話しながら英語の勉強ができたりするかもしれないということで、デモの機能を早く使いたいです。あれはきっとBard内の機能ではないですよね?Googleスマホを買えってことですかね?(筆者はiPhoneユーザー)
コメント