GPT-4vで画像・音声認識が搭載!いつ使える?料金は?できることを解説

ChatGPT

2023年9月25日、OpenAI社はChatGPTに関してこんな衝撃的な発表をしました。

ChatGPT can now see, hear, and speak

訳:ChatGPT は見たり、聞いたり、話したりできるようになりました

こちらはOpenAIのデモになりますが、「自転車のサドルを低くして」と指示すると、サドルを低くした画像を返してくれます。

また、ChatGPTと会話形式で音声でのやりとりができるようになります。応答音声はテキストで出力することも可能です。公式サイトには音声サンプルが載っていますが、とても自然で本当の人間のようなものになっています。

参考:OpenAI 音声サンプルを聞く

GPT-4vの料金は?

GPT-4vは、ChatGPT Plusに課金していないと使うことができません。

ChatGPT Plusは月額20ドルです。

ChatGPT Plusへのアップグレード方法

ChatGPTを開き、チャット画面左側にあるメニューから「Upgrade to Plus」を選択すると以下のモーダルが表示されますので「Upgrate plan」を押します。

支払いはクレジットカードのみで、解約しない限り毎月引き落としとなります。

GPT-v4が使えるかどうか確認する方法

GPT-4vが使えるかどうかを確認するには、ChatGPTを開きます。

モデルがGPT-4になっていることと、モードが「Default」になっていることを確認します。

プロンプト入力エリアの左側に画像アップロード用のアイコンが表示されているかどうかで判断できます。

ここに画像アイコンが表示されている方は、、、おめでとうございます!すでにGPT-4vを利用することができます。

スマホで使う方法

ChatGPTはスマートフォンからも使うことができます。

アプリを開きログインしたあと、画面左下の画像アップロードアイコンを押下します。

画像を選択して、プロンプトを送るとChatGPTから応答を得ることができます。

音声チャット機能を使うには設定が必要

音声認識機能を使うには、事前に以下の設定が必要です。

  1. 右上の「…」メニューから「Settings」を押下
  2. 「New Features」を押下
  3. 「Voice conversations」をオンにする

GPT-4vを全員が使えるようになるのはいつ?

10/5現在、ネットを見る限りGPT-4vをまだ使うことができないという声も多く見かけます。

GPT-4Vいつになったら使えるようになるんだよーーー

https://x.com/mikansensei/status/1709797236627153207?s=20

まだ GPT-4V も DALL-E3 も使えなくて憤死

https://x.com/izutorishima/status/1709826066960048252?s=20

ちなみに私も使えませんでした・・・。ログイン&ログアウト、リロードをしても何も変わらず・・・。ずっとChatGPTに毎月20ドルも課金してるのにィィィ!!!

・・・で、GPT-4vを全員が使えるようになるのはいつになるかということですが、公式でも情報がなく不明です。

ただ、過去にもGPT-4 APIやプラグイン公開時に順番待ちをさせられて、数日~数週間かかったことがありますので、少なくともそのくらいはかかるのかなぁと思っています。

GPT-4vのAPIはまだ公開されていない

GPT-4は既にAPIが公開されており、APIを使用した数多くのサービスが公開されています。

しかし、GPT-4vはまだAPIが公開されていません。

GPT-4vでできること

GPT-4vでできることについて、既にGPT-4vを試した方がネットに投稿されているものをいくつかピックアップしてみました。

「スクショしたiPhoneの計算機を作って」

これすごいです。。。。

スマホの計算機のスクショを添付して、このアプリを作ってと指示した結果、正しく動く計算機が完成したとのことです。

実際の製作過程がQiitaの記事に載っており、とても興味深い内容でした。

GPT-4V: 驚きを隠せない進化!凄すぎて笑いが止まりません!!!

「この料理のカロリーを教えて」

料理や食べ物の写真を与えて、そのカロリーや成分などを教えてもらうことも可能です。

ダイエット・健康管理の新たな強い味方になってくれるかもしれませんね。

回路図の説明

GPT-4vに回路図を投げると、その説明をしてくれるようです。

「ホワイトボードの図をソースコードに落とし込んで」

GPT-4vに、ホワイトボードの写真を渡して、コードを作成させることもできるようです。

ER図を渡すとSQLを生成してくれる

ER図をGPT-4vに渡すと、SQLを生成してくれるようです。

ツイートにもある通り、ホワイトボードに書いたものをそのままSQLに変換することもできるかもしれないですね。

まとめ

今回は、画像・音声認識機能が加わったChatGPTのGPT-4vモデルについて解説しました。

想像以上にクオリティが高く、仕事にも生活においても幅広く活用できそうなので早く使いたいと思いました。

前々から思い描いてますが、冷蔵庫の中身を送って献立を考えてくれるアプリを作ってみたいなぁなんて。。。他にも、クローゼットに保管してるストック品から一目で足りないものを教えくれるツールとかあったら便利かなと思います。APIが公開されたらいよいよすごいことになりそうですね!

当ブログでは、ChatGPTやその他AIに関する記事を投稿しています。特にChatGPTに関する基本知識や使い方・活用方法等について更新していますので、ぜひ参考にしてみてください。

chaso

文系出身、数字が苦手な平凡主婦。塾講師、大手企業SE、不動産事務、Webライター、QAエンジニアを経て現在RPAエンジニアとして働いています。機械音痴だけど効率化や自動化をこよなく愛しています!お仕事の依頼・ご相談は問い合わせよりお願いいたします♪

chasoをフォローする

コメント

タイトルとURLをコピーしました