2023年9月25日、OpenAI社はChatGPTに関してこんな衝撃的な発表をしました。
ChatGPT can now see, hear, and speak
訳:ChatGPT は見たり、聞いたり、話したりできるようになりました
こちらはOpenAIのデモになりますが、「自転車のサドルを低くして」と指示すると、サドルを低くした画像を返してくれます。
また、ChatGPTと会話形式で音声でのやりとりができるようになります。応答音声はテキストで出力することも可能です。公式サイトには音声サンプルが載っていますが、とても自然で本当の人間のようなものになっています。
GPT-4vの料金は?
GPT-4vは、ChatGPT Plusに課金していないと使うことができません。
ChatGPT Plusは月額20ドルです。
ChatGPT Plusへのアップグレード方法
ChatGPTを開き、チャット画面左側にあるメニューから「Upgrade to Plus」を選択すると以下のモーダルが表示されますので「Upgrate plan」を押します。
支払いはクレジットカードのみで、解約しない限り毎月引き落としとなります。
GPT-v4が使えるかどうか確認する方法
GPT-4vが使えるかどうかを確認するには、ChatGPTを開きます。
モデルがGPT-4になっていることと、モードが「Default」になっていることを確認します。
プロンプト入力エリアの左側に画像アップロード用のアイコンが表示されているかどうかで判断できます。
ここに画像アイコンが表示されている方は、、、おめでとうございます!すでにGPT-4vを利用することができます。
スマホで使う方法
ChatGPTはスマートフォンからも使うことができます。
- App Store:「ChatGPT」をApp Storeで – Apple
- Google Play:ChatGPT – Google Play のアプリ
アプリを開きログインしたあと、画面左下の画像アップロードアイコンを押下します。
画像を選択して、プロンプトを送るとChatGPTから応答を得ることができます。
音声チャット機能を使うには設定が必要
音声認識機能を使うには、事前に以下の設定が必要です。
- 右上の「…」メニューから「Settings」を押下
- 「New Features」を押下
- 「Voice conversations」をオンにする
GPT-4vを全員が使えるようになるのはいつ?
10/5現在、ネットを見る限りGPT-4vをまだ使うことができないという声も多く見かけます。
GPT-4Vいつになったら使えるようになるんだよーーー
https://x.com/mikansensei/status/1709797236627153207?s=20
まだ GPT-4V も DALL-E3 も使えなくて憤死
https://x.com/izutorishima/status/1709826066960048252?s=20
ちなみに私も使えませんでした・・・。ログイン&ログアウト、リロードをしても何も変わらず・・・。ずっとChatGPTに毎月20ドルも課金してるのにィィィ!!!
・・・で、GPT-4vを全員が使えるようになるのはいつになるかということですが、公式でも情報がなく不明です。
ただ、過去にもGPT-4 APIやプラグイン公開時に順番待ちをさせられて、数日~数週間かかったことがありますので、少なくともそのくらいはかかるのかなぁと思っています。
GPT-4vのAPIはまだ公開されていない
GPT-4は既にAPIが公開されており、APIを使用した数多くのサービスが公開されています。
しかし、GPT-4vはまだAPIが公開されていません。
GPT-4vでできること
GPT-4vでできることについて、既にGPT-4vを試した方がネットに投稿されているものをいくつかピックアップしてみました。
「スクショしたiPhoneの計算機を作って」
これすごいです。。。。
スマホの計算機のスクショを添付して、このアプリを作ってと指示した結果、正しく動く計算機が完成したとのことです。
GPT-4Vに、某計算機アプリのスクショを与えてこのアプリ作りたいと指示したら、正常に動いて計算もできるHTML+jsのサンプルコードが1発で出てきた。フロントエンドのレイアウトもちゃんと守ってる。開発も色々と変わりそうな予感。 pic.twitter.com/IuSIwub5av
— FabyΔ (@FABYMETAL4) September 27, 2023
実際の製作過程がQiitaの記事に載っており、とても興味深い内容でした。
GPT-4V: 驚きを隠せない進化!凄すぎて笑いが止まりません!!!
「この料理のカロリーを教えて」
料理や食べ物の写真を与えて、そのカロリーや成分などを教えてもらうことも可能です。
ダイエット・健康管理の新たな強い味方になってくれるかもしれませんね。
【ChatGPTで料理の写真撮ればカロリーとアレルギーがわかる】
— チャエン | 重要AIニュースを毎日発信⚡️ (@masahirochaen) October 4, 2023
料理の
・名前
・成分
・カロリー
・アレルギー
が分かる
料理の種類でムラはあるが、健康・体重管理にも使える
控えめに言ってGPT-4V最強では?
早くARグラスに搭載されて、見るだけで全て理解できるようになりたい
プロンプト↓ pic.twitter.com/IOtbnNDqyG
回路図の説明
GPT-4vに回路図を投げると、その説明をしてくれるようです。
GPT-4V、回路図も読めるじゃん。正解は昇降圧型DC/DCなんですが、バックブーストレギュレータとも言うので正解。 pic.twitter.com/rQc4fmhkTK
— ⚙gear machine (@grmchn4ai) September 29, 2023
「ホワイトボードの図をソースコードに落とし込んで」
GPT-4vに、ホワイトボードの写真を渡して、コードを作成させることもできるようです。
You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you.
— Mckay Wrigley (@mckaywrigley) September 27, 2023
This is absolutely insane. pic.twitter.com/bGWT5bU8MK
ER図を渡すとSQLを生成してくれる
ER図をGPT-4vに渡すと、SQLを生成してくれるようです。
ツイートにもある通り、ホワイトボードに書いたものをそのままSQLに変換することもできるかもしれないですね。
GPT-4Vで、データテーブルのER図画像から全テーブルのSQL作成できました。多少間違いはあるので修正は必要ですが、ちょっとした工数削減になりますね。会議でER図を議論しながらホワイボードに書き、写真からコード作成できるかもしれないです。 pic.twitter.com/pC5bAQSujt
— 三好淳一@リフレクトCEO:ChatGPT×人材育成・業務支援 (@jumiyoshi) September 28, 2023
まとめ
今回は、画像・音声認識機能が加わったChatGPTのGPT-4vモデルについて解説しました。
想像以上にクオリティが高く、仕事にも生活においても幅広く活用できそうなので早く使いたいと思いました。
前々から思い描いてますが、冷蔵庫の中身を送って献立を考えてくれるアプリを作ってみたいなぁなんて。。。他にも、クローゼットに保管してるストック品から一目で足りないものを教えくれるツールとかあったら便利かなと思います。APIが公開されたらいよいよすごいことになりそうですね!
当ブログでは、ChatGPTやその他AIに関する記事を投稿しています。特にChatGPTに関する基本知識や使い方・活用方法等について更新していますので、ぜひ参考にしてみてください。
コメント