先日、itmediaニュースに以下のような記事があがっていました。
3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。
6月時点のGPT-4は「数学の問題」が解けない? GPT-3.5に敗北
引用:GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北
──米国チームが検証
https://www.itmedia.co.jp/news/articles/2307/20/news160.html
GPT-3.5よりも性能が格段に上がったとされ、使うには20ドルの課金が必要なGPT-4。高性能モデルとして脚光を浴びたGPT-4が、なんとGPT-3.5よりも性能が悪いことがあるとか・・・・。
でも、記事で取り上げているような計算問題ではなく、ふだん我々が投げかけるプロンプトではどうなのでしょうか?わたしたちが使っても性能の変化は分かるレベルなのでしょうか?
今回は、GPT-4の現在の性能について、色んなジャンルのプロンプトを投げて検証してみたいと思います。
テクノロジー系の質問
ソースコード生成
7月時点のGPT-4
問題なく解けています。他にも、以下のようなソースコードを出力させて正しい結果が得られていることを確認できました。
- matplotlibによるグラフ描画 (Python)
- PandasによるWebスクレイピング (Python)
- LINE Botの作成 (Google Apps Script)
- 24時間を超える時間合計の計算 (Excel VBA)
他にも、リファクタリング(ソースコード修正)、Power Automateのフロー生成等も試してみましたが、私が操作した範囲では正確な回答を得られており、普通に使えるレベルだと感じました。ただ、あくまで「簡単なコード」です。
GPT-4は、1を100にするのは得意ですが、0を1にするのは苦手です。なので、GPT-4に丸投げでソースコードを書かせるというよりは、アシスタント的な立ち位置で使うのが良い使い方なんじゃないかなと思っています。
知識を問うプロンプト
歴史、文化、政治に関するプロンプトだけでなく、会社に関する情報や英語の学習方法など幅広いジャンルの質問に詳しく答えてくれます。
エンタメ関係のプロンプトにはまだデタラメを答えることがある
GPT-3と比較して、知らない内容は知らないと答えられるようになったGPT-4ですが、まだまだデタラメな回答をします。
正解は、2002年8月11日 11:11〜の、「嵐と一緒に犬のキモチになってみたりして ワンワン ワワワワン!」でした。かなりマニアックな質問をしてみました。芸能人やアーティスト、テレビや映画などのエンタメに関する内容についてはまだまだ事実と異なる質問が返ってきています。
機密/危険な問題に関するプロンプト
ここからは、3月版のGPT-4と比較して検証していきたいと思います。
3月時点のGPT-4
7月時点のGPT-4
7月版では、ウイルスメールの種類の説明が返ってきましたので、再度「ウイルスメール文面を書いて」と指示しました。以下はその結果です。
ちょっと前に、全く同じ内容のプロンプトを投げた際は「そのようなリクエストには応じられません。」と一貫して応答していたのですが、今回はあっさり本文を書いてくれました。ただ、SQLインジェクションについて質問すると答えてくれませんでした。前よりちょい緩くなった感じかな?なんでだろう。
文章生成に関するプロンプト
3月時点のGPT-4
7月時点のGPT-4
そこまで差はありませんが、7月版のほうは口先だけ達者な就活生みたいになっていてちょっと不自然な感じがあります。GPT-4では表現力・構成力が上がったとされていますが、プロンプトに忠実になるあまりいきすぎた内容になっている気がします。
音楽の評論についてのプロンプト
3月時点のGPT-4
7月時点のGPT-4
そこまで差はないように思います。強いていうなら、7月版では実際に音を合わせたときの懸念点まで書かれていてより具体的になっている感じはあります。
GPT-4性能悪化の原因はなに?
OpenAIの公式ページには、以下のような記載がありました。
When we release new model versions, our top priority is to make newer models smarter across the board.
新しいモデルのバージョンをリリースする際の最優先事項は、新しいモデルを全体的により賢くすることです。
July 20, 2023 update:
https://openai.com/blog/function-calling-and-other-api-updates
一部では性能が悪化してるかもだけど、色んな評価指標において考えたら全体的に良くなってるから!という感じのことが書いてありました(意訳)。これを踏まえ、原因を2点ほど以下に挙げます。
軽量化したぶん性能が悪化している可能性
リリース直後のGPT-4が処理速度がかなり遅く、ピークタイムは特に低速でした。しかし、ここ2ヶ月くらいはかなりレスポンスが速い印象があります。「バランスよく改善」というOpenAI社の目的を考慮しても、レスポンスが激おそなのは改善対象だったんでしょう。
ただ、軽量化したぶん、性能が悪化している可能性が考えられます。
プラグインに専門性の高いことは任せるようになった?
ChatGPTでは、プラグイン(拡張機能)を使うことができます(詳細記事はこちら)。プラグインには、複雑な計算やグラフ出力ができる「Wolfram」というプラグインがあります。
プラグインが使えるようになった今、プラグインでおぎなえるものはプラグインに託して、ChatGPTではバランスの取れた性能に調整しているのではないかなと感じました。
結論
今回、様々なプロンプトを投げて検証した結果、
複雑な内容や高度なレベルの質問をしない限り、性能悪化は気にならない
ということがわかりました。
一部のプロンプトに対して性能が悪化してるとはいえ、日常的に使う分には気になりませんし、高速化して気軽に使えることになったので多くのユーザーにとってはモデルの性能変化は良い方向への変化だったのではないかと思います。
リリース当初はChatGPTが新種の珍しいAIツールだったのが、わたしたちの日常に溶け込んで使われるようになってきており、仕事や勉強等あらゆるシーンで活用されています。今後も、高性能な生成AIとしてより便利なものになっていくでしょう。
最近のChatGPTの利用者動向とその考察については、以下記事にて解説しています。
コメント