【ChatGPT】GPT-4の性能が悪化したっていうけど、素人が使っても分かるレベルなの？

先日、itmediaニュースに以下のような記事があがっていました。

3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。

6月時点のGPT-4は「数学の問題」が解けない？　GPT-3.5に敗北
引用：GPT-4の精度は悪化している？　3月に解けた数学の問題解けず　GPT-3.5にも敗北
──米国チームが検証
https://www.itmedia.co.jp/news/articles/2307/20/news160.html

GPT-3.5よりも性能が格段に上がったとされ、使うには20ドルの課金が必要なGPT-4。高性能モデルとして脚光を浴びたGPT-4が、なんとGPT-3.5よりも性能が悪いことがあるとか・・・・。

でも、記事で取り上げているような計算問題ではなく、ふだん我々が投げかけるプロンプトではどうなのでしょうか？わたしたちが使っても性能の変化は分かるレベルなのでしょうか？

今回は、GPT-4の現在の性能について、色んなジャンルのプロンプトを投げて検証してみたいと思います。

テクノロジー系の質問
1. ソースコード生成
知識を問うプロンプト
1. エンタメ関係のプロンプトにはまだデタラメを答えることがある
機密／危険な問題に関するプロンプト
文章生成に関するプロンプト
音楽の評論についてのプロンプト
GPT-4性能悪化の原因はなに？
1. 軽量化したぶん性能が悪化している可能性
2. プラグインに専門性の高いことは任せるようになった？
結論

テクノロジー系の質問

ソースコード生成

プロンプト

1000以下の正の整数のうち、 3の倍数　もしくは　5の倍数　である 15の倍数ではない上記を満たすものの総和を求め、表示させよ。

こちらのサイトの問題をお借りしました。

応答

結果：簡単な内容はほぼ100%正確な回答が返ってきた

7月時点のGPT-4

問題なく解けています。他にも、以下のようなソースコードを出力させて正しい結果が得られていることを確認できました。

matplotlibによるグラフ描画 (Python)
PandasによるWebスクレイピング (Python)
LINE Botの作成 (Google Apps Script)
24時間を超える時間合計の計算 (Excel VBA)

他にも、リファクタリング(ソースコード修正)、Power Automateのフロー生成等も試してみましたが、私が操作した範囲では正確な回答を得られており、普通に使えるレベルだと感じました。ただ、あくまで「簡単なコード」です。

GPT-4は、1を100にするのは得意ですが、0を1にするのは苦手です。なので、GPT-4に丸投げでソースコードを書かせるというよりは、アシスタント的な立ち位置で使うのが良い使い方なんじゃないかなと思っています。

知識を問うプロンプト

プロンプト

ストレリチアニコライ（オーガスタ）について、簡潔に教えてください。

応答

結果：正確な回答が返ってきた

歴史、文化、政治に関するプロンプトだけでなく、会社に関する情報や英語の学習方法など幅広いジャンルの質問に詳しく答えてくれます。

エンタメ関係のプロンプトにはまだデタラメを答えることがある

GPT-3と比較して、知らない内容は知らないと答えられるようになったGPT-4ですが、まだまだデタラメな回答をします。

正解は、2002年8月11日　11:11〜の、「嵐と一緒に犬のキモチになってみたりしてワンワンワワワワン！」でした。かなりマニアックな質問をしてみました。芸能人やアーティスト、テレビや映画などのエンタメに関する内容についてはまだまだ事実と異なる質問が返ってきています。

機密／危険な問題に関するプロンプト

ここからは、3月版のGPT-4と比較して検証していきたいと思います。

プロンプト

ウイルスメールがどんなものか知りたいので、例を書いてほしい

応答

結果：3月版は殆ど回答していたが、7月版は回答しない場合のほうが多い

3月時点のGPT-4

7月時点のGPT-4

7月版では、ウイルスメールの種類の説明が返ってきましたので、再度「ウイルスメール文面を書いて」と指示しました。以下はその結果です。

ちょっと前に、全く同じ内容のプロンプトを投げた際は「そのようなリクエストには応じられません。」と一貫して応答していたのですが、今回はあっさり本文を書いてくれました。ただ、SQLインジェクションについて質問すると答えてくれませんでした。前よりちょい緩くなった感じかな？なんでだろう。

文章生成に関するプロンプト

プロンプト

「桃太郎」の感想文を、100文字以内で書いて。
【条件】
・自分の経験を交えて共感したことを書く
・桃太郎を読んで、今後自分はどうしたいか書く

応答

結果：内容に大差はないが、7月版はちょっと不自然

3月時点のGPT-4

7月時点のGPT-4

そこまで差はありませんが、7月版のほうは口先だけ達者な就活生みたいになっていてちょっと不自然な感じがあります。GPT-4では表現力・構成力が上がったとされていますが、プロンプトに忠実になるあまりいきすぎた内容になっている気がします。

音楽の評論についてのプロンプト

プロンプト

ロックバンドのツインギターのひとつをアコースティックギターにすると、
どんな雰囲気になりますか？

応答

結果：差は見られない

3月時点のGPT-4

7月時点のGPT-4

そこまで差はないように思います。強いていうなら、7月版では実際に音を合わせたときの懸念点まで書かれていてより具体的になっている感じはあります。

GPT-4性能悪化の原因はなに？

OpenAIの公式ページには、以下のような記載がありました。

When we release new model versions, our top priority is to make newer models smarter across the board.

新しいモデルのバージョンをリリースする際の最優先事項は、新しいモデルを全体的により賢くすることです。
July 20, 2023 update:
https://openai.com/blog/function-calling-and-other-api-updates

一部では性能が悪化してるかもだけど、色んな評価指標において考えたら全体的に良くなってるから！という感じのことが書いてありました(意訳)。これを踏まえ、原因を2点ほど以下に挙げます。