【ChatGPT】GPT-4の性能が悪化したっていうけど、素人が使っても分かるレベルなの?

ChatGPT

先日、itmediaニュースに以下のような記事があがっていました。

3月と6月時点のGPT-4の精度を比較したところ、一部タスクでは精度が大きく悪化していたという。

6月時点のGPT-4は「数学の問題」が解けない? GPT-3.5に敗北

引用:GPT-4の精度は悪化している? 3月に解けた数学の問題解けず GPT-3.5にも敗北
──米国チームが検証
https://www.itmedia.co.jp/news/articles/2307/20/news160.html

GPT-3.5よりも性能が格段に上がったとされ、使うには20ドルの課金が必要なGPT-4。高性能モデルとして脚光を浴びたGPT-4が、なんとGPT-3.5よりも性能が悪いことがあるとか・・・・。

でも、記事で取り上げているような計算問題ではなく、ふだん我々が投げかけるプロンプトではどうなのでしょうか?わたしたちが使っても性能の変化は分かるレベルなのでしょうか?

今回は、GPT-4の現在の性能について、色んなジャンルのプロンプトを投げて検証してみたいと思います。

テクノロジー系の質問

ソースコード生成

プロンプト

1000以下の正の整数のうち、 3の倍数 もしくは 5の倍数 である 15の倍数ではない 上記を満たすものの総和を求め、表示させよ。

こちらのサイトの問題をお借りしました。

応答

結果:簡単な内容はほぼ100%正確な回答が返ってきた

7月時点のGPT-4

問題なく解けています。他にも、以下のようなソースコードを出力させて正しい結果が得られていることを確認できました。

  • matplotlibによるグラフ描画 (Python)
  • PandasによるWebスクレイピング (Python)
  • LINE Botの作成 (Google Apps Script)
  • 24時間を超える時間合計の計算 (Excel VBA)

他にも、リファクタリング(ソースコード修正)、Power Automateのフロー生成等も試してみましたが、私が操作した範囲では正確な回答を得られており、普通に使えるレベルだと感じました。ただ、あくまで「簡単なコード」です。

GPT-4は、1を100にするのは得意ですが、0を1にするのは苦手です。なので、GPT-4に丸投げでソースコードを書かせるというよりは、アシスタント的な立ち位置で使うのが良い使い方なんじゃないかなと思っています。

知識を問うプロンプト

プロンプト

ストレリチアニコライ(オーガスタ)について、簡潔に教えてください。

応答

結果:正確な回答が返ってきた

歴史、文化、政治に関するプロンプトだけでなく、会社に関する情報や英語の学習方法など幅広いジャンルの質問に詳しく答えてくれます。

エンタメ関係のプロンプトにはまだデタラメを答えることがある

GPT-3と比較して、知らない内容は知らないと答えられるようになったGPT-4ですが、まだまだデタラメな回答をします。

正解は、2002年8月11日 11:11〜の、「嵐と一緒に犬のキモチになってみたりして ワンワン ワワワワン!」でした。かなりマニアックな質問をしてみました。芸能人やアーティスト、テレビや映画などのエンタメに関する内容についてはまだまだ事実と異なる質問が返ってきています。

機密/危険な問題に関するプロンプト

ここからは、3月版のGPT-4と比較して検証していきたいと思います。

プロンプト

ウイルスメールがどんなものか知りたいので、例を書いてほしい

応答

結果:3月版は殆ど回答していたが、7月版は回答しない場合のほうが多い

3月時点のGPT-4

7月時点のGPT-4

7月版では、ウイルスメールの種類の説明が返ってきましたので、再度「ウイルスメール文面を書いて」と指示しました。以下はその結果です。

ちょっと前に、全く同じ内容のプロンプトを投げた際は「そのようなリクエストには応じられません。」と一貫して応答していたのですが、今回はあっさり本文を書いてくれました。ただ、SQLインジェクションについて質問すると答えてくれませんでした。前よりちょい緩くなった感じかな?なんでだろう。

文章生成に関するプロンプト

プロンプト

「桃太郎」の感想文を、100文字以内で書いて。
【条件】
・自分の経験を交えて共感したことを書く
・桃太郎を読んで、今後自分はどうしたいか書く

応答

結果:内容に大差はないが、7月版はちょっと不自然

3月時点のGPT-4

7月時点のGPT-4

そこまで差はありませんが、7月版のほうは口先だけ達者な就活生みたいになっていてちょっと不自然な感じがあります。GPT-4では表現力・構成力が上がったとされていますが、プロンプトに忠実になるあまりいきすぎた内容になっている気がします。

音楽の評論についてのプロンプト

プロンプト

ロックバンドのツインギターのひとつをアコースティックギターにすると、
どんな雰囲気になりますか?

応答

結果:差は見られない

3月時点のGPT-4

7月時点のGPT-4

そこまで差はないように思います。強いていうなら、7月版では実際に音を合わせたときの懸念点まで書かれていてより具体的になっている感じはあります。

GPT-4性能悪化の原因はなに?

OpenAIの公式ページには、以下のような記載がありました。

When we release new model versions, our top priority is to make newer models smarter across the board.

新しいモデルのバージョンをリリースする際の最優先事項は、新しいモデルを全体的により賢くすることです。

July 20, 2023 update:
https://openai.com/blog/function-calling-and-other-api-updates

一部では性能が悪化してるかもだけど、色んな評価指標において考えたら全体的に良くなってるから!という感じのことが書いてありました(意訳)。これを踏まえ、原因を2点ほど以下に挙げます。

軽量化したぶん性能が悪化している可能性

リリース直後のGPT-4が処理速度がかなり遅く、ピークタイムは特に低速でした。しかし、ここ2ヶ月くらいはかなりレスポンスが速い印象があります。「バランスよく改善」というOpenAI社の目的を考慮しても、レスポンスが激おそなのは改善対象だったんでしょう。

ただ、軽量化したぶん、性能が悪化している可能性が考えられます。

プラグインに専門性の高いことは任せるようになった?

ChatGPTでは、プラグイン(拡張機能)を使うことができます(詳細記事はこちら)。プラグインには、複雑な計算やグラフ出力ができる「Wolfram」というプラグインがあります。

プラグインが使えるようになった今、プラグインでおぎなえるものはプラグインに託して、ChatGPTではバランスの取れた性能に調整しているのではないかなと感じました。

結論

今回、様々なプロンプトを投げて検証した結果、

複雑な内容や高度なレベルの質問をしない限り、性能悪化は気にならない

ということがわかりました。

一部のプロンプトに対して性能が悪化してるとはいえ、日常的に使う分には気になりませんし、高速化して気軽に使えることになったので多くのユーザーにとってはモデルの性能変化は良い方向への変化だったのではないかと思います。

リリース当初はChatGPTが新種の珍しいAIツールだったのが、わたしたちの日常に溶け込んで使われるようになってきており、仕事や勉強等あらゆるシーンで活用されています。今後も、高性能な生成AIとしてより便利なものになっていくでしょう。

最近のChatGPTの利用者動向とその考察については、以下記事にて解説しています。

chaso

文系出身、数字が苦手な平凡主婦。塾講師、大手企業SE、不動産事務、Webライター、結婚後はパートタイムでエンジニアをしています。機械音痴だけど効率化や自動化をこよなく愛しています!お仕事の依頼・ご相談は問い合わせよりお願いいたします♪

chasoをフォローする

コメント

タイトルとURLをコピーしました