DeepL単体でOCR機能を利用し翻訳を行う(他ツールOCR機能検証)

OCR

DeepLアプリ版に搭載されたOCR機能の紹介および使用方法、また、他のOCR(+翻訳ツール)との性能の比較を行います

本記事は以下の方向けの記事となっております。

・DeepLアプリケーション単体でOCR機能を使いたい方

・他のOCR(+翻訳ツール)との精度の違いを知りたい方

はじめに

本記事では、DeepLのアプリケーション版で機能が追加された、画面キャプチャ(OCR機能)による翻訳方法の設定と、他のOCR+翻訳ツールとの精度の比較を紹介します。

DeepLについて

DeepLはAIを翻訳機能に特化させて学習を行った翻訳サイト(またはアプリケーション)です。

DeepLについての詳しい説明やインストール方法につきましては以下の記事を参照ください。

DeepLにアップデートによりOCR機能が追加

DeepLのアプリケーション版には、以前はなかったOCR機能がアップデートにより追加されました。

これにより、テキストをコピーして貼り付ける作業だけではなく、特定範囲を選択するだけで、画像内の文字を読み取り、翻訳することができるようになりました。

設定方法を画像付きで紹介します。

旧バージョンのDeepLアプリケーションを使用中の方

DeepLアプリケーション版は、基本的に自動アップデートのようですが、もし旧バージョンのDeepLアプリケーションをアップデートしないまま使用されている方は、アップデートしましょう。

OCR機能をONにする

OCR機能をONにする場合、タスクアイコンからDeepLの画面を開きます。

画面右上の横線3本をクリックし、設定をクリックします。

「ショートカットキー」項目の「画面上のテキスト取り込み」にチェックを入れます。これで準備は完了です。

「画面から取り込んで翻訳する原文言語を3つまで選んでください」の項目から翻訳したい言語を選びます。日本語は翻訳される側なので、選ぶ必要はないと思います。

また、決まった言語のみを対象としているのならば、できるだけ数を絞ったほうがOCRの精度もよくなると思いますので、3つといわず、できる限り絞りましょう。

実際にOCR機能を使用する

実際に使用する場合は、先ほど設定したショートカットキーボタンを押します。

今回設定したのは、デフォルトのCtrl+F8キーボタンですが、ボタンを押すと、マウスカーソルが「+」に変換すると思います。

+になったカーソルを翻訳したいテキストの左上を選択し、クリックします。そのまま範囲選択の状態になるので、翻訳したい文章の終わり(右下)まで範囲指定したのちに再度クリックします。

範囲選択が終了すると、「取り込んだテキストを処理しています」と表示されます。

数秒待つと、DeepLのアプリケーションが現れ、OCRで認識した文章と翻訳結果が表示されます。

Escを押すとキャンセルするとありますが、筆者の環境では、+になった状態で何もしないままEscを押しても画像取り込みをキャンセルできませんでした。

その場合は、適当な範囲を翻訳することで対処(というより無理やり翻訳して終了)できました。

OCRの精度について

Wikipedia(英語版)の以下の記事をOCRまたはコピペで取り込んで翻訳してみました。

翻訳した記事

原文

Japan (Japanese: 日本, Nippon or Nihon,[nb 1] and formally 日本国[nb 2]) is an island country in East Asia. It is situated in the northwest Pacific Ocean, and is bordered on the west by the Sea of Japan, while extending from the Sea of Okhotsk in the north toward the East China Sea and Taiwan in the south. Japan is a part of the Ring of Fire, and spans an archipelago of 6852 islands covering 377,975 square kilometers (145,937 sq mi); the five main islands are Hokkaido, Honshu (the "mainland"), Shikoku, Kyushu, and Okinawa. Tokyo is the nation's capital and largest city; other major cities include Yokohama, Osaka, Nagoya, Sapporo, Fukuoka, Kobe, and Kyoto.

Japan - Wikipedia
の出だしから引用

テキストをコピペ

日本(にほん、NipponまたはNb 1]、正式には日本国[nb 2])は、東アジアにある島国である。太平洋の北西に位置し、西は日本海に面し、北はオホーツク海から南は東シナ海と台湾に面している。日本は環太平洋火山帯の一部であり、北海道、本州、四国、九州、沖縄の5つの主要な島からなる6852平方キロメートル(377975平方キロメートル)の列島に広がっている。東京は首都であり、最大の都市です。その他の主要都市には、横浜、大阪、名古屋、札幌、福岡、神戸、京都があります。

OCRで翻訳

同じ範囲を指定して翻訳してもらいました。

結果はこちら

日本(にほん、A%, Nippon or Nihon,!"® 1]、正式にはBASE)!"21 "は、東アジアの島国。21)は、東アジアに位置する島国である。太平洋の北西に位置し、西は日本海に面している。
北はオホーツク海、南は東シナ海と台湾に面している。日本は環太平洋火山帯の一部であり、6852の島々からなる377975平方キロメートルの列島です。

北海道、本州、四国、九州、沖縄の5つの主要な島からなる。東京は首都であり、最大の都市であり、その他の主要都市は以下の通りです。
横浜、大阪、名古屋、札幌、福岡、神戸、京都など。

途中の不要な改行をなくすと、ほぼほぼ同じ翻訳になりました。

OCRの場合は、注釈には、うまく対応できていない点と、画像認識時の改行状態をそのまま読み取って翻訳してしまうということがあるようですが、それ以外はほぼ正確な読み取りになっていて、正しく翻訳できています。

他のOCR(+翻訳)ソフトとの比較

ゲームなどでよく使用されているのはPCOTですが、それらと比べてOCRの精度や使い勝手などを比べました。

PCOTについての詳細や、インストール方法などは、以下の記事を参照ください。

OCR機能

PCOTのOCR機能を使って翻訳してみた結果をいくつかの項目により判定しました。実際の翻訳結果は、下の画像のようになりました。

画像中の文章が途中で改行された場合

DeepLでは、画像中に改行された際にうまく開業できませんでしたが、PCOTは改行の文字を指定することができる設定が存在します。そのため、文章の途中で改行されるということがなく、続きの文章として取り込むことができているようです。

翻訳速度

翻訳するまでのスピードは、DeepLアプリケーションに軍配が上がります。

PCOTの場合は10秒程度待つ必要がありましたが、DeepLは数秒で翻訳してきました。

ただし、PCOTは、DeepLから直接OCRを起動しているわけではないので、OCR→PCOT→DeepLとなっている関係上で遅くなっているだけとも考えられました。

画像指定時のUI

画像指定のUIは、DeepLはマウスカーソルが+になるだけで、背景等は変わりませんが、PCOTの場合は、黒背景になり、そこから選択指定している場所が一目でわかるようになりました。どちらがいいかというのは、好みになりますが、PCOTのほうがユーザに対しては親切かなと筆者は感じました。

翻訳精度

PCOTではDeepLと連携して、翻訳する機能が存在します。どちらも元が同じなので、翻訳精度には影響がないと思います(実際に試しても、AIの気まぐれで微妙に翻訳が変わる程度でした)。

指定したアプリケーションのみでの動作

PCOTは、指定したアプリケーションのみで翻訳機能が働く「プロセス選択」機能が存在します。そのため、前面に指定していないアプリケーションが存在する場合、OCR機能選択では自動的にあらかじめ指定指定しているアプリケーションにフォーカスが写ります。

これは、ゲームなどで全画面表示を行っているときはもちろんのこと、ウィンドウモードの場合であっても、非常に有効だと思います。

一方で、DeepLは、特定のアプリケーションを「除外する」機能はあっても、1つのアプリケーションにフォーカスできないので、アプリケーションを行ったり来たりする可能性がある場合は、毎回翻訳したいアプリケーションを最前面に持ってくる必要があるので、手間があると感じました。

DeepLとPCOTかどっちを使えばいいのか

筆者の中ではDeepLとPCOTどちらを使うかは以下の条件によると思いましたが、あくまで筆者の意見ですので、使用される方は、どちらも使ってみて自分に合ったほうを使用するとよいと思います。

DeepL

  • 翻訳するまで1秒でも待ちたくない方
  • なんとなく意味がつかめればいい方(画像の改行により、少し違和感のある翻訳になることも)
  • 翻訳する画面が、常に手前にある方(翻訳対象がバックグラウンドに行かない方)

PCOT

  • 正確な翻訳を求める方
  • 翻訳する画面が、常に手前になく埋もれてしまう可能性のある方(翻訳対象が全画面やバックグラウンドに行ってしまう方)
  • 「今画像認識中だ!」とはっきり区別をつけたい方

まとめ

DeepLを用いてOCR翻訳を行う場合の設定方法、および実際の翻訳精度を検証しました。

また、同様のツールであるPCOTと比べたメリットデメリットを紹介しました。

本記事のおさらいは以下の通りです。

・DeepLアプリケーション単体でOCR機能の設定および使用方法

・OCR機能を使った翻訳機能の検証

・PCOTとの違いやメリットデメリットの考察

コメント

タイトルとURLをコピーしました