2019年11月8日金曜日

Japioの特許用AI翻訳システムのデモを体験しました

11月6日~8日に東京・北の丸公園にある科学技術館で
2019特許・情報フェア&コンファレンスが開催されています。
イベント紹介のリンクは次の通りです。

初日の6日から7日午前まで参加しました(上野)。

企業の展示ブースで興味を持ったのは、一般社団法人 日本特許情報機構
(Japio)の特許用AI翻訳システムのデモでした。

現在注目されているニューラル機械翻訳(NMT)の技術を利用したもので、従来の統計ベース翻訳(SMT)よりも、読みやすい和訳になることが特徴のようです。

翻訳システムのみの提供ではなく、特許情報の検索システムのオプションという扱いです。
世界特許情報全文検索サービスのリンクは次の通りです。

現時点ではまだ正式運用ではないため、β版の試用期間となっています。
試用期間に関するお知らせは次のリンク(PDF)を参照してください。
https://gpgfx.japio.or.jp/notice_20191101.pdf

これからIDを取得して、無料トライアル期間中に、いろいろと検討したいと思います。

会場のデモでは、実際にドイツのある化学メーカーの特許を検索して、AI翻訳を試してみました。

セグメント化された対訳画面が表示されて、セグメントごとに和訳が行われて、ほとんどが1秒以内、長くても5秒以内に和訳が表示されます。

ざっと見たところ、ポストエディット(PE)での修正量は30%程度ではないかと思います。

翻訳速度を考えると、外注フリーランス翻訳者に依頼して、納品まで3日待つよりは、その日のうちにPEを開始できるというのは利点ではないでしょうか。

これは決して、ドイツ語翻訳者の仕事を奪うことが目的ではありません。

経験豊富なドイツ語特許翻訳者がなかなか見つからず、翻訳者育成にも時間がかかるため、現状ではNMT+PEで対応するのが現実的な解決策と思われます。


今回は、特に化合物名の処理について、感想をメモしておきます。

化合物名には位置番号やハイフン、各種かっこが使われるため、以前は出力が崩れてしまい、位置番号が文末まで移動するような現象がよく見られました。

JapioのAI翻訳では、他のNMTと同様に化合物名のかたまりとして認識されていて、出力が崩れることはありませんでした。

また、統計ベースで学習されていない化合物名の場合、原文ママで和訳に出力していることが多いようです。
無理やりカタカナ表記にするよりは、PEをしやすいと感じました。

ただし、化合物名の列挙で、複合語の共通する後半部分を省略したハイフンの処理が、まだ対応できていませんでした。

例えば、金属酸化物の列挙で、Aluminium-, Titan- oder Zirkoniumoxid とあり、ハイフン部分は oxid を補足して考えます。

すると和訳は、「酸化アルミニウム、酸化チタンまたは酸化ジルコニウム」になります。
しかし、AI翻訳は「アルミニウム-、チタン-又はジルコニウムオキシドでした。

原文のハイフンをそのまま残しているので、PEで気づきやすいとは思われます。
ただし、技術内容を理解していない翻訳者がうっかりハイフンを削除してしまったら、酸化アルミニウムとアルミニウムとでは、権利範囲が全く異なってしまいます。

少し笑ってしまったエラーは、錯体の配位子名で発生しました。

名称の一部のみ示すと、-phenylisochinolinato- は、「-フェニルイソキノリナト-」と、日本語名称の作り方に従って字訳してほしいのですが、なんと、「-フェニルisochinoli北大西洋条約組織-」 になっていました。

他にも学術用語で、「燐光」と「リン光」など、表記ゆれもあるため、気付いた点はフィードバックする予定です。

PEが面倒だと感じるかもしれませんが、機械翻訳を人手不足への対応のために導入することは、意味があると感じました。

加えて、機械翻訳の精度向上を目指すだけではなく、PEができて技術内容も理解するドイツ語人材の養成も、喫緊の課題ではないかと再認識しました。

なお、機械翻訳にご興味がある方は、11月19日に開催されるAAMTシンポジウムに参加されることをお勧めします。
https://aamt.info/aamttokyo2019/

0 件のコメント:

コメントを投稿