11月6日~8日に東京・北の丸公園にある科学技術館で
2019特許・情報フェア&コンファレンスが開催されています。
イベント紹介のリンクは次の通りです。
初日の6日から7日午前まで参加しました(上野)。
企業の展示ブースで興味を持ったのは、一般社団法人 日本特許情報機構
(Japio)の特許用AI翻訳システムのデモでした。
現在注目されているニューラル機械翻訳(NMT)の技術を利用したもので、従来の統計ベース翻訳(SMT)よりも、読みやすい和訳になることが特徴のようです。
翻訳システムのみの提供ではなく、特許情報の検索システムのオプションという扱いです。
世界特許情報全文検索サービスのリンクは次の通りです。
これからIDを取得して、無料トライアル期間中に、いろいろと検討したいと思います。
会場のデモでは、実際にドイツのある化学メーカーの特許を検索して、AI翻訳を試してみました。
セグメント化された対訳画面が表示されて、セグメントごとに和訳が行われて、ほとんどが1秒以内、長くても5秒以内に和訳が表示されます。
ざっと見たところ、ポストエディット(PE)での修正量は30%程度ではないかと思います。
翻訳速度を考えると、外注フリーランス翻訳者に依頼して、納品まで3日待つよりは、その日のうちにPEを開始できるというのは利点ではないでしょうか。
これは決して、ドイツ語翻訳者の仕事を奪うことが目的ではありません。
経験豊富なドイツ語特許翻訳者がなかなか見つからず、翻訳者育成にも時間がかかるため、現状ではNMT+PEで対応するのが現実的な解決策と思われます。
今回は、特に化合物名の処理について、感想をメモしておきます。
化合物名には位置番号やハイフン、各種かっこが使われるため、以前は出力が崩れてしまい、位置番号が文末まで移動するような現象がよく見られました。
JapioのAI翻訳では、他のNMTと同様に化合物名のかたまりとして認識されていて、出力が崩れることはありませんでした。
また、統計ベースで学習されていない化合物名の場合、原文ママで和訳に出力していることが多いようです。
無理やりカタカナ表記にするよりは、PEをしやすいと感じました。
ただし、化合物名の列挙で、複合語の共通する後半部分を省略したハイフンの処理が、まだ対応できていませんでした。
例えば、金属酸化物の列挙で、Aluminium-, Titan- oder Zirkoniumoxid とあり、ハイフン部分は oxid を補足して考えます。
すると和訳は、「酸化アルミニウム、酸化チタンまたは酸化ジルコニウム」になります。
しかし、AI翻訳は「アルミニウム-、チタン-又はジルコニウムオキシド」でした。
原文のハイフンをそのまま残しているので、PEで気づきやすいとは思われます。
ただし、技術内容を理解していない翻訳者がうっかりハイフンを削除してしまったら、酸化アルミニウムとアルミニウムとでは、権利範囲が全く異なってしまいます。
少し笑ってしまったエラーは、錯体の配位子名で発生しました。
名称の一部のみ示すと、-phenylisochinolinato- は、「-フェニルイソキノリナト-」と、日本語名称の作り方に従って字訳してほしいのですが、なんと、「-フェニルisochinoli北大西洋条約組織-」 になっていました。
(追記:11月18日11時に再度試すと、「-フェニルイソキノリナト-」と正しく出力されました。)
他にも学術用語で、「燐光」と「リン光」など、表記ゆれもあるため、気付いた点はフィードバックする予定です。
PEが面倒だと感じるかもしれませんが、機械翻訳を人手不足への対応のために導入することは、意味があると感じました。
加えて、機械翻訳の精度向上を目指すだけではなく、PEができて技術内容も理解するドイツ語人材の養成も、喫緊の課題ではないかと再認識しました。
なお、機械翻訳にご興味がある方は、11月19日に開催されるAAMTシンポジウムに参加されることをお勧めします。
https://aamt.info/aamttokyo2019/
__________________________________________________________________________
Vom 6. Bis 8.
November 2019 fand beim Wissenschaftsmuseum im Kitanomura Park in Tokyo die Patent
Information Fair & Conference statt.
Details zu diesem
Event finden sich unter folgendem Link:
Unser Kollege Dr. Ueno nahm am 6. und am 7. November an der Konferenz teil.
Sein Interesse
galt vor allem der Präsentation neuer Technologien für Patentübersetzung unter
Nutzung künstlicher Intelligenz beim Ausstellungsstand der Japan Patent Information
Organization (Japio). Dabei zeigte
sich vor allem, dass durch die Anwendung der derzeit weltweit für
Aufmerksamkeit sorgenden neuronalen
maschinellen Übersetzung (NMT –
Neural Machine Translation) im Vergleich zur herkömmlichen statistischen
maschinellen Übersetzung, angenehm zu lesende Übersetzungen erhalten werden
können.
Die Organisation Japio bietet ein neues Übersetzungssystem für Patente unter Nutzung künstlicher Intelligenz an, das allerdings derzeit nur in einer Probeversion
läuft. Sobald neue Details zu diesem System bekannt werden, planen wir, dies
auf diesem Blog bekanntzugeben. Beim Ausprobieren dieses neuen Systems im
Rahmen der Konferenz konnte unser Kollege jedenfalls Patente von deutschen
Firmen im Bereich der Chemie recherchieren und mit Hilfe von maschineller
Übersetzung und künstlicher Intelligenz übersetzen lassen.
Dabei wurde die
Patentschrift, wie bei gängigen Übersetzungstools für computergestützte
Übersetzungen, in Segmente aufgeteilt und der deutsche Ausgangstext sowie die
japanische Übersetzung wurden auf einem Bildschirm nebeneinander angezeigt. Die
automatische Übersetzung erfolgte Segment für Segment, wobei die meisten
Segmente innerhalb von einer Sekunde, und selbst längere Segmente innerhalb von
höchstens fünf Sekunden übersetzt und auf Japanisch angezeigt werden konnten. Schätzungsweise
sinkt der Aufwand für einen Übersetzer mit diesem System durch Post Editing (PE) der Rohübersetzung um etwa
30% im Vergleich zu einem Übersetzen ohne die Verwendung maschineller Unterstützung.
Verglichen mit der Beauftragung eines freiberuflichen Übersetzers und der damit
verbundenen Wartezeit hat das System also den Vorteil, dass gleich am selben
Tag mit dem Post Edit-Prozess durch
einen firmeninternen Übersetzer begonnen werden kann.
Aber das Ziel ist
natürlich nicht, Deutsch-Japanisch-Übersetzern die Arbeit wegzunehmen.
Vielmehr ist die
Zahl an erfahrenen Deutsch-Japanisch-Patentübersetzern derzeit zu gering und da
die Ausbildung der benötigten Übersetzer lange Zeit dauert, ist in der
aktuellen Situation der praktikabelste Lösungsansatz, mit neuronaler
maschineller Übersetzung und Post Edit (NMT+PE)
zu arbeiten.
Bei seinem Besuch
auf der Patent Information Fair &
Conference konzentrierte sich unser Kollege Ueno bei einem Probelauf des
neuen Übersetzungssystems vor allem auf dessen Ergebnisse für die Namen chemischer
Verbindungen. Da in den Bezeichnungen chemischer Verbindungen häufig Klammern, Bindestriche und Positionsnummern
verwendet werden, kommt es bei älteren Übersetzungssystemen oft zu Fehlern in
der Ausgabe der maschinellen Übersetzung, wie beispielsweise einem Verschieben
der Positionsnummern an das Satzende. Unser Kollege konnte feststellen, dass
mit dem Übersetzungssystem der Japio
unter Verwendung künstlicher Intelligenz, in gleicher Weise wie für aktuelle
NMT-Übersetzungssysteme, die Namen chemischer Verbindungen als Einheit erkannt
werden und keine der früheren Probleme in dem ausgegebenen Text erkannt werden
konnten.
Des Weiteren
zeigte sich, dass Namen chemischer Verbindungen, die vom System noch nicht
erlernt wurden, in den meisten Fällen direkt aus dem deutschen Ausgangstext
übernommen und unverändert in die japanische Übersetzung eingefügt wurden.
Diese Stellen können leicht erkannt werden, und somit fällt das Post Editing leichter, als wenn die
maschinell nicht übersetzbaren Bezeichnungen, wie bei älteren Systemen, automatisch
in japanische Katakana-Zeichen
umgewandelt werden.
Ein auch derzeit noch
aktuelles Problem des neuen Patentübersetzungssystems von Japio besteht allerdings darin, dass Bindestriche, die im Deutschen
zur Abkürzung gemeinsamer Wortteile verwendet werden, nicht korrekt verarbeitet
werden können, wie von unserem Kollegen in seinen Testversuchen festgestellt
werden konnte. Der deutsche Ausgangstext konnte zum Beispiel im Falle der
Aneinanderreihung von Metalloxiden nicht
korrekt ins Japanische übersetzt werden, wie sich am Beispiel der Wortfolge „Aluminium-, Titan- oder Zirkoniumoxid“ zeigte. Im Japanischen ist es erforderlich,
die Endung –oxid des deutschen Ausgangsworts in der Aufzählung bei allen
genannten Metalloxiden voranzustellen. Die korrekte japanische Übersetzung lautet
also 「酸化アルミニウム、酸化チタンまたは酸化ジルコニウム」(„Aluminiumoxid,
Titanoxid oder Zirkoniumoxid“). In der maschinell erhaltenen Übersetzung wurden
allerdings die Bindestriche, wie im deutschen Ausgangstext, ans Ende der beiden
erstgenannten Metalle angehängt, wodurch die falsche Übersetzung 「アルミニウム-、チタン-又はジルコニウムオキシド」ausgegeben
wurde. Die Bindestriche können beim Post
Edit-Prozess leicht übersehen werden und somit stellt eine dementsprechende
maschinelle Übersetzung eine potentielle Fehlerquelle dar. Außerdem ist es
denkbar, dass ein Übersetzer mit wenig Erfahrung im entsprechenden Bereich der
Technik die Bindestriche beim Post
Editing einfach löscht, wodurch anstelle von 酸化アルミニウム (Aluminiumoxid)
dann nur アルミニウム (Aluminium) erhalten
wird, wodurch sich der Geltungsbereich des übersetzten Patents komplett
verändert.
Einen etwas lustigen
Übersetzungsfehler der maschinellen Übersetzung konnte unser Kollege beim Namen
eines Liganden in einem chemischen Komplex beobachten. Der Teil „-phenylisochinolinato-„
des Liganden wurde nicht als 「-フェニルイソキノリナト-」 übersetzt,
sondern die erste Ausgabe der maschinellen Übersetzung zeigte den Namen als 「-フェニルisochinoli北大西洋条約組織-」 an. Der
letzte Teil des Namen („-nato-“) wurde von dem System also fälschlicherweise als
die Organisation NATO (North Atlantic
Treaty Organization) betrachtet und auf diese Weise ins Japanische
übersetzt. Bei einem weiteren Probelauf des Systems wurde der Ligandenname dann
aber korrekt übersetzt.
Außerdem konnte Dr. Ueno noch weitere Probleme, wie etwa uneinheitliche Bezeichnungen bei der
Übersetzung von Fachbegriffen erkennen. Beispielsweise wurden in der maschinellen
Übersetzung dieselben japanischen Begriffe an einigen Stellen mit Katakana-Zeichen und andernorts mit Kanji-Zeichen wiedergegeben, wie im
Falle von 「燐光」 und 「リン光」.
Manche möchten vielleicht
meinen, der Vorgang des Post Editing
sei uninteressant und mühevoll. Allerdings sind wir in unserer Firma überzeugt,
dass der Einsatz maschineller Übersetzung die Arbeitsschritte beim Übersetzen
beschleunigt und somit angesichts des Mangels an qualifizierten Übersetzern
äußerst nützlich ist.
Im Rahmen seiner
Teilnahme bei dieser Konferenz konnte unser Kollege Dr. Ueno auch aufs Neue
feststellen, dass zusätzlich zu einer Steigerung der Genauigkeit maschineller
Übersetzung, eine verstärkte Ausbildung von Deutsch-Japanisch-Übersetzern, die mit
Post Editing vertraut sind und über spezifisches Fachwissen verfügen, dringend
notwendig ist.