週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

PoCフェーズの企業に無償で提供するオープイノベーションを展開

日本語で東大生超えの自然言語処理スコアを出すAI「ELYZA Brain」

 AI、特に機械学習における画像認識や自然言語処理における進化は日々とめどなく続いている。たとえば、この夏に発表された、人間が書いたような文章を自動生成できる高性能言語モデル「GPT-3」は英語圏で非常に話題となっているが、日本語の壁ゆえに、日本ではまだ知名度が低い。

 AIにおける自然言語処理の技術は進歩を続けており、2018年10月にGoogleが論文発表をしたBERTをきっかけに翌2019年には自然言語処理で人間超えのスコアを出す成果が出ている。いまやAIは人間よりも正確に文章を分類できるようになったのだ。

 しかし、これはあくまで英語圏に限った話。膨大な予算での研究が進められているが、日本は後れを取っていた。そんな中、東京大学 松尾研究室発のスタートアップ・株式会社ELYZAが人間を超える国内最大の日本語AIエンジン「ELYZA Brain」開発を発表した。同社ではこの技術を武器に、社会実装を経て、事業開発までを視野に入れて活動している。

PoCからの本格開発が8割を超えるAI事業を展開

株式会社ELYZA 代表取締役CEO 曽根岡侑也氏(左)と東京⼤学 ⼤学院⼯学系研究科 ⼈⼯物⼯学研究センター / 技術経営戦略学専攻 教授、⼀般社団法⼈⽇本ディープラーニング協会理事⻑ 松尾豊⽒(右)

 ELYZA(イライザ)は松尾研究所のプロジェクトからスピンアウトする形で2018年に設立された。主要業務はAI開発のコンサルティング。現在のスタッフ数は30人ほどで、AI領域で3つの活動を行っている。

 一つ目が研究開発。先端技術をきちんと使える形にするための人工知能の研究を行っている。二つ目が社会実装。使えるようになった技術をいろいろなユースケースで試し、どこで大きなインパクトが生まれるのかを見る。三つ目が事業開発。価値が検証できたものをサービスとして外に出していく業務を行っている。

 大企業とスタートアップのオープイノベーションでは、PoC(概念実証)で終わってしまうものが多い中、同社の場合、PoCからの本格開発が8割になっているという。価値検証から事業化への成功率が非常に高い。

「一般的なAIの会社は、実現可能性がない、フィジビリティーがないものを受けてしまうことが多いです。弊社は、相談を受けたときに、最先端の論文やデータ量が十分にあるかなどをチェックします。価値がでないものを無理に受けないというスタンスなので、成功率が高くなっていると思います」(曽根岡氏)

ELYZAは3つの領域で、AIを活かした活動をしている

 ELYZAの強みは、リテールテック領域と自然言語処理(NLP)にあるという。

 リテールテックでは、画像やテキスト、売り上げデータをまとめてメーカーや卸、小売業などの需要予測をしている。クライアントにはアシックス社や大手小売事業者などが名を連ねている。

 自然言語処理ではテキストのAIを開発している。こちらは、森・濱田松本法律事務所と共同研究している。

画像に続き自然言語処理分野でもAIが人間を超えた

 画像認識の分野では、ディープラーニングの登場以前、誤差率は25%を超えていた。それが2012年にディープラーニングが登場してからどんどん下がっており、2015年には人間の誤差率を下回る4.9%を達成している。結果、顔認証や自動運転、不良品検出、OCRといった分野で人間の業務を置き換えるようなユースケースが出てきた。

画像のディープラーニングではすでに人間超えを果たしている

 自然言語処理分野もディープラーニングの恩恵は受けたものの、2017年までは人間に遠く及ばなかった。言語理解タスクのスコア(GLUE)では人間が87.1で、ディープラーニングモデルは65.6に止まっていた。そのため、人間を代替すると言うよりは、精度が出なくても活用できるチャットボットやSNS分析などで社会実装が進んできた。

 そんな中、2018年10月に上述した「BERT」が登場し、そこから精度が伸びて、2019年6月、英語の認識に関しては、人間のスコアを超えた。ELYZAはこの状況を踏まえ、日本語で人間を超える精度を出せるエンジン「ELYZA Brain」を開発した。

自然言語処理で人間を超えたのは2019年6月と最近のこと

「ELYZA Brain」は日本語の自然言語処理に特化したAI

 ディープラーニングでは扱うデータ量とパラメータが重要になるが、「ELYZA Brain」は例えばGoogleのAIと比べても遜色のないモデル・データ量で学習させているのが特徴だ。

 AIへの自然言語の学習では、様々な領域での長文のテキストが必要になる。そのデータを集めるのに苦労するのだが、さらに重要となるのがテキストの綺麗さだ。おかしな言葉や重複した文章を除去するクレンジング処理を独自のアルゴリズムで行って、同社では数十GBのデータを作っているという。

海外のプレイヤーと同レベルのモデルとデータ量を揃えて、ディープラーニングを本格実装した

 AIへの学習量という点では、2016年のGoogle Neural Machine Translationの論文で、数十億の教師データで学習させると、人間並みの翻訳精度が出るというものだった。

 2018年に登場した「BERT」は事前に大量の学習を済ませておけば、数万程度の教師データで人間を超える精度が出せる。「ELYZA Brain」もBERTと同様、すでに膨大な学習をしているため、数千~数万のデータを学習させるだけで適応できるのがポイントだ。

「ELYZA Brain」は数千~数万の学習で、日本語を話したり、読み書きできるようになる

 日本語を「読む」という点では、例えば、契約書やメールから会社名や期間、金額といった特定の情報抽出ができる。これまでも同じようなことができるサービスもあったのだが、多くはルールベースで構築されており、少しでも文章に多様性が出てくると対応できなくなっていた。「ELYZA Brain」なら、通常の自然言語処理では対応できないようなエッジケースでも正確に情報を抜き出せる汎用性があるという。

「例えば、多様なウェブページから代表者と住所、設立日を取ってくるということもできます。今まで、リサーチ業務でのアシスタントさんがやっていた作業はシステムでできるようになります」(曽根岡氏)

 また「書く」部分では、大学入試レベルの穴埋め問題を適切に解くことができる。抜けている接続詞を補完するのはもちろん、「麻生★大臣の趣味は★である」という穴埋めも「麻生財務大臣の趣味はゴルフである」と埋められる。

 この補完能力はOCRや音声認識で発揮される。OCRや音声認識でテキスト生成はできるが、100%の精度は出ない。そんな時に、自然な文体に直したり、誤認識している部分を修正したりできる。

 あくまでELYZA内部でのテストとなるが、3万のデータで精度比較をしたところ、BERTが79%、人間が80.6%のところ、「ELYZA Brain」は83%という結果になっている。ちなみに人間は同社関係者で、いわば東大生がほとんどということで、高い精度で日本語テキストの分類ができるとわかるはずだ。

「ELYZA Brain」の日本語分類精度は人間を超えている

 精度が人間を超えると、パラダイムシフトが起きる。これまでは単語検索や精度の低いチャットボットだった世界が、文章で検索したり精度の高いチャットボットが利用できるようになる。精度が足りずに実現していなかった、契約書のレビューやカウンセリングといったことも日の目を見るようになるという。

ELYZAのAIをPoCフェーズの企業に無償で提供する

 さらに2020年9月に公開したリリースでは、「ELYZA Brain」を活用する逆求人型事業共創プログラム「パートナープログラムNLP30」の募集開始を行っている。

 BERT後の精度でなければできないところで、社会実装していくためパートナープログラムの「NLP30」を開始した。

 現在、ELYZAは、リーガル領域では森・濱田松本法律事務所と共同でリーガル業界の知見を利用して研究を進めている。他にも三菱総合研究所の700人の研究員が持つリサーチの知見を利用し、リサーチ領域での研究交流も行っている。この流れを加速するために始めた逆求人型の事業共創プログラムが「NLP30」だ。

 PoCフェーズのパートナー企業には、ELYZAからAIの開発力を無償で提供するのが特徴だ。業界からは、業界の知見と大量のテキストデータを出してもらい、新しい社会実装を目指す。

「組むうえで重視しているのは価値です。ある会社で3人だけが行っている業務の20%を改善するのではなく、人件費が高く、テキストの業務量が多い領域を変えたいと考えています。最初に思いついたのがリーガル分野で、そこで森・濱田松本法律事務所と共同研究することになったのです」(曽根岡氏)

 「NLP30」では現在も未踏領域に挑戦する各業界の企業を募集しているという。期限は2020年12月17日までとのこと。

価値検証フェーズのリソースをELYZAが無償で提供するプログラムを開始した

 最後に、今後のビジョンを伺った。

「研究開発から社会実装して、事業開発するという3つのファンクションを担えるプレイヤーがいないな、と思っています。我々がやりたいのは、最先端技術のELYZA Brainを社会のユースケースに当てはめて、サービス化することです」と曽根岡氏は語ってくれた。

■関連サイト

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

この連載の記事