2018年9月10日、機械学習向けデータの最適化をクラウドソーシングサービスを提供するDefinedCrowd(デファインドクラウド)は、ジョアオ・フレイタスCTOによるプレス説明会を開催した。
DefinedCrowdは2015年に設立された北米シアトルのスタートアップ。機械学習で利用するトレーニングデータをクラウドソーシングによって最適化するサービスを提供しており、ソニーやAmazonのファンドからも出資を受けている。現在、グローバルの顧客は40社程度で、日本でもすでに十数社の顧客がいるという。
現在、機械学習はさまざまな領域で用いられているが、精度を高めるには優れたアルゴリズムだけではなく、高品質なデータが必要になる。しかし、収集したデータを整理し、アノテーションを施し、モデルに対して最適化するのは非常に負荷がかかる。外部の業者に依頼しても、データの品質が低かったり、スピードが遅いといった事態が起こる。フレイタス氏は、「データサイエンティストは約8割の時間をデータの整理や処理に費やしている」と指摘する。
これに対して、Defined Crowdは世界で4万5000人のクラウドソーサーを「Neevo」というコミュニティとして抱えており、音声、自然言語、コンピュータービジョンの3つの分野で高品質なトレーニングデータを提供している。たとえば、文書内の単語に注釈を付与したり、動画や写真に写っている事物にタグを付けたり、音声ファイルの発音精度をチェックすることで、精度の高い学習データを作成し、ユーザーに納品するという。
特徴は品質へのこだわり。Neevoに登録されたメンバーは言語や資格テストが実施されており、機密保持契約も締結されている。リアルタイムの監査、スパム対策、クラウドソーサーの行動チェック、抜き打ちのテストなども行なわれるとのこと。現在、世界人口の約90%の言語(53ヵ国以上46の言語)をカバーする規模を誇っており、もちろん日本語にも対応。また、競合に比べて約5~10倍のスピードでデータを提供できる点も大きな売りだという。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります