機械学習による個人情報の匿名化を実現するカナダのPrivate AIが国内展開を進めている。昨年12月に発表されたのはマクニカとのパートナーシップ。昨年から日本でのビジネスの立ち上げを進めている後藤元気氏にサービスの概要について話を聞いた。
生成AIの学習データを前提に個人情報を匿名化
Private AIは、機械学習を用いてテキストデータから個人情報を抽出し、匿名化を実現する。匿名化に関しては、手動でのマスキングや正規表現には手間がかかるが、非構造データだと自動処理が難しいという課題があった。Private AIではこうした課題をAIで解決する。大量のデータを用いたトレーニングした独自の機械学習モデルを用いることで、高い精度でテキストから個人情報を検出する。
Private AIの特徴の1つは、対応言語や対象となる個人情報の「エンティティ」の広さ。現在、対応言語は52に上り、対応するエンティティは氏名、年齢、住所、生年月日などのいわゆる個人情報(PII:Personally Identifiable Information)、血液型や病状、薬名、薬の容量などの個人保健情報(PHI:Protected Health Information)、銀行口座情報、クレジットカード番号、クレジットカードの期限日、CVVなどのクレジット情報(PCI:Payment Card Industry)など50以上に上る。もちろんGDPR、CPRA、HIPAAに完全対応。「日本特有のマイナンバーや日本語での住所表現にも対応します」(後藤氏)とのことだ。
コンテナ経由での展開になるため、デプロイ先はオンプレミスでも、プライベートクラウドでも、パブリッククラウドでもOK、API経由で各種ドキュメントやテキストをアップロードすれば、個人情報が匿名化されたデータとして利用できる。匿名化されたデータを再識別することも可能で、社内の個人情報管理で利用するだけではなく、外部とのデータ共有も安全に行なえる。
名門トロント大学のAIスタートアップ 国内でのニーズに応える
Private AIは2019年にカナダのトロントで設立されている。トロントという地名でピンと来る人も多いと思うが、トロント大学はディープラーニングの総本山とも呼べる名高い学校で、Google、Apple、Facebook、OpenAIなどのAI研究者はここから輩出されている。Private AIも、こうしたトロント発のAIスタートアップの1つだ。
匿名化やマスキングに関しては、競合もいくつかあるが、Private AIは精度の高さが売り。「競合に比べてベンチマークの結果も優れています。マクニカから評価を受けたのもやはり精度の高さです」と後藤氏は語る。
利用用途は、個人情報漏えいに配慮したマスキング対応のみならず、大規模言語モデルの情報入力やファインチューニングにおけるプライバシーに配慮したデータ利用だ。「今後、企業が自社データを用いて、生成AIや大規模言語モデルを活用する際には、データセットをいかに安全に、公平にできるか大きなテーマ。GDPRがある欧州やAIの利用が進む北米は、AIでのデータ活用の意識が高い」と後藤氏は語る。
日本には昨年の9月に進出したばかり。AIとプライバシーを両立させるPrivate AIのニーズは、すでに国内でも高まっており、マクニカとともにビジネスの拡大を進めたいという。「生成AIはもっと日本でも拡がっていい。弊社の製品でデータ流通とAI活用がもっと促進できれば考えています」(後藤氏)。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります