微調整なしで利用できる汎用モデル

メタ、最先端のコンピュータービジョンモデル「DINOv2」をオープンソースで公開

2023年04月19日 09時00分更新

膨大な元画像からキュレーションされたデータセット

　ここからは少し専門的な解説になる。

　従来の自己教師あり学習では、大量に用意されたデータをそのまま学習させていたが、ウェブからクロールされたデータセットの中には学習には無関係な画像が多く含まれているため効率が悪かった。また、特定の種類の画像が多いと「過学習」と呼ばれる現象が起こる可能性もあった。

25のサードパーティーから集められた12億枚のデータセット

　そこでDINOv2では、必要のない画像を取り除き、データセットのバランスを整えるキュレーションと呼ばれる作業を行なった。ただし、すべて手作業で行うことは難しかったため、約25のサードパーティデータセットの中から「種となる画像（seed images）」を手作業で選び、それを元に近い画像を検索することで必要な枚数を確保する手法を採用。これにより、12億枚の元画像のうち、1億4200万枚の画像からなる事前学習用データセットを作成した。

　さらに、学習アルゴリズムや実装方法も改良を行なったことで、DINOv2はデータ、モデルサイズ、ハードウェアのスケーリングを実現し、同社比およそ3分の1のメモリ使用量にも関わらず、2倍の速度で動作するようになったという。

蒸留モデルを搭載した強靭な軽量モデル

　高性能なモデルを使って推論を実行するには強力なハードウェアが必要となり、実用的な利用が制限されることがある。

　この問題を解決するために通常「モデル蒸留（Model Distillation）」という圧縮技術が使用されるが、DINOv2は「自己蒸留（self-distillation）」という手法を採用し、最も性能の高いモデルをかなり小さなモデルに圧縮。わずかな精度の犠牲で、推論コストを大幅に削減している。

　その結果、今回公開されるのはViT-g/14（11億パラメータ）とViT-L/16（3億パラメータ）の事前学習済みコードとレシピに加え、大規模なViT-g/14から小さな蒸留モデル（ViT-S/14, ViT-B/14, ViT-L/14）までの事前学習モデルに関するチェックポイントまで含まれている。