US
・UK
CLIPのCはcontrastiveの略で、このモデルは画像とキャプションのペアが一致する場合と一致しない場合の対比を学習するためである。
ここで、帽子をかぶっている私に対応するベクトルを取り、帽子をかぶっていない私に対応するベクトルを引くと、埋め込み空間に新しいベクトルができる。
これは対照言語イメージ事前訓練(CLIP)として知られている。
4億の画像とテキストのペアで学習することで、画像エンコーダーは幅広い視覚的概念を捉え、一般化することを学習する。
英語には対比的リズムがあって、それを支えているのが母音なんです。
英語には対比的リズムがあって、それを支えているのが母音なんです。