Chciałbym, żeby każde urządzenie na świecie, które przechowuje zdjęcia, czyli każdy komputer, każdy smartfon, pamięci NAS, a może nawet i profesjonalne aparaty fotograficzne, posiadały wbudowany model CLIP (lub podobny).
W tych urządzeniach przechowujemy tysiące albo dziesiątki tysięcy zdjęć.
Bardzo szybko ujawnia się podstawowa potrzeba: szybkie i łatwe wyszukanie żądanych zdjęć.
Np. wpisuję lub dyktuję: "kobieta w czerwonej sukience idąca ruchliwą ulicą" i lista znalezionych do tego zapytania zdjęć pojawia się natychmiast.
Zapytania mogą być dowolne. To coś na zupełnie nowym poziomie niż wyszukiwanie po tagach.
Wszystko dzieje się offline, bez kontaktu z internetem.
Model CLIP transformuje wejściowe obrazy i teksty do postaci wektorów w wielowymiarowej przestrzeni reprezentacji.
Im mniejsza odległość między wektorami (mierzona miarą kosinusową) tym bardziej podobne są obrazy/teksty reprezentowane przez te wektory.
Wystarczy raz obliczyć wektory dla wszystkich zdjęć i je zapamiętać, a przy zapytaniu wyliczyć wektor z tekstu i porównać jego odległość do wektorów wyliczonych ze zdjęć.
Tutaj ktoś chwali się, że jego narzędzie przeszukuje półtora miliona zdjęć poniżej 100 ms:
https://paulw.tokyo/post/real-time-sema ... arch-demo/
Tutaj ktoś zrobił już apkę na iPhona:
https://mazzzystar.github.io/2022/12/29 ... ch-Photos/
Można też pobawić się dźwiękiem.
Tutaj ktoś wyliczył wektory z ponad 120 milionów utworów z iTunes i zrobił stronę która po podaniu jednego utworu wyświetli listę podobnych utworów:
https://maroofy.com/