Google hat vor einigen Tagen eine neue Suchmaschine veröffentlicht – https://datasetsearch.research.google.com/. Sie dient zum Auffinden von Datensammlungen. Diese sind das “Futter” für jede Machine-Learning Anwendung und daher wichtig für deren Entwicklung. Musste man früher langwierig mit der normalen Google Suchmaschine nach passenden Trainings-Daten suchen, oder in dafür spezialisierten Datenbanken und Verzeichnissen stöbern, so kann man nun dieses Spezialservice nutzen.
Derzeit findet diese Suche 25 Millionen Datensammlungen aus den unterschiedlichsten Bereichen, wie Bilddaten, Nachrichtenartikel, aber auch ganz andere Datentypen, wie zum Beispiel Wetter Daten. Viele Daten stammen von öffentlichen Einrichtungen, die diese im Rahmen von Open-Data Initiativen, der Öffentlichkeit zur Verfügung stellen.
Im Gegensatz zu Verzeichnissen von Daten-Sets, wie es etwa die Plattform www.kaggle.com bietet, speichert Google die Daten nicht selbst sondern indiziert nur die Metadaten. Damit wird im Suchergebnis nicht nur ein Link zum Download der Original-Quelle geboten, sondern darüber hinaus neben einer kurzen Beschreibung angezeigt, von wem die Daten sind, und unter welcher Lizenz sie verwendet werden dürfen. Auch die Daten von kommerziellen Anbietern können somit in die Suchergebnisse aufgenommen werden. Die Ergebnislisten können nach Lizenzart und Datentyp gefiltert werden.