Tìm kiếm tập dữ liệu có thể là người bạn tốt nhất của một nhà khoa học
Mục tiêu của Google luôn là tổ chức thông tin của thế giới và mục tiêu đầu tiên của nó là trang web thương mại. Bây giờ, nó muốn làm tương tự cho cộng đồng khoa học với một công cụ tìm kiếm mới cho các tập dữ liệu.
Dịch vụ này, được gọi là Dataset Search, ra mắt ngày hôm nay và nó sẽ là bạn đồng hành của Google Scholar, công cụ tìm kiếm phổ biến của công ty cho các nghiên cứu và báo cáo học tập. Các tổ chức xuất bản dữ liệu của họ trực tuyến, như trường đại học và chính phủ, sẽ cần phải bao gồm thẻ siêu dữ liệu trong trang web mô tả dữ liệu của họ, bao gồm cả người tạo ra dữ liệu, khi nó được xuất bản, cách được thu thập, v.v. Thông tin này sau đó sẽ được công cụ tìm kiếm của Google lập chỉ mục và kết hợp với thông tin từ Sơ đồ tri thức. (Vì vậy, nếu tập dữ liệu X được xuất bản bởi CERN, một ít thông tin về viện cũng sẽ được đưa vào tìm kiếm.)
Một công cụ tìm kiếm hợp nhất thế giới phân mảnh của các tập dữ liệu trực tuyến
Phát biểu với The Verge , Natasha Noy, một nhà khoa học nghiên cứu tại Google AI, người đã giúp tạo ra Dataset Search, cho biết mục tiêu là để thống nhất hàng chục nghìn kho dữ liệu khác nhau cho các tập dữ liệu trực tuyến."Chúng tôi muốn làm cho dữ liệu đó có thể phát hiện được, nhưng hãy giữ nó ở đâu," Noy nói.
Hiện tại, việc xuất bản tập dữ liệu cực kỳ bị phân mảnh. Các lĩnh vực khoa học khác nhau có kho lưu trữ ưa thích của riêng họ, cũng như các chính phủ và chính quyền địa phương khác nhau. "Các nhà khoa học nói," Tôi biết nơi tôi cần phải đi tìm các tập dữ liệu của mình , nhưng đó không phải là những gì tôi luôn muốn ", Noy nói. "Một khi họ bước ra khỏi cộng đồng độc đáo của họ, đó là khi nó trở nên khó khăn."
Noy đưa ra ví dụ về một nhà khoa học khí hậu mà cô đã nói chuyện gần đây, người đã nói với cô rằng cô đang tìm kiếm một số liệu cụ thể về nhiệt độ đại dương cho một nghiên cứu sắp tới nhưng không thể tìm thấy nó ở bất cứ đâu. Cô đã không theo dõi nó cho đến khi cô gặp một đồng nghiệp tại một hội nghị, người đã công nhận bộ dữ liệu và nói với cô ấy nơi nó được lưu trữ. Chỉ khi đó cô mới có thể tiếp tục công việc của mình. "Và điều này thậm chí không phải là một kho lưu trữ đặc biệt cửa hàng," Noy nói. "Tập dữ liệu được viết tốt ở một nơi khá nổi bật, nhưng nó vẫn khó tìm."
Bản phát hành đầu tiên của Tìm kiếm dữ liệu sẽ bao gồm các khoa học môi trường và xã hội, dữ liệu của chính phủ và các tập dữ liệu từ các tổ chức tin tức như ProPublica . Tuy nhiên, nếu dịch vụ trở nên phổ biến, số lượng dữ liệu mà nó lập chỉ mục sẽ nhanh chóng trượt tuyết như các tổ chức và các nhà khoa học tranh giành để làm cho thông tin của họ có thể truy cập được.
Điều này sẽ được giúp đỡ bởi sự phát triển gần đây của các sáng kiến dữ liệu mở trên toàn thế giới. "Tôi nghĩ trong vài năm qua số lượng kho đã bùng nổ," Noy nói. Cô ghi nhận tầm quan trọng ngày càng tăng của dữ liệu trong tài liệu khoa học, có nghĩa là các tạp chí yêu cầu các tác giả xuất bản tập dữ liệu, cũng như “quy định của chính phủ ở Mỹ và châu Âu và sự gia tăng chung của phong trào dữ liệu mở”.
Tôi hy vọng rằng Google bước vào sẽ làm cho nó dễ dàng hơn."
Có sự tham gia của Google sẽ giúp làm cho dự án này thành công, theo Jeni Tennison, Giám đốc điều hành của Viện dữ liệu mở (ODI). "Tìm kiếm Dataset luôn luôn là một điều khó khăn để hỗ trợ, và tôi hy vọng rằng Google bước vào sẽ làm cho nó dễ dàng hơn", cô nói.
Để tạo một công cụ tìm kiếm phong nha, bạn cần biết cách xây dựng các hệ thống thân thiện với người dùng và hiểu ý nghĩa của mọi người khi họ gõ vào các cụm từ nhất định, Tennison nói. Google rõ ràng biết những gì nó đang làm trong cả hai phòng ban đó.
Trong thực tế, Tennison nói, lý tưởng là Google sẽ xuất bản tập dữ liệu riêng của mình như thế nào Dataset Search được sử dụng. Mặc dù các thẻ siêu dữ liệu mà công ty đang sử dụng để làm cho bộ dữ liệu có thể nhìn thấy được với trình thu thập thông tin tìm kiếm của nó là tiêu chuẩn mở (có nghĩa là bất kỳ đối thủ cạnh tranh nào như Bing hoặc Yandex cũng có thể sử dụng chúng và xây dựng dịch vụ cạnh tranh), người dùng ở đó để cung cấp dữ liệu về những gì họ đang làm.