Pages

Wednesday, January 10, 2018

Machine Learning on Big Data

Có một cuộc cách mạng xảy ra trong lĩnh vực học máy và dữ liệu lớn. Từ mỗi cà phê mà bạn mua cho mọi thứ bạn nhấp vào (không phải đề cập đến mua hàng) trực tuyến, mọi thứ đang được theo dõi và phân tích. Từ những phân tích này, rất nhiều khoản khấu trừ được thực hiện để cung cấp cho bạn các lựa chọn mới và tốt hơn theo những gì bạn thích.

Các công nghệ trước đây như học máy và trí thông minh nhân tạo được sử dụng chỉ để ngồi trong phòng thí nghiệm, không bao giờ được thực hiện - nhưng không nữa. Với sự gia tăng của dữ liệu lớn, các công nghệ này đã đi chính. Và bằng cách sử dụng các công nghệ này, bạn có thể dự đoán gần như mọi thứ, từ đó quảng cáo người dùng sẽ nhấp chuột vào bên cạnh liệu một khối u có bị ung thư hay không chỉ dựa trên sự công nhận hình ảnh.

Hãy xem một số trường hợp sử dụng phổ biến, nơi chúng tôi sử dụng máy học và phân tích định kỳ về dữ liệu lớn trên cơ sở hàng ngày. Trên đường đi, tôi cũng sẽ đề cập đến cách chúng được giải thích trong cuốn sách Big Data Analytics With Java.

Recommendation Engines


Tôi thích xem Marco Polo trên Netflix, vì vậy tôi đã đề nghị những bộ phim và chương trình tương tự mà tôi thích (xem hình trên). Đây là một trong những trường hợp sử dụng phổ biến nhất của máy học - nơi mà máy học được từ dữ liệu lịch sử của chúng tôi và đưa ra các khuyến nghị thích hợp cho chúng tôi.

Frequently Bought Together


Chúng ta hãy nhìn vào hình trên. Như bạn có thể biết, bất cứ khi nào bạn mua bất kỳ sản phẩm nào trên bất kỳ cửa hàng thương mại điện tử nào và đến trang chi tiết của mặt hàng đó, bạn sẽ được hiển thị các sản phẩm khác thường được bán cùng với nó. Điều này mang lại cho người sử dụng nhiều lựa chọn hơn để mua cùng với mặt hàng hiện tại và được thực hiện để tăng doanh thu.

Predictive Analytics


Học máy đã được sử dụng rất nhiều trong dự đoán giá trị tương lai của các vật liệu miễn là có sẵn các dữ liệu lịch sử để đào tạo các mô hình. Giá trị có thể là bất cứ thứ gì, cho dù đó là số tiền cần cho một chiến dịch tiếp thị, số tiền cần thiết để khởi chạy một sản phẩm mới, hoặc giá của một sản phẩm. Cuốn sách Big Data Analytics With Java sử dụng một nghiên cứu trường hợp thực tế về dự đoán giá của căn nhà dựa trên một tập hợp các biến số khác nhau do Hạt King phát hành tại Chicago.

Spam Detection and Sentiment Analysis


Phát hiện spam là một trường hợp sử dụng phổ biến. Gmail thực hiện điều đó cho chúng tôi, và chúng tôi thường sử dụng nó. Hãy nhìn vào hình ảnh của hai email được hiển thị ở trên. Email ở bên trái rõ ràng là spam, trong khi email ở bên phải là hoàn toàn tốt.

Sử dụng cùng một thuật toán được sử dụng để phát hiện spam, Big Data Analytics Với Java xây dựng trên một nghiên cứu tình huống mẫu cho thấy tình cảm (cho dù tích cực hay tiêu cực) của người dùng trên đầu trang của một bộ tweets cho các bộ phim khác nhau. Xem hình dưới đây.



Social Analytics and Regular Graph Analytics


Khi bạn tìm kiếm điểm đến trên GPS của mình, thuật toán tìm kiếm đồ thị chạy để tìm ra con đường ngắn nhất đến điểm đến của bạn. Chạy các biểu đồ trên một mẩu dữ liệu nhỏ là một việc, nhưng chạy chúng trên một lượng lớn dữ liệu đòi hỏi phần mềm đặc biệt như GraphFrames trên dữ liệu lớn. Ngoài ra, trong thế giới ngày hôm nay của các mạng xã hội, chúng tôi có các biểu đồ xã hội khổng lồ của những người có thể kết nối chúng tôi với những người mà chúng tôi biết - ví dụ như bạn bè, bạn bè của chúng tôi, và vân vân. Hình ảnh trên cho thấy một biểu đồ xã hội rất đơn giản nhưng nó cho thấy mức độ phức tạp của những biểu đồ này có thể nhận được như thế nào.

Phân tích dữ liệu lớn Với Java có một chương mở rộng về phân tích đồ thị và bao gồm một nghiên cứu trường hợp về một tập dữ liệu thực về các sân bay và các chuyến bay kết nối. Sử dụng bộ dữ liệu này, chúng tôi chạy phân tích như thuật toán xếp hạng trang để tìm ra sân bay là lựa chọn tốt nhất, đường đi ngắn nhất giữa các điểm đến trong biểu đồ và nhiều hơn thế nữa.

Image Classification and Natural Language Processing



Phân loại hình ảnh và NLP là những vấn đề khó khăn và thú vị để giải quyết. Mạng thần kinh nhân tạo cực kỳ tốt và ngày càng trở nên tốt hơn trong những lĩnh vực này. Trên thực tế, một số mạng nơ ron xoắn có thể thực hiện phân loại bằng tay bằng độ chính xác 99%.

Phần kết luận
Các trường hợp sử dụng và ví dụ ở trên chỉ là một vài; hiện có rất nhiều trường hợp sử dụng phân tích khác. Trí tuệ nhân tạo và các quá trình phân tích khác đang được thu hút vào quá trình thường ngày của chúng tôi để ngày rằng nó là rất rõ ràng rằng chúng ta sẽ thấy việc sử dụng các kỹ thuật này ngày càng mở rộng trong tương lai gần.