Pages

Sunday, March 3, 2019

Hiểu, Học và ứng dụng Big Data như thế nào ?

1. Big data là gì? Nó khác gì với việc lưu giữ và phân tích data truyền thống ?



Nguồn gốc: 

Từ khi Internet, việc lưu trữ dữ liệu, thông tin là yêu cầu bắt buộc. Sự phát triển các công nghệ lưu trữ từ 1960s (khai sinh mạng Internet đầu tiên) là dùng file để lưu trữ thông tin.
Khi Google sinh ra, họ đã phát minh ra cách thức scale việc lựu trữ và xử lý ở mức cao hơn (mô hình Map-Reduce) để sắp xếp lại gần toàn bộ thông tin trên Internet .
Lịch sử Database Technology qua các thời kỳ khác nhau
Mốc thời gian 2002 đánh dấu cho bước nhảy vọt do Google tiên phong, cách mạng Dot Com phát triển

Định nghĩa:


Big data là tập hợp dữ liệu lớn và phức tạp vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, tính đến năm 2012 mỗi ngày có 2,5 exabyte dữ liệu được sinh ra (exabyte bằng 1 tỷ gigabyte), và đến năm 2025 IDC dự đoán số liệu này sẽ là 163 zettabyte (zettabyte bằng 1 nghìn exabyte)...
Ví dụ cho tiềm năng khối dữ liệu lớn có thể kể đến kính thiên văn Sloan Digital Sky Survey đặt tại New Mexico (Mỹ) bắt đầu đi vào hoạt động hồi năm 2000; sau một vài tuần thiết bị này đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học từng thu thập trong quá khứ, và sau 10 năm tổng dung lượng đã đạt đến hơn 140 terabyte (terabyte bằng 1 nghìn gigabyte).
Trong khi đó thống kê được công bố thời điểm cuối năm 2017 cho thấy Facebook đang có khoảng 2 tỷ người dùng thường xuyên và chỉ riêng ảnh cũng đã có khoảng 300 triệu bức được tải lên mỗi ngày. YouTube hay Google cũng phải lưu lại hết vô số các lượt truy vấn và video của người dùng cùng nhiều loại thông tin khác có liên quan.
Nguồn dữ liệu cho big data tăng trưởng cực nhanh cũng một phần bởi sự gia tăng số lượng và giảm giá của các thiết bị cảm biến, thu nhận thông tin trong môi trường Internet vạn vật như điện thoại, camera, micro, chip bắt sóng…

Điều quan trọng là ứng dụng của big data có mặt ở khắp mọi nơi trong các xu hướng công nghệ ảo hóa mới nhất. Ví dụ như trong một mảng sản xuất của cuộc cách mạng công nghiệp 4.0, những công nghệ mới như big data hay cloud computing sẽ giúp cảnh báo sớm sản phẩm lỗi, hỏng, từ đó phòng ngừa trước và gia tăng năng suất, chất lượng, nâng cao giá trị cạnh tranh.
Để đưa ra nhận định hữu ích cho quy trình quản lý nhà máy công xưởng, dữ liệu cần được xử lý bằng các công cụ, các thuật toán để trích xuất ra được thông tin có ý nghĩa. Khi có vấn đề hiện hữu hoặc vô hình trong một công xưởng công nghiệp ví dụ như máy móc xuống cấp hoặc chi tiết hao mòn thì thuật toán phải có khả năng phát hiện và tìm cách giải quyết.
Big data còn ẩn chứa rất nhiều thông tin quý giá mà nếu trích xuất (data mining) thành công sẽ giúp rất nhiều cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu khoa học, dự đoán để phòng tránh các dịch bệnh sắp phát sinh, phát hiện sớm tội phạm; dù tất nhiên mức độ ứng dụng thu thập dữ liệu cũng đặt ra nghi ngại về sự giám sát vượt quá giới hạn riêng tư của công dân trong thành phố thông minh.

Các nhóm người dùng chính trong chiến lược xây dựng Big Data trong tổ chức 

Nhóm manager có nhu cầu data nhiều nhất, trong nhóm bên trên là các data scientist làm công việc phân tích

Quy trình áp dụng:






Big Data và A.I kết hợp với nhau như thế nào ?

CLick vào hình để xem lớn, kiến trúc hệ thống Big Data và Machine Learning kết hợp lại với nhau

Các bài toán Big Data thực tế trong các ngành khác nhau




2. Những đầu sách nào là must-read dành cho beginner nếu muốn tìm hiểu về big data & data analytics ? 

.











3. Ứng dụng của SQL/R/Python trên thực tế ở các mô hình business tại VN hiện tại là như nào ?

SQL 

là ngôn ngữ truy vấn dữ liệu bậc cao (viết code như tiếng Anh), nên khá dễ học
Do mục đích truy vấn dữ liệu nên nó cần 1 môi trường database như Access (rất cơ bản) đến MySQL (cho developer ) hay Google Big Query (trên Cloud Computing)
Học SQL miễn phí:
https://www.mikedane.com/databases/sql/
https://www.youtube.com/watch?v=HXV3zeQKqGY

Python