Với sự phát triển dữ liệu hình ảnh từ social media và sự phổ biến của smartphone, các công nghệ Big Data cổ điển đã không còn đáp ứng được nhu cầu phân loại hình ảnh.
Tuy nhiên trong vài năm, deep learning đã thúc đẩy tiến bộ trong ứng dụng Big Data vào 2 loại dữ liệu phức tạp nhất là hình ảnh và video
Vậy Deep Learning là gì ? Bài viết này sẽ giúp mọi người hiểu thêm về nó
Một ví dụng demo Deep Learning cho việc phân loại hình ảnh bởi Blueseed Ad Tech team :http://61.28.227.159/classify_image#https://i-thethao.vnecdn.net/2018/09/04/DONG7621-JPG-2857-1536036262.jpg
Chỉ trong vài năm, deep learning đã thúc đẩy tiến bộ trong đa dạng các lĩnh vực như nhận thức sự vật, dịch tự động, nhận diện giọng nói,… - những vấn đề từng rất khó khăn với các nhà nghiên cứu trí tuệ nhân tạo.
Deep learning là gì?
Deep learning đã và đang là một chủ đề AI được bàn luận sôi nổi. Là một phạm trù nhỏ của machine learning, deep learning tập trung giải quyết các vấn đề liên quan đến mạng thần kinh nhân tạo nhằm nâng cấp các công nghệ như nhận diện giọng nói, tầm nhìn máy tính và xử lý ngôn ngữ tự nhiên. Deep learning đang trở thành một trong những lĩnh vực hot nhất trong khoa học máy tính. Chỉ trong vài năm, deep learning đã thúc đẩy tiến bộ trong đa dạng các lĩnh vực như nhận thức sự vật (object perception), dịch tự động (machine translation), nhận diện giọng nói,… - những vấn đề từng rất khó khăn với các nhà nghiên cứu trí tuệ nhân tạo.
Để hiểu hơn về deep learning, hãy nhìn lại một số khái niệm cơ bản về trí tuệ nhân tạo.
Trí tuệ nhân tạo có thể được hiểu đơn giản là được cấu thành từ các lớp xếp chồng lên nhau, trong đó mạng thần kinh nhân tạo nằm ở dưới đáy, machine learning nằm ở tầng tiếp theo và deep learning nằm ở tầng trên cùng.
Mạng thần kinh nhân tạo
Trong công nghệ thông tin, mạng thần kinh nhân tạo là một hệ thống các chương trình và cấu trúc dữ liệu mô phỏng cách vận hành của não người. Một mạng thần kinh như vậy thường bao gồm một lượng lớn các vi xử lý hoạt động song song, mỗi vi xử lý chứa đựng một vùng kiến thức riêng và có thể truy cập vào các dữ liệu trong bộ nhớ riêng của mình (đôi khi chúng không nhất thiết phải là phần cứng mà có thể là các phần mềm và giải thuật).
Nói cách khác, nếu ví mạng thần kinh nhân tạo với não người thì các neuron thần kinh chính là các node (node là đơn vị thần kinh trong mạng thần kinh nhân tạo – mỗi chiếc máy tính trong mạng thần kinh có thể được xem như 1 node) được kết nối với nhau trong một mạng lưới lớn. Bản thân từng node này chỉ trả lời được những câu hỏi hết sức cơ bản chứ không hề thông minh, nhưng khi được gộp chung với nhau thì chúng lại có sức mạnh xử lý được cả những tác vụ khó. Và điều quan trọng ở đây là bằng những thuật toán phù hợp, chúng ta có thể dạy và huấn luyện được chúng.
Machine và deep learning
Machine learning là chương trình chạy trên một mạng thần kinh nhân tạo, có khả năng huấn luyện máy tính "học" từ một lượng lớn dữ liệu được cung cấp để giải quyết những vấn đề cụ thể.
Chẳng hạn nếu muốn dạy máy tính cách băng qua đường, theo cách truyền thống bạn sẽ đưa cho nó một loạt quy tắc hướng dẫn cách nhìn trái phải hay đợi xe và người đi qua,… Thế nhưng nếu dùng machine learning, bạn sẽ cho máy tính xem 10.000 video quay cảnh người ta băng qua đường an toàn và 10.000 video quay cảnh ai đó bị xe đâm để nó tự học theo.
Phần khó nhất là làm sao cho máy tính hiểu và thẩm thấu được những video này ngay từ đầu. Qua nhiều thập kỷ, con người đã thử qua nhiều phương thức khác nhau, trong đó có cả cách “tặng thưởng” cho máy tính khi nó làm đúng (reinforcement learning), rồi so sánh chọn dần ra những cách tốt nhất.
Ngày nay, một phương pháp dạy máy tính mới đang nhanh chóng trở nên phổ biến là deep learning – một loại machine learning sử dụng nhiều lớp thần kinh nhân tạo để phân tích dữ liệu về nhiều chi tiết khác nhau.
Chẳng hạn nếu bạn dạy máy tính nhận diện hình ảnh một con mèo thì chúng ta sẽ lập trình ra nhiều lớp trong mạng thần kinh nhân tạo, mỗi lớp có khả năng xác định một đặc điểm cụ thể của con mèo như râu, vuốt, chân,… rồi cho máy xem hàng ngàn bức ảnh mèo (chỉ ra rằng “Đây là con mèo”) cùng hàng ngàn bức ảnh không phải mèo (chỉ ra rằng "đây không phải mèo"). Khi mạng thần kinh nhân tạo này xem hết các bức ảnh, các lớp node của nó sẽ dần nhận ra râu, vuốt, chân,..., biết lớp nào là quan trọng, lớp nào không. Nó cũng sẽ nhận ra rằng mèo luôn có chân nhưng những con vật không phải mèo cũng có chân nên khi cần xác định mèo, chúng sẽ tìm chân đi kèm những đặc điểm khác như vuốt hay râu.
AI , Machine Learning and Deep Learning in one picture |
Cuộc chơi deep learning
Năm 2011, Google khởi tạo dự án Google Brain với mục đích tạo ra một mạng thần kinh được huấn luyện bởi các thuật toán deep learning. Dự án này sau đó đã chứng minh được khả năng tiếp nhận được cả những khái niệm bậc cao của deep learning.
Năm ngoái, Facebook cũng thành lập AI Research Unit, đơn vị nghiên cứu về AI sử dụng deep learning vào việc tạo ra các giải pháp hiệu quả hơn giúp nhận diện khuôn mặt và sự vật trên 350 triệu bức ảnh và video được đăng tải lên Facebook mỗi ngày. Một ví dụ tiêu biểu khác về deep learning trong thực tế là khả năng nhận diện giọng nói của các trợ lý ảo Google Now và Siri.
Tương lai của deep learning
Deep learning đang ngày càng cho thấy một tương lai đầy hứa hẹn với ứng dụng vào điều khiển xe tự lái hay robot quản gia. Mặc dù các sản phẩm này vẫn còn nhiều hạn chế nhưng những thứ chúng làm được hiện nay thực sự rất khó tưởng tượng nổi chỉ vài năm trước đây; tốc độ nâng cấp cũng cao chưa từng thấy. Khả năng phân tích dữ liệu lớn và sử dụng deep learning vào các hệ thống máy tính có thể tự thích nghi với những gì chúng tiếp nhận mà không cần đến bàn tay lập trình của con người sẽ nhanh chóng mở đường cho nhiều đột phá trong tương lai. Những đột phá này có thể là việc thiết kế ra những trợ lý ảo, các hệ thống xe tự lái hay sử dụng vào thiết kế đồ họa, sáng tác nhạc, cho đến phát triển các nguyên liệu mới giúp robot thấu hiểu thế giới xung quanh hơn. Chính vì tính thương mại cao mà các công ty lớn, đặc biệt là Google, luôn ưu tiên các startup về robot và deep learning trong danh sách thâu tóm của mình.
Một số ứng dụng khác của deep learning:
Hệ thống gợi ý trên các nền tảng (Recommendation Sys
Các nền tảng lớn hiện nay như Facebook, Amazon, Netflix,... đều có hệ thống gợi ý (recommend) rất mạnh giúp tăng đáng kể độ tương tác của người dùng. Cụ thể là chúng dựa trên các dữ liệu người dùng phát sinh ra khi dùng để gợi ý thêm những sản phẩm họ sẽ thích (trên các nền tảng mua sắm), những bộ phim họ sẽ muốn xem (vd. như trên Netflix), gợi ý các bài quảng cáo/được tài trợ (trên Facebook) hay các khóa học người học quan tâm (trên các nền tảng học online).
Nhận diện hình ảnh
Mục tiêu của công nghệ nhận diện ảnh là nhận biết và xác định các đối tượng trong ảnh cũng như hiểu được nội dung và ngữ cảnh trong đó. Ví dụ trên cho thấy dịch vụ nhận diện và xác định khuôn mặt của AlchemyVision có khả năng phân biệt hai khuôn mặt tương tự nhau giữa nam diễn viên Will Ferrell và tay trống của Red Hot Chili Peppers, Chad Smith. Công nghệ nhận diện hình ảnh cũng được đưa vào Facebook để gợi ý người dùng tag mặt bạn bè hay ứng dụng vào khoa học tội phạm và điều tra.
Phát hiện các loại bệnh hiếm gặp
Gần đây, trí tuệ nhân tạo Watson của IBM đã phát hiện ra một loại bệnh mà các bác sĩ đã bó tay không thể tìm ra ở một nữ bệnh nhân. Bằng cách so sánh bộ gen của người phụ nữ này với hơn 20 triệu kết quả nghiên cứu bệnh khác, Watson đã đưa ra kết quả là một chứng leukemia cực kỳ hiếm gặp chỉ trong 10 phút.
Mặt hạn chế
Ưu việt là vậy nhưng deep learning không phải là không có những giới hạn nhất định.
Thứ nhất, deep learning luôn đòi hỏi một lượng dữ liệu đầu vào khổng lồ để máy tính học hỏi. Quy trình này mất nhiều thời gian và sức mạnh xử lý mà chỉ có các server cỡ lớn mới làm được. Nếu không có đủ dữ liệu đầu vào, hay có đủ dữ liệu nhưng không đủ sức mạnh để xử lý, thì mọi thứ không thể diễn ra đúng như ý định, kết quả máy tính đưa ra do đó cũng không chính xác.
Thứ hai, deep learning vẫn chưa thể nhận biết được những thứ phức tạp. hay tương tự nhau. Lý do là vì hiện chưa có kĩ thuật nào đủ tốt để trí tuệ nhân tạo có thể rút ra những kết luận đó một cách logic bởi chúng chưa có được khả năng nhận biết như con người. Ví dụ như trường hợp một mạng thần kinh được yêu cầu tạo ra các hình ảnh về quả tạ 2 đầu sau khi xem loạt ảnh mẫu. Bức hình lẽ ra sẽ khá hoàn hảo nếu không chi tiết cánh tay người thừa thãi bởi máy tính vẫn chưa hiểu rằng dù có hay đi cùng hình ảnh quả tạ thì cánh tay cũng không phải là một phần của quả tạ.
a
Chưa hết, những công cụ trí tuệ nhân tạo thể hiện tốt hiện nay như Siri hay Cortana đều sử dụng nhiều mánh khóe để tránh né những câu hỏi khó và khiến bạn có cảm giác như đang nói chuyện với người thật vì chúng sử dụng các câu nói đùa, câu trích dẫn, các biểu hiện cảm xúc,…được set sẵn để làm bạn phân tâm và không còn chú ý đến câu hỏi ban đầu bạn đặt ra nữa.
Kết
Deep learning nói riêng hay trí tuệ nhân tạo nói chung thực sự có rất nhiều ứng dụng tuyệt vời, nhưng chúng ta hiện mới chỉ đang ở giai đoạn đầu phát triển nó nên những hạn chế là không thể tránh khỏi. Có lẽ còn phải chờ khá lâu nữa những hệ thống AI “có tri giác” mới thực sự xuất hiện, nhưng những gì các công ty lớn như Google, Facebook, IBM đang làm hiện nay cũng tương tự với việc đặt những viên gạch đầu tiên mở đường cho kỷ nguyên AI trong những thập kỷ tới.
Bạn đã học Computer Science, muốn tìm hiểu về Deep Learning có thể tham khảo cuốn sách này, download ebook at http://bit.ly/2wUpXbv
Tham khảo OpenMind, The Verge