Skip to main content

Dữ liệu lớn

Enrollment in this course is by invitation only

Dữ liệu lớn

Xin chào các bạn!

Big Data hay còn được biết với cái tên "Dữ liệu lớn" là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như các bạn đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.

Trong môn học này các bạn sẽ được tìm hiểu về hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark - hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.

Chúc các bạn học tốt!


MỤC TIÊU MÔN HỌC

Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:

  • Nắm được các khái niệm cơ bản trong Big Data. Hiểu được cấu trúc và các thành phần cơ bản của Hadoop. Vai trò của Hadoop trong Big Data.
  • Hiểu tổng quan về Spark & nắm được các bước cơ bản để viết một chương trình Spark.
  • Hiểu được ứng dụng của park trong học máy.
  • Lập trình ứng dụng phân loại văn bản với Spark.


TRẢI NGHIỆM HỌC TẬP

Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 3 phần với 16 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Assignment) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.

Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.


CẤU TRÚC MÔN HỌC

Phần 1: Giới thiệu về Big Data và Hadoop

    • Bài 1: Khái niệm về Big Data
    • Bài 2: Giới thiệu về Hadoop
    • Bài 3: Quản lý Big Data và Big Data Processing

Phần 2: Big Data với Spark

    • Bài 4: Giới thiệu về Spark
    • Bài 5: Spark RDD
    • Bài 6: SparkSQL, Data-frames và Datasets
    • Bài 7: SparkSQL và SparkSQL Table
    • Bài 8: Data Transformation với Spark
    • Bài 9: Data Aggregations và Join trên Spark
    • Bài 10: Giám sát & Điều chỉnh

Assingment 1 - Phân tích hành vi và thói quen của người dùng Stack Overflow

Phần 3: Machine Learning với Big Data

    • Bài 11: Giới thiệu về Machine Learning
    • Bài 12: Linear Regression
    • Bài 13: Logistic Regression
    • Bài 14: Decision Trees và Random Forests
    • Bài 15: K-means Clustering
    • Bài 16: Xử lý ngôn ngữ tự nhiên (NLP)

Assignment 2: Hệ thống phân loại tội danh


CHUYÊN GIA THIẾT KẾ MÔN HỌC

THIẾT KẾ MÔN HỌC: TS. Đặng Quang Vinh

  • Tiến sĩ Khoa học máy tính Universite de Lorraine, Pháp
  • Head of Data Science, Vin Group
  • Giảng viên Đại học Công nghiệp thành phố Hồ Chí Minh

THIẾT KẾ MÔN HỌC: TS.Trần Ngọc Sơn

  • Tiến sĩ, Nghiên cứu viên Postdoc, CSIRO, Úc.
  • Hơn 4 năm kinh nghiệm giảng dạy về Big data & Machine Learning.
  • Hơn 8 năm kinh nghiệm phát triển phần mềm.
  • Thạc sĩ Computer Science, Đại học Reading, Vương quốc Anh.
  • Tiến sĩ Computer Science, Đại học Thành phố London, Vương quốc Anh.

PHẢN BIỆN MÔN HỌC: Th.S Nguyễn Chi Hoàng

  • Master of Science (MS)Field Of StudyData Science, Université Claude Bernard Lyon 1
  • Solution Architect in Artificial Intelligence, FPT Software

PHẢN BIỆN MÔN HỌC: Anh Phan Chương

  • BigData Engineer, Seatle, Washington, US.
  • Phòng nghiên cứu và phát triển chương trình FUNiX

NGUỒN HỌC LIỆU

Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.

Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nhiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.

Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.


KÊNH PHẢN HỒI

FUNiX sẵn sàng đón nhận và trao đổi về mọi ý kiến góp ý, phản hồi liên quan đến học liệu qua email [email protected]