Chương trình
Trình độ
Tin học, Lập trìnhThời lượng
1 nămĐối tượng tham gia
Nội dung chương trình học
Chương trình được thiết kế bao gồm 8 khóa học, cung cấp cho học viên các kiến thức và kỹ năng cần thiết với các chủ đề như: Fundamentals of Python; Python for Machine Learning, Data Science and Data Visualization; Mathemetics and Statistics for Data Science; Databases and SQL for Data Science; Data Pre-processing and Analysis; Machine Learning with Python; R Programming Language for Data Science; Big Data in Machine Learning.
Lộ trình học tập cụ thể như sau:
Course 1: Fundamentals of Python (Lập trình Python cơ bản)
- Kiến thức nền tảng về Python – một ngôn ngữ lập trình cấp cao, thông dịch, hướng đối tượng và đa mục đích
- Sử dụng các cấu trúc trong ngôn ngữ lập trình Python để xây dựng ứng dụng
- Nắm vững và sử dụng các kiểu dữ liệu, toán tử, cấu trúc điều khiển, cấu trúc lặp để giải quyết các bài toán
- Sử dụng các thư viện Number, String, Date & Time để xử lý số, chuỗi và thời gian
- Làm việc với List, Tuple và Dictionary để lưu trữ và xử lý danh sách các phần tử
- Tạo và sử dụng các phương thức, module/package giúp tái sử dụng code
- Làm việc với tập tin và thư mục với File I/O
- Rèn luyện và phát triển kỹ năng lập trình, tư duy logic
- Xây dựng nền tảng cơ bản vững chắc trong ngôn ngữ lập trình Python tạo tiền đề cho việc học các kiến thức lập trình
Course 2: Python For Machine Learning, Data Science and Data Visualization (Python cho Máy học, Khoa học dữ liệu và Trực quan hóa dữ liệu)
- Kiến thức tổng quát về Data Science, một trong những chuyên ngành “hot” của thế kỷ 21
- Cách thu thập dữ liệu, khám phá, phân tích, thống kê tạo ra các báo cáo thông qua việc sử dụng các bộ thư viện, công cụ mạnh mẽ, mã nguồn mở như Python, Jupyter Notebooks, Numpy, Pandas...
- Cách trích xuất và trình bày dữ liệu dưới dạng có ý nghĩa thông qua nhiều kỹ thuật trình bày dữ liệu một cách trực quan trong Python như Matplotlib, Seaborn và Folium
- Tìm hiểu các công cụ trực quan hóa dữ liệu khác như Google Chart, IBM Watson Analytics
- Vận dụng cách tìm dữ liệu, xây dựng câu hỏi nghiên cứu, sử dụng các công cụ và kỹ thuật tìm ra câu trả lời và đưa ra quyết định hiệu quả hơn
- Thực hiện phân tích thống kê cơ bản
- Thực hiện các project cụ thể trong bối cảnh giải quyết các vấn đề khoa học dữ liệu hấp dẫn
Course 3: Mathematics and Statistics for Data Science (Toán và Thống Kê cho Khoa học dữ liệu)
- Các kiến thức cần thiết về toán dành cho Data Science như Đại số tuyến tính (Linear Algebra), Giải tính (Calculus), Phương trình vector ma trận (Matrix-Vector Equations), Eigenvalues và Eigenvectors, Phân tích thành phần chính (Principal Component Analysis - PCA)
- Các kiến thức cần thiết xác suất thống kê dành cho Data Science như Thống kê mô tả (Descriptive Statistics), Xác suất (Probability), Thống kê suy luận (Inferential Statistics), Ước lượng (Estimation), Tương quan (Correlation) Vận dụng các thư viện toán, xác suất thống kê của Python để giải quyết các vấn đề về khoa học dữ liệu
- Thực hiện phân tích thống kê, đưa ra nhận xét trên những bộ dữ liệu thực tế
Course 4: Databases and SQL for Data Science (Cơ sở dữ liệu và Truy vấn cho Khoa học dữ liệu)
- Các kiến thức và kỹ năng cần thiết khi làm việc với cơ sở dữ liệu (database)
- Kiến thức nền tảng vững chắc về ngôn ngữ truy vấn (SQL): các loại truy vấn rút trích, thêm, xóa, cập nhật…
- Ứng dụng SQL vào việc xử lý dữ liệu trong môi trường Data Science
- Xây dựng và làm việc với CSDL trên Cloud (đám mây), truy cập CSDL với Python sử dụng DB-API
- Thu thập dữ liệu từ Twitter APIs sử dụng Tweepy Python Package
- Phân tích dữ liệu với Python
- Làm việc với cơ sở dữ liệu thực, công cụ khoa học dữ liệu thực và bộ dữ liệu trong thế giới thực
Course 5: Data Pre-processing and Analysis (Tiền xử lý và phân tích dữ liệu)
- Các kiến thức và kỹ năng cần thiết khi thực hiện việc tiền xử lý và phân tích dữ liệu
- Kỹ thuật khai thác dữ liệu, chuyển đổi dữ liệu thô thành dữ liệu có định dạng dễ hiểu
- Cách chuẩn bị dữ liệu để phân tích, thực hiện thống kê, tạo trực quan hóa dữ liệu có ý nghĩa
- Các thư viện tiền xử lý và phân tích dữ liệu mạnh mẽ và ưu việt của Python như Numpy, Scipy, Pandas, Matplotlib, Seaborn…
- Quy trình quản lý phân tích dữ liệu hiệu quả
- Sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning giúp xây dựng các mô hình thông minh và đưa ra các dự đoán tuyệt vời
- Tích hợp kết quả thống kê để tạo các báo cáo, thuyết trình phân tích dữ liệu mạch lạc, thuyết phục
Course 6: Machine Learning with Python (Máy học với Python)
- Kiến thức nền tảng, cần thiết về Machine Learning, một nhánh rất “hot” của trí tuệ nhân tạo (AI)
- Sử dụng các bộ thư viện, công cụ mạnh mẽ, mã nguồn mở như Python, Jupyter Notebooks, Numpy, Pandas, Matplotlib, sklearn… dành cho Machine Learning
- Kiến thức và kỹ năng vận dụng và triển khai các thuật toán quan trọng thuộc nhóm Supervised Learning như Logistic Regression, Linear Regression, Naïve Bayes, K-Nearest Neighbors (KNN), Decision Tree, Random Forest, Support Vector Machine (SVM), Boosting và AdaBoost với Python
- Kiến thức và kỹ năng vận dụng và triển khai các thuật toán quan trọng thuộc nhóm Unsupervised Learning như K-Means clustering, Hierarchical Clustering, Apriori, Equivalence Class Clustering and bottom up Lattice Traversal (ECLAT), Expectation–maximization (EM), Gaussian Mixture Models (GMM), Dimensionality Reduction với Principal Component Analysis (PCA), Locally Linear Embedding (LLE) với Python
- Vận dụng các thuật toán Machine Learning trong việc giải quyết các vấn đề thực tế, cụ thể
- Xây dựng nền tảng vững chắc về Machine Learning với Python, tạo tiền đề cho việc tìm hiểu kiến thức về Deep Learning
Course 7: R programming language for Data Science (Lập trình R cho Khoa học dữ liệu)
- Các kiến thức nền tảng và những kỹ năng cần thiết để có thể thực hiện việc phân tích, thống kê, biểu diễn đồ họa và báo cáo bằng R – một ngôn ngữ lập trình luôn đứng trong “TOP TEN” các ngôn ngữ lập trình được sử dụng nhiều và phổ biến nhất
- Sử dụng các cấu trúc trong ngôn ngữ lập trình R để giải quyết các bài toán
- Vận dụng các cấu trúc điều kiện, cấu trúc lặp, function
- Sử dụng các thư viện có sẵn của R để thực hiện các công việc tính toán, thống kê Nắm vững và vận dụng các kiểu dữ liệu String, Vector, List, Matric, Array, Data Frame, Object và Class
- Làm việc với các kiểu dữ liệu tập tin như txt file, CSV file, Excel file, XML file, JSON file
- Thiết lập các Chart và Graph, trực quan hóa dữ liệu
- Lập trình thống kê và báo cáo với các built-in function trong R
- Áp dụng một số thuật toán Machine Learning trong việc phân loại, dự đoán và phân nhóm dữ liệu
Course 8: Big Data in Machine Learning (Dữ liệu lớn trong Máy học)
- Các công nghệ trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp
- Làm việc với Spark, Big Data Technology mới nhất
- Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib…
Course 9: Capstone Project – Đồ án tốt nghiệp (50 giờ)
Phương pháp đào tạo
Học viên sẽ được trải nghiệm thực tế trên các dự án Data Science chuẩn, giúp tự tin, sẵn sàng trước cơ hội nghề nghiệp trong Data Science đang ngày càng rộng mở.
Cam kết chất lượng đào tạo
Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:
- Sử dụng ngôn ngữ lập trình Python, ngôn ngữ R và các thư viện, công cụ phổ biến để giải quyết các vấn đề của Data Science
- Nắm được các kiến thức thức cần thiết về toán, xác suất thống kê dành cho Data Science
- Có được các kiến thức cơ bản về CSDL quan hệ, hiểu và áp dụng kiến thức nền tảng của ngôn ngữ SQL để giải quyết một số vấn đề trong Data Science
- Hiểu và vận dụng hiệu quả quy trình triển khai dự án Data Science vào bài toán thực tế
- Có khả năng tinh chỉnh và trình bày dữ liệu một cách trực quan, ý nghĩa giúp cho việc đưa ra quyết định hiệu quả hơn
- Biết cách vận dụng các thư viện toán, xác suất thống kê của Python để giải quyết các vấn đề Data Science Linh hoạt áp dụng các kỹ thuật tiền xử lý dữ liệu cho từng bộ dữ liệu có đặc trưng khác nhau với yêu cầu khai thác khác nhau\
- Vận dụng và triển khai các thuật toán quan trọng thuộc nhóm Supervised Learning và Unsupervised Learning trong việc giải quyết các vấn đề thực tế như phân loại, dự đoán các xu thế, xu hướng, phân cụm dữ liệu, gợi ý đề xuất… một cách hiệu quả
- Hiểu và vận dụng các công nghệ trong Big Data, đặc biệt học viên sẽ làm việc với Spark, Big Data Technology mới nhất
- Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib…
- Biết cách thu thập dữ liệu từ APIs, cách làm việc trên Cloud (đám mây) và Github
Ngoài ra, học viên thi đạt kết quả cuối môn học sẽ được cấp chứng chỉ "Applied Data Science" do Đại học Quốc gia TP.HCM cấp.