Machine Learning – Phần 1

Machine Learning (Học Máy) – Phần 1

Machine learning là một lĩnh vực của trí tuệ nhân tạo (AI) liên quan đến việc phát triển các thuật toán và mô hình tính toán để cho phép máy tính “học” từ dữ liệu một cách tự động, tổng hợp kinh nghiệm và cải thiện hiệu suất theo thời gian. Machine learning cho phép máy tính nhận ra các đặc trưng và cấu trúc của dữ liệu, dự đoán kết quả và đưa ra quyết định thông qua việc tự động học từ dữ liệu và kinh nghiệm.

I. So sánh giữa Machine learning và Kinh tế lượng cổ điển

– Machine learning đại diện cho một loạt các kỹ thuật trong đó các mô hình nhận ra các đặc tính, tính chất của các mẫu dữ liệu để ứng dụng thực tế. So với các kỹ thuật thống kê truyền thống, Machine learning được thiết kế để xử lý các khối lượng dữ liệu cực kỳ lớn, cung cấp tính linh hoạt cao hơn và sử dụng một loạt các thông số kỹ thuật khác nhau.

– Trong phân tích thống kê và kinh tế lượng cổ điển thì lý thuyết kinh tế tài chính sẽ xác định quy luật của dữ liệu được tạo ra. Nhà phân tích sẽ lựa chọn mô hình và biến số, sau đó sử dụng thuật toán để ước tính các tham số và kiểm định việc có ý nghĩa hay không của biến số và mô hình. Nhà phân tích phải sử dụng kết quả đó để xác định xem dữ liệu có hỗ trợ cho kết quả dự kiến hay không. Trong khi đó, Machine learning cho phép dữ liệu quyết định những gì mà các mô hình sẽ bao gồm và không cần có giả thuyết cụ thể nào được cho trước để kiểm tra.

II. Các mô hình Machine learning được chia thành ba loại chính:

– Học không giám sát (Unsupervised learning): Machine learning sẽ nhận dạng các đặc tính, tính chất của dữ liệu mà không cần có mục tiêu được chỉ định trước. Các nhiệm vụ Machine learning phải làm như: phân cụm dữ liệu và xác định nhóm các nhân tố giải thích.

– Học có giám sát (Supervised learning): được sử dụng để dự đoán giá trị của một biến số (ví dụ: giá trị của một chiếc ô tô) hoặc phân loại của một quan sát (ví dụ: khách hàng có vỡ nợ trong năm tới hay không). Thuật toán sử dụng “dữ liệu được gán nhãn” để học.

– Học củng cố (Reinforcement learning): sử dụng phương pháp thử và sai để đưa ra quyết định trong một môi trường thay đổi. Chúng ta sẽ tìm hiểu chi tiết ở phần bên dưới.

III. Các kỹ thuật tiền xử lý dữ liệu cho mô hình Machine learning

1. Principal Components Analysis – PCA
PCA là một kỹ thuật thống kê phổ biến để giảm số biến cần xử lý trong các mô hình học không giám sát. Mục tiêu của PCA là tạo ra gần như cùng lượng thông tin trong khi chỉ phải sử dụng một số lượng nhỏ các biến mới được tạo ra (gọi tắt là biến PCA). Biến PCA được tạo ra bằng cách chuyển trục tọa độ, tạo hệ quy chiếu mới đa chiều. Do đó, trong một mô hình Machine learning, PCA được sử dụng để giảm số lượng các đặc trưng (features).

Lưu ý: PCA hiệu quả khi dữ liệu có các biến có tương quan mạnh với nhau (ví dụ dữ liệu về lãi suất của các kỳ hạn), và sẽ không quá hữu ích khi các biến có tương quan thấp.

2. Training, Validation, and Test Data Sub-Samples
Đây là việc chia một mẫu dữ liệu (sample) thành các mẫu nhỏ hơn (sub-sample) gồm Training, Validation, and Test Data Sub-Samples. Kỹ thuật này được sử dụng trong các mô hình kinh tế lượng truyền thống và các mô hình Machine learning.

– Training set (mẫu huấn luyện) được sử dụng để huấn luyện mô hình, tức là để tìm các tham số phù hợp cho mô hình dựa trên dữ liệu huấn luyện.

– Validation set (mẫu xác thực) được sử dụng để kiểm tra độ chính xác của mô hình được huấn luyện trên tập huấn luyện và đánh giá các tham số mô hình.

– Test set (mẫu kiểm tra) được sử dụng để đánh giá độ chính xác của mô hình đã được huấn luyện và kiểm tra khả năng tổng quát hóa của mô hình trên dữ liệu mới.

Thông thường, dữ liệu sẽ được chia theo tỷ lệ 60-20-20, trong đó 60% của dữ liệu được sử dụng cho tập huấn luyện, 20% được sử dụng cho tập validation và 20% còn lại được sử dụng cho tập test. Tuy nhiên, tỷ lệ này có thể thay đổi tùy thuộc vào loại bài toán và kích thước dữ liệu.

IV. Phương pháp K-Means Clustering sử dụng trong Unsupervised learning

Để xác định cấu trúc/tính chất của một tập dữ liệu, một thuật toán K-means (học không giám sát) có thể được sử dụng để phân chia các quan sát trong tập dữ liệu thành các cụm/nhóm có tính chất giống nhau. Giá trị K đại diện cho số nhóm được phân chia và giá trị K được tùy ý lựa chọn dựa vào từng loại dữ liệu khác nhau. Trung tâm của các cụm dữ liệu được gọi là trọng tâm, ban đầu được chọn ngẫu nhiên và sau đó sẽ được hiệu chỉnh. Mỗi điểm dữ liệu được phân bổ vào trọng tâm gần nhất của nó, sau đó trọng tâm được tính lại để ở giữa tất cả các điểm dữ liệu được gán cho nó. Quá trình này tiếp tục cho đến khi trọng tâm không dịch chuyển. Khoảng cách giữa mỗi điểm dữ liệu và trọng tâm của nó có thể được tính bằng cách sử dụng phương pháp đo khoảng cách Euclidean hoặc Manhattan.

Mục tiêu của thuật toán K-means là giảm thiểu khoảng cách giữa mỗi điểm quan sát và trọng tâm của nó. Mô hình sẽ được cải thiện nếu mỗi điểm dữ liệu gần với trọng tâm của chúng.
Inertia là một đại lượng trong thuật toán K-means Clustering, đại diện cho tổng khoảng cách giữa các điểm dữ liệu và trung tâm của nó trong một cụm (cluster). Đây là một phép đo để đánh giá chất lượng của việc phân cụm, với giá trị inertia thấp hơn cho thấy các điểm dữ liệu trong một cụm gần nhau hơn và cụm đó phù hợp tốt hơn.

V. Tìm hiểu thêm về Reinforcement Learning (học củng cố)

Reinforcement Learning là một phương pháp Machine learning liên quan đến việc tạo ra một chính sách để ra quyết định, với mục tiêu tối đa hóa phần thưởng. Tương tự như cách máy tính học cách chơi cờ vua, máy tính sử dụng cách thử và sai để học cách ra quyết định trong mọi tình huống, việc này được thực hiện bằng cách cho máy tính chơi với chính nó. Thuật toán Reinforcement Learning cần một lượng lớn dữ liệu huấn luyện, và hiệu suất ban đầu thường không cao, nhưng sẽ được cải thiện đáng kể theo thời gian.

Các khái niệm quan trọng trong Reinforcement Learning là trạng thái, hành động và phần thưởng.

– Trạng thái (S) định nghĩa môi trường,

– Hành động (A) đại diện cho các quyết định được đưa ra và,

– Phần thưởng (R) được tối đa hóa khi quyết định tốt nhất được đưa ra.

Để xác định các hành động được thực hiện cho mỗi trạng thái, thuật toán sẽ lựa chọn giữa hành động tốt nhất đã được xác định trước (Exploitation- khai thác) và một hành động mới (Exploration- khám phá). Xác suất được gán cho hành động khai thác và khám phá lần lượt là p và 1 – p. Khi thuật toán học được các chiến lược vượt trội, giá trị của p sẽ tăng lên.

VI. Hiện tượng Overfitting và Underfitting của model

Overfitting xảy ra khi một mô hình quá phức tạp, quá lớn hoặc có quá nhiều tham số; đây là một rủi ro lớn hơn đối với các mô hình Machine learning hơn là các mô hình kinh tế lượng truyền thống (thường có số lượng tham số hạn chế). Overfitting làm cho mô hình máy học quá phù hợp với dữ liệu huấn luyện, nhưng lại không thể dự đoán tốt trên dữ liệu mới. Tức là mô hình đã học những chi tiết quá mức của dữ liệu huấn luyện và không thể tổng quát hóa để áp dụng cho dữ liệu mới.

Underfitting là tình trạng mô hình máy học quá đơn giản và không thể đưa ra dự đoán chính xác trên dữ liệu huấn luyện và dữ liệu mới. Tức là mô hình không học được đủ thông tin và sự phụ thuộc giữa các biến đầu vào và đầu ra. Một mô hình Machine learning (không giả định về cấu trúc mô hình) sẽ giải quyết một mối quan hệ phi tuyến, trong khi một mô hình truyền thống sẽ thiếu khớp dữ liệu. Do đó, rủi ro thiếu khớp trong các mô hình truyền thống là lớn hơn.

VII. Natural Language Processing (NPL)

Xử lý ngôn ngữ tự nhiên (NLP) là một thành phần của Machine learning tập trung vào việc hiểu và phân tích ngôn ngữ con người bằng văn bản hoặc âm thanh. NLP, còn được gọi là khai thác văn bản, đã được sử dụng trong việc phát hiện gian lận kế toán, đánh giá cảm xúc/thái độ của các bình luận, phân loại văn bản và nhận dạng các từ cụ thể để xác định mục đích của một thông điệp. NLP cung cấp lợi ích về tốc độ xử lý văn bản và đánh giá tài liệu mà không gặp những sự không nhất quán hoặc thiên vị như con người.

Các bước trong NLP bao gồm việc thu thập ngôn ngữ trong tài liệu, tiền xử lý văn bản và phân tích nó cho một mục đích cụ thể. Tiền xử lý văn bản yêu cầu tách từ trong tài liệu, loại bỏ các dấu câu, tìm gốc từ, đưa về dạng từ điển và xem xét các Ngrams.

NLP thường được sử dụng để đánh giá liệu các thông tin công bố của công ty được xem là tích cực, tiêu cực hay trung lập. Bằng cách sử dụng một danh mục các “từ tình cảm”, các bộ đếm của các từ được phân loại trước là tích cực, tiêu cực hoặc trung lập được so sánh để đánh giá tình cảm tổng thể của một thông điệp công bố.

Rate this post

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *