Hiểu về trang bị thừa và cách ngăn chặn nó
Kirsten Rohrs Schmitt là một biên tập viên, nhà văn, người hiệu đính và người kiểm tra thông tin chuyên nghiệp xuất sắc. Cô có chuyên môn về tài chính, đầu tư, bất động sản và lịch sử thế giới. Tro
Hiểu về trang bị thừa và cách ngăn chặn nó
Kirsten Rohrs Schmitt là một biên tập viên, nhà văn, người hiệu đính và người kiểm tra thông tin chuyên nghiệp xuất sắc. Cô có chuyên môn về tài chính, đầu tư, bất động sản và lịch sử thế giới. Trong suốt sự nghiệp của mình, cô đã viết và biên tập nội dung cho nhiều tạp chí và trang web tiêu dùng, tạo sơ yếu lý lịch và nội dung mạng xã hội cho các chủ doanh nghiệp, đồng thời tạo tài sản thế chấp cho các học viện và tổ chức phi lợi nhuận. Kirsten cũng là người sáng lập và giám đốc của Your Best Edit; tìm cô ấy trên LinkedIn và Facebook.
Investopedia / Zoe Hansen
Overfitting là lỗi lập mô hình trong thống kê xảy ra khi một chức năng được căn chỉnh quá gần với một tập hợp điểm dữ liệu giới hạn. Do đó, mô hình chỉ hữu ích khi tham chiếu đến tập dữ liệu ban đầu của mô hình chứ không tham chiếu đến bất kỳ tập dữ liệu nào khác.
Việc trang bị quá mức cho mô hình thường có hình thức tạo ra một mô hình quá phức tạp để giải thích các đặc điểm riêng trong dữ liệu đang được nghiên cứu. Trên thực tế, dữ liệu thường được nghiên cứu có một số mức độ lỗi hoặc nhiễu ngẫu nhiên bên trong nó. Do đó, việc cố gắng làm cho mô hình tuân thủ quá chặt chẽ với dữ liệu hơi thiếu chính xác có thể khiến mô hình bị nhiễm các lỗi nghiêm trọng và làm giảm khả năng dự đoán của mô hình.
Tìm hiểu về trang bị thừa
Ví dụ: một vấn đề phổ biến là sử dụng thuật toán của máy tính để tìm kiếm cơ sở dữ liệu rộng lớn về dữ liệu thị trường lịch sử trong để tìm các mẫu. Nếu được nghiên cứu đầy đủ, thường có thể phát triển các định lý phức tạp dự đoán lợi nhuận trong thị trường chứng khoán với đóng chính xác.
Tuy nhiên, khi áp dụng cho dữ liệu bên ngoài mẫu, những định lý như vậy có thể chứng tỏ chỉ là sự khớp quá mức của một mô hình với những gì trong thực tế chỉ là những sự kiện ngẫu nhiên. Trong mọi trường hợp, điều quan trọng là phải thử nghiệm một mô hình dựa trên dữ liệu nằm ngoài mẫu được sử dụng để phát triển mô hình đó.
Cách ngăn chặn trang bị thừa
Các cách để ngăn chặn trang bị thừa bao gồm xác thực chéo, trong đó dữ liệu được sử dụng để đào tạo mô hình được chia nhỏ thành các nếp gấp hoặc phân vùng và mô hình được chạy cho từng nếp gấp. Sau đó, ước tính lỗi tổng thể được tính trung bình. Các phương pháp khác bao gồm tập hợp: dự đoán được kết hợp từ ít nhất hai mô hình riêng biệt, tăng cường dữ liệu, trong đó tập dữ liệu có sẵn được làm cho trông đa dạng và đơn giản hóa dữ liệu, trong đó mô hình được sắp xếp hợp lý để tránh khớp quá mức.
Các chuyên gia tài chính phải luôn nhận thức được sự nguy hiểm của việc trang bị thừa hoặc thiếu cho một mô hình dựa trên dữ liệu hạn chế. Hình mẫu lý tưởng phải cân đối.
Trang bị quá mức trong học máy
Quá trang bị cũng là một yếu tố trong học máy. Nó có thể xuất hiện khi một máy đã được dạy quét dữ liệu cụ thể theo một cách, nhưng khi áp dụng quy trình tương tự cho một tập hợp dữ liệu mới, kết quả sẽ không chính xác. Điều này là do lỗi trong mô hình được xây dựng, vì nó có khả năng cho thấy độ lệch thấp và phương sai cao. Mô hình có thể có các tính năng dư thừa hoặc chồng chéo, dẫn đến việc mô hình trở nên phức tạp không cần thiết và do đó không hiệu quả.
Trang bị thừa so với trang phục thiếu
Một mô hình được trang bị quá mức có thể quá phức tạp, khiến nó không hiệu quả. Nhưng một mô hình cũng có thể không phù hợp, nghĩa là nó quá đơn giản, có quá ít tính năng và quá ít dữ liệu để xây dựng một mô hình hiệu quả. Mô hình overfit có độ chệch thấp và phương sai cao, trong khi mô hình underfit thì ngược lại—nó có độ chệch cao và phương sai thấp. Việc thêm nhiều tính năng hơn vào một mô hình quá đơn giản có thể giúp hạn chế sự thiên vị.
Ví dụ về trang bị thừa
Ví dụ: một trường đại học nhận thấy tỷ lệ bỏ học đại học cao hơn mức mong muốn nên quyết định tạo một mô hình để dự đoán khả năng một ứng viên sẽ vượt qua chặng đường này để tốt nghiệp.
Để làm được điều này, trường đại học đào tạo một mô hình từ bộ dữ liệu gồm 5.000 ứng viên và kết quả của họ. Sau đó, nó chạy mô hình trên tập dữ liệu gốc—nhóm 5.000 người đăng ký—và mô hình dự đoán kết quả với độ chính xác 98%. Tuy nhiên, để kiểm tra độ chính xác của nó, họ cũng chạy mô hình trên tập dữ liệu thứ hai—5.000 ứng viên khác. Tuy nhiên, lần này, mô hình chỉ chính xác 50% vì mô hình quá phù hợp với một tập hợp con dữ liệu hẹp, trong trường hợp này là 5.000 ứng dụng đầu tiên.
Quản lý rủi ro
Giáo dục cơ bản về giao dịch
Tâm lý giao dịch
Tin tức
Phân tích tài chính
Kinh tế
Hiểu về trang bị thừa và cách ngăn chặn nó
Kirsten Rohrs Schmitt là một biên tập viên, nhà văn, người hiệu đính và người kiểm tra thông tin chuyên nghiệp xuất sắc. Cô có chuyên môn về tài chính, đầu tư, bất động sản và lịch sử thế giới. Tro