Giới thiệu về k-fold cross-validation – Trí tuệ nhân tạo

xác thực chéo là một phương pháp thống kê được sử dụng để ước tính hiệu suất của các mô hình học máy. nó thường được sử dụng để so sánh và lựa chọn mô hình tốt nhất cho một vấn đề. kỹ thuật này dễ hiểu, dễ thực hiện và cung cấp các ước tính đáng tin cậy hơn các phương pháp khác. Trong bài viết này, chúng ta sẽ cùng trituenhantao.io tìm hiểu về kỹ thuật xác thực chéo k-lần.

xác thực chéo

k-fold là gì?

Xác thực chéo là một kỹ thuật lấy mẫu để đánh giá mô hình học máy trong trường hợp dữ liệu không nhiều.

Tham số chính trong kỹ thuật này là k, đại diện cho số lượng nhóm mà dữ liệu sẽ được chia. vì lý do đó, nó được gọi là xác nhận chéo k-lần. khi giá trị của k được chọn, giá trị đó được sử dụng trực tiếp trong tên của phương pháp đánh giá. ví dụ: với k = 10, phương pháp sẽ được gọi là xác thực chéo 10 lần.

Kỹ thuật này thường bao gồm các bước sau:

  1. xáo trộn tập dữ liệu một cách ngẫu nhiên
  2. chia tập dữ liệu thành k nhóm
  3. cho mỗi nhóm:
    1. sử dụng nhóm hiện tại để đánh giá hiệu quả của mô hình
    2. các nhóm còn lại được sử dụng để đào tạo mô hình
    3. đào tạo mô hình
    4. đánh giá và sau đó phá hủy mô hình

    một lưu ý quan trọng là mỗi mẫu được chỉ định cho một nhóm duy nhất và phải ở trong nhóm đó trong suốt phần còn lại của quá trình. việc xử lý trước dữ liệu, chẳng hạn như xây dựng từ vựng, chỉ được thực hiện trên tập huấn luyện phân tách, không phải trên tập dữ liệu đầy đủ. Yêu cầu phá hủy mô hình sau mỗi lần đánh giá, ngăn mô hình nhớ nhãn của bộ thử nghiệm trong lần đánh giá trước. những lỗi cấu hình này rất dễ mắc phải và tất cả đều dẫn đến kết quả đánh giá không chính xác (thường tích cực hơn kết quả thực).

    kết quả tổng hợp thường là giá trị trung bình của các đánh giá. Ngoài ra, trên thực tế, việc bổ sung thông tin phương sai và độ lệch chuẩn vào các kết quả tổng hợp cũng được sử dụng.

    cài đặt

    giá trị k là một tham số quan trọng để đánh giá chính xác mô hình, vậy làm cách nào để chọn tham số này?

    ba chiến lược phổ biến để chọn k:

    • đại diện : Giá trị của k được chọn sao cho mỗi tập kiểm tra / huấn luyện đủ lớn để đại diện về mặt thống kê cho tập dữ liệu chứa nó.
    • k = 10 : Giá trị của k được đặt thành 10, một giá trị được sử dụng phổ biến và đã được chứng minh là tạo ra sai số nhỏ, phương sai thấp (thông qua thử nghiệm).
    • k = n : giá trị của k được đặt thành n, trong đó n là kích thước của tập dữ liệu, vì vậy mỗi mẫu sẽ được sử dụng để đánh giá mô hình một lần. phương pháp này còn được gọi là xác thực chéo để lại một phương pháp.

    giá trị k = 10 là một cấu hình rất phổ biến. bạn nên sử dụng giá trị này nếu bạn gặp khó khăn khi chọn một giá trị thích hợp cho vấn đề của mình. Ngoài ra, bạn cũng phải chọn một giá trị của k để các mẫu có thể được chia đều thành các nhóm. thư viện scikit-learning cung cấp triển khai xác thực chéo hoàn chỉnh. bạn có thể kiểm tra api lựa chọn mô hình.

    Nếu bạn thấy bài viết hữu ích, đừng ngại chia sẻ cho những ai quan tâm. Hãy thường xuyên ghé thăm trituenhantao.io hoặc subscribe (dưới chân trang) để nhận những bài viết tương tự trong thời gian sớm nhất!

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *