Không có gì phải bàn cãi khi ‘dữ liệu’ là khía cạnh quan trọng nhất của Khoa học dữ liệu và Thị giác máy tính cũng không ngoại lệ. Bạn có thể đã quen thuộc với cụm từ phổ biến “rác vào – rác ra” (garbage in – garbage out).
Chất lượng của dữ liệu cũng cực kỳ quan trọng. Cho dù bạn tìm kiếm tập dữ liệu trực tuyến hay tự chụp ảnh, những mẹo này sẽ giúp bạn thu thập tập dữ liệu tốt hơn.
Biểu diễn tốt
Bạn phải luôn nghĩ về lập luận của mình và thu thập tập dữ liệu dựa trên đó. Nếu bạn đang suy luận về camera an ninh và các đối tượng trong thế giới thực – bạn không cần thêm phim hoạt hình hoặc hình ảnh đồ chơi. Bạn nên cố gắng tạo lại một kịch bản suy luận và thu thập các bộ dữ liệu gần với đời thực. Đối với quá trình này, bạn nên nhớ rằng tập dữ liệu vẫn cần phải đa dạng, vì vậy bạn nên thu thập dữ liệu với ánh sáng, mùa, nền và thậm chí cả máy ảnh khác nhau. Vì vậy, bạn muốn đảm bảo rằng mạng neural của mình sẽ sẵn sàng cho hầu hết các trường hợp trong thế giới thực.
Tập dữ liệu cân bằng
Bạn nên thu thập cùng một lượng mẫu cho mỗi lớp. Bạn nên luôn hướng đến sự cân bằng, nhưng một số sự mất cân bằng không phải lúc nào cũng là điều xấu. Tập dữ liệu cân bằng sẽ giúp mô hình của bạn tránh sai lệch cho bất kỳ lớp nào. Trong một số trường hợp, bạn có thể muốn dữ liệu không cân bằng nếu trong thế giới thực, bạn có sự mất cân bằng đó. Nhưng trong trường hợp xấu nhất, mô hình của bạn có thể chỉ dự đoán lớp và nếu bạn sử dụng độ chính xác làm số liệu của mình (điều này sai trong trường hợp dữ liệu không cân bằng), bạn thậm chí sẽ không thấy rằng có vấn đề. Không phải lúc nào bạn cũng có được dữ liệu cân bằng hoàn hảo, nhưng bạn có thể sử dụng các kỹ thuật khác nhau để giải quyết vấn đề đó.
Gán nhãn tốt
Bạn nên nhất quán trong việc gán nhãn dữ liệu của mình. Nếu lớp của bạn có 2 loại, thì bạn nên nhất quán khi phân loại là loại 1 hoặc 2. Bạn nên gắn nhãn cho mọi đối tượng thuộc lớp của mình trong tập dữ liệu. Điều thực sự quan trọng là không để nhãn mục tiêu của bạn không được gán nhãn. Bạn cũng thực sự muốn gán nhãn với độ chính xác cao. Hộp giới hạn của bạn phải càng gần các cạnh của đối tượng càng tốt.
Đủ dữ liệu
Tất nhiên, càng nhiều dữ liệu càng tốt. Nhưng chúng ta đang sống trong thế giới thực, vì vậy thật khó để có thêm dữ liệu. Lượng dữ liệu cần thiết để đào tạo một mô hình thực sự phụ thuộc vào loại đối tượng của bạn. Nhưng với các mô hình được đào tạo trước, mọi việc dễ dàng hơn rất nhiều. Nếu hình ảnh của bạn không thực sự cụ thể như dữ liệu MRI hoặc tia X, thì bạn nên sử dụng các mô hình được đào tạo trước vì chúng đã có thể trích xuất các tính năng cấp thấp. Bạn có thể cần khoảng 1000 hình ảnh cho mỗi lớp để điều chỉnh mô hình của mình. Nếu dữ liệu của bạn thực sự cụ thể và bạn cần đào tạo một mô hình từ đầu – bạn sẽ cần nhiều dữ liệu hơn.
Tăng cường
Tăng cường giúp tập dữ liệu của bạn đa dạng hơn và mô hình của bạn khái quát hóa tốt hơn. Ví dụ, bạn lấy hình ảnh của mình và xoay nó một chút. Có rất nhiều cách để tăng cường dữ liệu của bạn.
Bạn có thể sử dụng tăng theo hai cách:
1 – để làm cho tập dữ liệu của bạn lớn hơn hoặc để cân bằng các lớp.
2 – để áp dụng ngẫu nhiên các phần mở rộng trong thời gian chạy. Phương pháp thứ hai được sử dụng phổ biến hơn và thường được thực hiện trong các máy dò SOTA.