Ứng dụng Big Data vào trong sản xuất kinh doanh sẽ đem lại nhiều lợi ích cho doanh nghiệp. Tuy nhiên do Big Data cũng khá phức tạp nên đòi hỏi sự chuẩn bị cẩn thận trước khi có thể khai thác sử dụng.
Định nghĩa Big Data
Big Data là dữ liệu lớn không xử lý được theo cách thông thường và có khả năng khai thác dữ liệu
Theo định nghĩa trên ta rút ra được 1 số lưu ý sau:
- Độ lớn của dữ liệu mang tính tương đối, không nhất thiết phải lên tới Terabyte hay Exabyte
- Việc cộng 2 số có hàng trăm chữ số phải viết riêng function để thực hiện chứ không sử dụng các kiểu dữ liệu có sẵn như double. Tuy nhiên số có hàng trăm chữ số không khai thác được gì nên không phải là Big Data
- Danh sách hàng hóa của 1 siêu thị khoảng 20.000 – 30.000 hàng hóa nhưng dữ liệu này dễ dàng xử lý bởi Excel hoặc database bình thường. Do đó danh sách hàng hóa chưa đủ lớn để được gọi là Big Data
- Lịch sử bán hàng của 1 siêu thị được xem là Big Data vì dữ liệu bán hàng đủ lớn và có thể khai thác nhiều thông tin trong đó. Ví dụ như thống kê hàng hóa bán chạy, dự đoán thiếu hàng, dự đoán doanh thu/lợi nhuận từ dữ liệu đó…
- Big Data không cho ra kết quả real-time. Các phương thức rút trích kết quả, báo cáo thống kê đòi hỏi phải có 1 thời gian thực thi khá lâu (vài phút đến vài giờ)
- Dữ liệu chat của người dùng cũng là Big Data vì có thể khai thác để dự đoán nhu cầu của khách hàng để quảng cáo đúng target. Dữ liệu này bao gồm hình ảnh, text, âm thanh, video,…
Chuẩn bị cho Big Data
Dữ liệu để có thể khai thác được đòi hỏi phải đủ nhiều, chính xác và tuần tự. Trong thực tế không phải lúc nào dữ liệu cũng có thể tuần tự, nên việc chuẩn hóa cấu trúc dữ liệu từ ban đầu sẽ có ích cho việc khai thác sau này.
Để khai thác Big Data thành công cần có dữ liệu và thuật toán. Để chuẩn bị đúng và chính xác chúng tôi sẵn sàng tư vấn, giải đáp các vấn đề ngay từ lúc bắt đầu đến hoàn thiện.
Yêu cầu về phần cứng
- Thiết bị có khả năng lưu trữ dung lượng lớn và luôn có hệ thống backup. Các thiết bị NAS với RAID1 sẽ đáp ứng được nhu cầu lưu trữ lâu dài và tiết kiệm chi phí trong giai đoạn thu thập dữ liệu.
- Có khả năng đáp ứng nhiều request cùng lúc, tốt nhất build dạng web server
- Tốc độ phần cứng đủ nhanh theo yêu cầu bài toán
Yêu cầu về phần mềm và dữ liệu
- File nên được đặt tên có nghĩa và trong tên luôn kèm theo thời gian
- MongoDB, PostgreSQL database được khuyến khích sử dụng vì có khả năng mở rộng dữ liệu linh hoạt
- Dữ liệu phải đủ nhiều để đáp ứng được các bài toán hoặc câu hỏi phức tạp: trong tháng tới cần mua thêm hoặc giảm loại hàng hóa nào?
- Dữ liệu phải đầy đủ tất cả thông tin: ai thêm, ai sửa, thêm lúc nào, sửa lúc nào, sửa cái gì, vì sao sửa, dữ liệu cũ còn không,…
Một số điều cần lưu ý
- Dữ liệu cần tránh trùng lắp vô ích
- Lưu trữ dữ liệu dạng thô có thể check được, tránh lưu dạng file nén vì khó kiểm tra tính đúng đắn của dữ liệu
- Không cần lưu dữ liệu quá lớn, VD ảnh kích cỡ 1280x720p là đủ, không cần phải lưu ảnh lớn hơn, tương tự với video
- Có các biện pháp bảo mật, an toàn dữ liệu
Tổng kết
Đọc đến đây quý khách sẽ Big Data khá phức tạp nên chúng tôi sẵn sàng tư vấn để giúp quý khách làm rõ bài toán cần thực hiện. Bằng kinh nghiệm của mình chúng tôi sẽ giúp quý khách làm rõ ràng hơn bài toán cần thực hiện để lên kế hoạch chính xác trong sản xuất kinh doanh.