Dữ liệu lớn (BigData) là gì?

Định nghĩa của dữ liệu lớn là dữ liệu chứa nhiều loại hơn, có khối lượng ngày càng tăng và với tốc độ nhanh hơn.

bigdata02

Nói một cách đơn giản, dữ liệu lớn là các tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là từ các nguồn dữ liệu mới. Những bộ dữ liệu này quá đồ sộ đến nỗi phần mềm xử lý dữ liệu truyền thống không thể quản lý chúng. Nhưng khối lượng dữ liệu khổng lồ này có thể được sử dụng để giải quyết các yêu cầu mà trước đây bạn không thể giải quyết được.

Lịch sử của dữ liệu lớn

Mặc dù bản thân khái niệm dữ liệu lớn còn tương đối mới, nhưng nguồn gốc của các tập dữ liệu lớn có từ những năm 1960 và 70 khi thế giới dữ liệu mới bắt đầu với các trung tâm dữ liệu đầu tiên và sự phát triển của cơ sở dữ liệu quan hệ.

Khoảng năm 2005, mọi người bắt đầu nhận ra lượng dữ liệu mà người dùng tạo ra thông qua Facebook, YouTube và các dịch vụ trực tuyến khác. Hadoop (một khung nguồn mở được tạo riêng để lưu trữ và phân tích các tập dữ liệu lớn) đã được phát triển cùng năm đó. NoSQL cũng bắt đầu trở nên phổ biến trong thời gian này.

Sự phát triển của các khung nguồn mở, chẳng hạn như Hadoop (và gần đây hơn là Spark) là điều cần thiết cho sự phát triển của dữ liệu lớn vì chúng làm cho dữ liệu lớn dễ làm việc hơn và lưu trữ rẻ hơn. Trong những năm kể từ đó, khối lượng dữ liệu lớn đã tăng vọt. Người dùng vẫn đang tạo ra lượng dữ liệu khổng lồ, nhưng không chỉ con người mới làm việc đó.

Với sự ra đời của Internet vạn vật (IoT), nhiều đối tượng và thiết bị được kết nối với internet, thu thập dữ liệu về mô hình sử dụng của khách hàng và hiệu suất sản phẩm. Sự xuất hiện của máy học đã tạo ra nhiều dữ liệu hơn.

Nguồn: internet

Tin liên quan