Dữ liệu là một khái niệm mà bạn thường xuyên bắt gặp trong những lĩnh vực khác nhau trong đời sống, đặc biệt là công nghệ thông tin. Vậy thì định nghĩa chính xác của dữ liệu là gì bạn đã biết? Hãy cùng Shimpleshop tìm hiểu về khái niệm dữ liệu trong bài viết bên dưới nhé!
Dữ liệu là gì?
Dữ liệu là gì?
Nói dễ hiểu, dữ liệu (data) bao gồm những mệnh đề phản ánh thực tại. Một phân loại lớn của các mệnh đề quan trọng trong thực tiễn là các đo đạc hay quan sát về một đại lượng biến đổi. Các mệnh đề đó có thể bao gồm các số, từ hoặc hình ảnh.
Theo nghĩa rộng, dữ liệu thô là các số, ký tự, hình ảnh hay các kết quả khác của các thiết bị chuyển đổi các lượng vật lý thành các ký hiệu. Các dữ liệu thuộc loại này thường được xử lý tiếp bởi người hoặc đưa vào máy tính. Trong máy tính, dữ liệu được lưu trữ và xử lý tại đó hoặc được chuyển (output) cho một người hoặc một máy tính khác. Dữ liệu thô là một thuật ngữ tương đối. Việc xử lý dữ liệu thường được thực hiện theo từng bước. “Dữ liệu đã được xử lý” tại bước này có thể được coi là “dữ liệu thô” cho bước tiếp theo.
Nguồn cấp dữ liệu dữ liệu là gì?
Nguồn cấp dữ liệu là luồng nội dung bạn có thể cuộn qua. Nội dung xuất hiện trong các khối trông giống nhau xuất hiện lặp lại lần lượt. Ví dụ: một nguồn cấp dữ liệu có thể biên tập được (ví dụ: danh sách bài viết hoặc tin tức) hoặc danh sách (ví dụ: danh sách sản phẩm, dịch vụ, v.v.). Nguồn cấp dữ liệu có thể xuất hiện ở vị trí bất kỳ trên trang.
Lưu ý: Để phục vụ cho mục đích của quảng cáo trong nguồn cấp dữ liệu, nguồn cấp dữ liệu không phải là nguồn cấp dữ liệu phân phối trên web, chẳng hạn như RSS.
Một số ví dụ về nguồn cấp dữ liệu bao gồm: dữ liệu là gì
-Nguồn cấp dữ liệu chính trên trang chủ (ví dụ: nguồn cấp dữ liệu tin tức)
-Nguồn cấp dữ liệu chính trên trang kết quả sản phẩm hoặc dịch vụ
-Nguồn cấp dữ liệu theo chiều ngang trên trang
-Nguồn cấp dữ liệu chỉ văn bản
Bạn có thể có trang web là nguồn cấp dữ liệu khác trên thiết bị di động chứ không phải trên máy tính để bàn.
Ví dụ: bố cục lưới trên máy tính để bàn trở thành nguồn cấp dữ liệu khi được xem trên thiết bị di động. Trong trường hợp này, bạn có thể tạo quảng cáo trong nguồn cấp dữ liệu riêng cho các kích thước màn hình khác nhau.
Phân loại dữ liệu
Dữ liệu được chia làm 2 loại chính là dữ liệu có cấu trúc (structured data) và dữ liệu không có cấu trúc (unstructured data).
Structured data (Dữ liệu có cấu trúc)
Thường được gọi là dữ liệu định lượng với các đặc điểm như:
-Thường là dữ liệu và số liệu có tính khách quan
-Thường ở dưới dạng số hoặc chữ
-Được lưu trữ trong Google Sheet, Excel, SQL
-Dễ dàng thu thập, truy xuất, sắp xếp, lưu trữ và trích xuất
Ví dụ: trong tin học, dữ liệu là các con số; trong kinh doanh, dữ liệu là họ tên, ngày tháng, địa chỉ thông tin giao dịch
Unstructured data (Dữ liệu không có cấu trúc)
Thường được gọi là dữ liệu định tính với các đặc điểm như:
-Thường là các ý kiến, đánh giá mang tính chủ quan
-Chỉ tồn tại dưới dạng văn bản
-Được lưu trữ trong Word, Elasticsearch, Solr
-Khó thu thập, truy xuất, lưu trữ và sắp xếp trong cơ sở dữ liệu thông thường
-Không thể sử dụng các phương pháp và công cụ phân tích dữ liệu
Ví dụ: dữ liệu doanh nghiệp dưới dạng khảo sát, phản hồi, nhận xét trên mạng xã hội, website, blog, phản hồi email.
Khái niệm thông tin là gì?
Thông tin chính là sự phản ánh thế giới khách quan bao gồm các sự vật, hiện tượng và các hoạt động của con người, thông qua đó, con người sẽ tiếp nhận thông tin nhằm mục đích tăng vốn hiểu biết cho bản thân mình và thực hiện các hoạt động có ích cho cộng đồng, cho xã hội.
Nếu như khái niệm thông tin là những hiểu biết về một thực thể, một sự vật và hiện tượng nào đó thì dữ liệu là thông tin đã được mã hóa và đưa lên máy tính.
Đơn vị đo thông tin là gì?
Đơn vị đo thông tin chính là bit ( Binary digit). Bit là dung lượng nhỏ nhất có thể ghi được hoặc kí hiệu là 0 hoặc 1. Hai ký hiệu này được dùng để biểu diễn thông tin trong máy tính. Ngoài đơn vị trên, byte cũng được coi là một đơn vị đo của thông tin, 1 byte = 8 bit.
1 byte = 8 bit.
1 kilôbai (kB) = 1024 byte = 210 byte.
1 megabit (MB)= 1024 kB = 210kB.
1 gigabyte (GB) = 1024 MB = 210MB.
1 têrabai (TB) = 1024 GB = 210GB.
1 petabyte (PB)= 1024 TB = 210 TB.
Mã hóa thông tin trong máy tính như thế nào?
Để máy tính xử lý được thông tin thì thông tin cần phải được biến đổi thành một dãy bit. Cách biến đổi như vậy được biết đến với tên gọi là mã hóa thông tin.
Bộ mã ASCII được sử dụng để mã hóa thông tin dạng văn bản, sử dụng 8 bit để mã hóa ký tự. Trong bộ mã ASCII, các ký tự sẽ được đánh số từ 0 cho tới 255 và các ký tự này được gọi là mã ASCII thập phân của ký tự.
Bộ mã Unicode sử dụng 16 bit để mã hóa vì bộ mã ASCII chỉ mã hóa được 256 ký tự, chưa đủ để đồng hóa với bảng chữ cái của ngôn ngữ trên thế giới. Bộ Unicode mã hóa được 65536 ký tự khác nhau. Đây là bộ mã hóa chung được sử dụng để thể hiện các văn bản hành chính. Thông tin có nhiều dạng khác nhau nhưng đều được lưu trữ và xử lý trong máy tính ở một dạng chung nhất đó là mã nhị phân.
Khái niệm cơ sở dữ liệu
Cơ sở dữ liệu dịch sang tiếng anh là Database và được viết tắt là CSDL. Đó là một hệ thống bao gồm rất nhiều thông tin, dữ liệu được xây dựng, sắp xếp theo một cấu trúc nhất định nhằm hỗ trợ quá trình khai thác, sử dụng của con người khi chạy nhiều chương trình ứng dụng cùng một lúc.
Việc áp dụng hình thức lưu trữ này, có tác dụng khắc phục điểm hạn chế của việc lưu file truyền thống trên máy tính. Thay vào đó, các thông tin lưu trữ sẽ đảm bảo tính nhất quán, tránh tình trạng trùng lặp thông tin.
Mặt khác, CSDL còn giúp tăng cường khả năng chia sẻ dữ liệu đa dạng. Người dùng chỉ cần có mật khẩu là có thể dễ dàng truy cập vào cơ sở dữ liệu ở bất kỳ thời gian nào, bất kỳ đâu trên thế giới.
Các mô hình cơ sở dữ liệu
Mô hình dữ liệu phân cấp
Tên tiếng anh của mô hình này là Hierarchical model. Hierarchical model là dạng mô hình cơ sở dữ liệu ra đời đầu tiên, vào khoảng những năm 60.
Cấu trúc của mô hình gồm nhiều nút, trong đó, mỗi nút đều giữ những vai trò riêng và để biểu diễn cho một thực thể nhất định. Giữa hai nút sẽ được liên kết với nhau theo từng mối quan hệ.
Điểm nổi bật của mô hình dữ liệu phân cấp là dễ xây dựng và thao tác, thích hợp sử dụng trong các tổ chức phân cấp nhân sự thuộc các doanh nghiệp, công ty. Song, bên cạnh tính năng đó thì Hierarchical model còn ẩn chứa nguy cơ xảy ra tình trạng lặp lại bản ghi, gây dư thừa và không nhất quán.
Mô hình dữ liệu quan hệ
Mô hình cơ sở dữ liệu quan hệ dịch sang tiếng anh là Relational model. Vậy, bản chất của mô hình cơ sở dữ liệu quan hệ là gì? Đây là mô hình dựa trên mối quan hệ giữa lý thuyết tập hợp và đại số quan hệ.
Ưu điểm của mô hình là tính chặt chẽ cao, các dữ liệu được mô tả một cách rõ ràng, do đó, mức độ thông dụng là cao nhất hiện nay. Ngoài ra, mô hình còn được tổ chức dưới dạng bảng các phép toán thao tác thông qua dữ liệu dựa trên lý thuyết tập hợp của toán học. Từ đó giúp việc sử dụng các phép toán như hợp, giao, tích đề các, chia, trừ… được thuận tiện hơn.
Mô hình dữ liệu mạng
Mô hình dữ liệu mạng hay còn gọi là Network model, là mô hình có cấu trúc dữ liệu tổ chức được thể hiện dưới dạng một đồ thị hướng. Trong đó, các các đỉnh chính là các thực thể, còn các cung được hiểu là quan hệ giữa hai đỉnh (giữa hai thực thể). Thông thường, một kiểu bản ghi sẽ liên kết với nhiều kiểu bản ghi khác.
Network model cho phép người dùng dễ dàng biểu diễn đa dạng các ngữ nghĩa theo kiểu bản ghi hay móc nối và truy vấn. Mặc dù vậy, mô hình này vẫn còn tồn tại những hạn chế như: biểu diễn ngữ nghĩa, số lượng con trỏ lớn và có sự móc nối giữa các bản ghi với nhau.
Khái niệm Big data
Big data là thuật ngữ dùng để chỉ tập hợp dữ liệu rất lớn và phức tạp mà các công cụ, ứng dụng truyền thống không thể xử lý được.
Tuy nhiên, Big data lại chứa đựng rất nhiều thông tin quý giá, giúp ích cho việc kinh doanh, nghiên cứu khoa học, dự đoán thiên tai, dịch bệnh… nếu trích xuất thành công.
Do đó, Big data phải được tìm kiếm, thu thập, lưu trữ, chia sẻ, chuyển giao, cập nhất… theo một cách khác so với truyền thống.
Tạm kết
Trên đây là các thông tin nhằm giải đáp thắc mắc về dữ liệu là gì?. Shimpleshop hy vọng rằng, kiến thức trên sẽ có ích cho bạn đọc, và nếu còn những băn khoăn, thắc mắc gì, hãy để lại comment xuống dưới bài viết để được hỗ trợ nhanh nhất nhé.