Thế giới tuyệt vời của các hình ảnh trực quan

Thế giới tuyệt vời của các hình ảnh trực quan

Là một nhà phân tích dữ liệu, bạn thường được giao nhiệm vụ truyền đạt thông tin và dữ liệu mà khán giả của bạn có thể không dễ dàng hiểu được. Trình bày dữ liệu của bạn một cách trực quan là cách hiệu quả để truyền đạt thông tin phức tạp và thu hút các bên liên quan. Một câu hỏi bạn nên tự đặt ra là: “cách tốt nhất để kể câu chuyện trong dữ liệu của tôi là gì?”

Bài đọc này bao gồm một số lựa chọn để bạn chọn (mặc dù còn nhiều lựa chọn khác).

Biểu đồ đường (Line chart)

Biểu đồ đường được sử dụng để theo dõi các thay đổi trong thời gian ngắn và dài. Khi có những thay đổi nhỏ hơn, biểu đồ đường tốt hơn so với biểu đồ cột. Biểu đồ đường cũng có thể được sử dụng để so sánh các thay đổi trong cùng một khoảng thời gian cho nhiều nhóm.

Giả sử bạn muốn trình bày tần suất tốt nghiệp của một trường trung học cụ thể trong những năm 2008-2012. Bạn sẽ nhập dữ liệu của mình vào một bảng như thế này:

Có thể dữ liệu của bạn cụ thể hơn ở trên. Ví dụ, giả sử bạn được giao nhiệm vụ trình bày sự khác biệt về tỷ lệ tốt nghiệp giữa học sinh nam và nữ. Khi đó biểu đồ của bạn sẽ giống như thế này:

Biểu đồ cột (Column chart)

Biểu đồ cột sử dụng kích thước để so sánh và đối chiếu hai hoặc nhiều giá trị, sử dụng chiều cao hoặc chiều dài để biểu thị các giá trị cụ thể.

Dưới đây là dữ liệu ví dụ về doanh số bán xe trong 5 tháng:

Trực quan, nó sẽ giống như thế này:

Biểu đồ cột này sẽ như thế nào nếu chúng ta muốn thêm dữ liệu bán hàng cho một thương hiệu xe hơi cạnh tranh?

Bản đồ nhiệt (Heatmap)

Tương tự như biểu đồ cột, bản đồ nhiệt cũng sử dụng màu sắc để so sánh các danh mục trong một tập dữ liệu. Chúng chủ yếu được sử dụng để hiển thị mối quan hệ giữa hai biến và sử dụng hệ thống mã hóa màu để biểu thị các giá trị khác nhau. Bản đồ nhiệt sau đây vẽ biểu đồ thay đổi nhiệt độ cho mỗi thành phố trong những tháng nóng nhất và lạnh nhất trong năm.

Biểu đồ tròn (Pie chart)

Biểu đồ tròn là một biểu đồ hình tròn được chia thành các phân đoạn đại diện cho tỷ lệ tương ứng với số lượng mà nó đại diện, đặc biệt khi xử lý các phần của một tổng thể.

Ví dụ, giả sử bạn đang xác định các thể loại phim yêu thích trong số những người xem phim nhiệt tình. Bạn đã thu thập được dữ liệu sau:

Trực quan, nó sẽ giống như thế này:

Biểu đồ phân tán (Scatterplot)

Biểu đồ phân tán cho thấy mối quan hệ giữa các biến khác nhau. Biểu đồ phân tán thường được sử dụng cho hai biến cho một tập dữ liệu, mặc dù có thể hiển thị thêm các biến khác.

Ví dụ, bạn có thể muốn hiển thị dữ liệu về mối quan hệ giữa thay đổi nhiệt độ và doanh số bán kem. Nó sẽ giống như thế này:

Như bạn có thể nhận thấy, nhiệt độ càng cao, nhu cầu về kem càng lớn – vì vậy biểu đồ phân tán rất tốt để hiển thị mối quan hệ giữa hai biến.

Biểu đồ phân phối (Distribution graph)

Biểu đồ phân phối hiển thị sự phân bố của các kết quả khác nhau trong một tập dữ liệu.

Hãy áp dụng điều này vào dữ liệu thực tế. Để tính toán nguồn cung cấp của mình, chủ một quán cà phê mới mở muốn đo lường số lượng cà phê mà khách hàng của họ tiêu thụ, và họ muốn biết liệu thông tin đó có phụ thuộc vào các ngày và thời gian trong tuần hay không. Biểu đồ phân phối đó sẽ giống như thế này:

Từ biểu đồ phân phối này, bạn có thể nhận thấy rằng lượng bán cà phê tăng đều đặn từ đầu tuần, đạt đỉnh điểm vào giữa tuần, và sau đó giảm dần về cuối tuần.

Nếu các kết quả được phân loại trên trục x theo các giá trị số riêng biệt (hoặc phạm vi các giá trị số), phân phối trở thành biểu đồ histogram. Nếu dữ liệu được thu thập từ chương trình khách hàng thân thiết, họ có thể phân loại có bao nhiêu khách hàng tiêu thụ từ một đến mười cốc cà phê mỗi tuần. Biểu đồ histogram sẽ có mười cột đại diện cho số lượng cốc, và chiều cao của các cột sẽ chỉ ra số lượng khách hàng uống số lượng cà phê đó mỗi tuần.

Xem xét từng ví dụ trực quan này, bạn nhận thấy chúng phù hợp với loại dữ liệu của bạn ở đâu? Một cách để trả lời câu hỏi này là bằng cách đánh giá các mẫu trong dữ liệu. Các mẫu có ý nghĩa có thể có nhiều hình thức, chẳng hạn như:

  • Thay đổi: Đây là xu hướng hoặc trường hợp các quan sát trở nên khác nhau theo thời gian. Một cách tuyệt vời để đo lường sự thay đổi trong dữ liệu là thông qua biểu đồ đường hoặc cột.
  • Phân cụm: Một tập hợp các điểm dữ liệu có giá trị tương tự hoặc khác nhau. Điều này được thể hiện tốt nhất thông qua biểu đồ phân phối.
  • Tương đối: Đây là những quan sát được xem xét trong mối quan hệ hoặc tỷ lệ với một thứ khác. Bạn có thể đã thấy các ví dụ về dữ liệu tương đối trong biểu đồ tròn.
  • Xếp hạng: Đây là vị trí trong thang đo thành tích hoặc trạng thái. Dữ liệu yêu cầu xếp hạng được thể hiện tốt nhất bằng biểu đồ cột.
  • Tương quan: Điều này cho thấy mối quan hệ hoặc kết nối lẫn nhau giữa hai hoặc nhiều thứ. Biểu đồ phân tán là một cách tuyệt vời để biểu diễn loại mẫu dữ liệu này.

Nghiên cứu dữ liệu của bạn

Các nhà phân tích dữ liệu được giao nhiệm vụ thu thập và diễn giải dữ liệu cũng như hiển thị dữ liệu một cách có ý nghĩa và dễ tiêu hóa. Việc xác định cách trực quan hóa dữ liệu của bạn sẽ đòi hỏi phải nghiên cứu các mẫu dữ liệu của bạn và chuyển đổi nó bằng cách sử dụng các dấu hiệu trực quan. Hãy thoải mái thực hành các biểu đồ và dữ liệu của riêng bạn trong bảng tính. Chỉ cần nhập dữ liệu của bạn vào bảng tính, đánh dấu nó, sau đó chèn bất kỳ loại biểu đồ nào và xem dữ liệu của bạn có thể được trực quan hóa như thế nào dựa trên những gì bạn chọn.

Nguồn: LinkedIn, 25/12/2024
Bài gốc: ‘
The wonderful world of visualizations
© Dịch: Dieter R – KenkAI
Nội dung gốc không thuộc tôi.
Khiếu nại bản quyền: purchasevn@getkenka.com
© Follow KenkAI để đọc thêm bài dịch và cập nhật thông tin.


Bình luận

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *