Course Text Book: ‘Getting Started with Data Science’ Publisher: IBM Press; 1 edition (Dec 13 2015) Print.
Author: Murtaza Haider
Chapter 1 Pg. 12-15
đã biết nội dung của cuốn sách, đến lúc đưa ra một số định nghĩa. Mặc dù được sử dụng rộng rãi, các khái niệm về Dữ liệu lớn và Khoa học dữ liệu vẫn chưa có sự đồng thuận. Câu hỏi “Ai là nhà khoa học dữ liệu?” vẫn còn nóng hổi và gây tranh cãi giữa các cá nhân, một số người chỉ quan tâm đến việc bảo vệ lĩnh vực hoặc địa hạt học thuật của họ. Trong phần này, tôi cố gắng giải quyết những tranh cãi này và giải thích Tại sao một định nghĩa hẹp về Dữ liệu lớn hoặc Khoa học dữ liệu sẽ dẫn đến việc loại trừ hàng trăm nghìn người đã chuyển sang lĩnh vực mới nổi này gần đây.
Everybody loves a data scientist, (Mọi người đều yêu thích nhà khoa học dữ liệu, ) Simon Rogers (2012) viết trên Guardian.
Ông cũng cho rằng tình yêu mới với việc phân tích số liệu bắt nguồn từ lời của Hal Varian thuộc Google, người tuyên bố rằng công việc hấp dẫn trong 10 năm tới sẽ là thống kê viên.
Trong khi Hal Varian gọi các nhà thống kê (statisticians) là quyến rũ, nhiều người cho rằng ý ông thực sự là các nhà khoa học dữ liệu (data scientists). Điều này đặt ra một số câu hỏi quan trọng:
- What is data science?
Khoa học dữ liệu là gì? - How does it differ from statistics?
Nó khác với thống kê như thế nào? - What makes someone a data scientist?
Điều gì tạo nên nhà khoa học dữ liệu?
Trong thời đại dữ liệu lớn, một câu hỏi đơn giản như, Khoa học dữ liệu là gì? có thể dẫn đến nhiều câu trả lời. Đôi khi, sự đa dạng ý kiến về các câu trả lời này gần như thù địch.
Tôi định nghĩa nhà khoa học dữ liệu là người tìm ra giải pháp cho vấn đề bằng cách phân tích dữ liệu lớn nhỏ sử dụng công cụ phù hợp và sau đó kể chuyện để truyền đạt phát hiện của mình tới các bên liên quan. Tôi không dùng kích thước dữ liệu làm điều kiện hạn chế.
Việc một người xử lý lượng dữ liệu dưới một ngưỡng tùy ý nào đó không làm giảm giá trị của họ với tư cách là một nhà khoa học dữ liệu. Định nghĩa của tôi về một nhà khoa học dữ liệu cũng không giới hạn ở việc sử dụng các công cụ phân tích cụ thể như học máy. Miễn là một người có tâm trí tò mò, thành thạo trong phân tích và có khả năng truyền đạt kết quả, tôi xem người đó là một nhà khoa học dữ liệu.
Tôi định nghĩa khoa học dữ liệu là việc các nhà khoa học dữ liệu làm.
Nhiều năm trước, khi còn là sinh viên kỹ thuật tại Đại học Toronto, tôi đã bị mắc kẹt với câu hỏi: Kỹ thuật là gì? Tôi đã viết luận văn thạc sĩ về dự báo giá nhà ở và luận án tiến sĩ về dự đoán các lựa chọn của nhà xây dựng liên quan đến việc họ xây dựng gì, khi nào và ở đâu cho nhà ở mới. Trong khoa kỹ thuật dân dụng, người khác tập trung vào thiết kế nhà cửa, cầu cống, đường hầm và lo lắng về độ ổn định của mái dốc. Công việc của tôi và giáo viên hướng dẫn không phải là kỹ thuật thông thường. Hiển nhiên, tôi thường xuyên bị hỏi liệu nghiên cứu của mình có thực sự là kỹ thuật hay không.
Khi tôi chia sẻ những lo ngại này với giáo sư hướng dẫn tiến sĩ, Giáo sư Eric Miller, ông đã bật cười. Tiến sĩ Miller đã dành cả đời nghiên cứu quy hoạch đô thị và giao thông, trước đó từng lấy bằng tiến sĩ tại MIT.
“Kỹ thuật là những gì mà các kỹ sư làm,” anh ấy đáp lại.
Trong 17 năm tiếp theo, tôi nhận ra sự sáng suốt trong lời nói của ông ấy. Trước tiên, bạn trở thành kỹ sư bằng cách lấy bằng cấp và đăng ký với tổ chức chuyên môn địa phương quản lý ngành kỹ thuật. Giờ bạn là kỹ sư. Bạn có thể đào hầm; viết mã phần mềm; thiết kế linh kiện iPhone hoặc máy bay siêu thanh. Bạn là kỹ sư. Và khi bạn dẫn dắt ứng phó toàn cầu với khủng hoảng tài chính trong vai trò kinh tế trưởng của Quỹ Tiền tệ Quốc tế (IMF), như Tiến sĩ Raghuram Rajan đã làm, bạn là kỹ sư.
Giáo sư Raghuram Rajan tốt nghiệp kỹ sư điện từ Viện Công nghệ Ấn Độ. Ông học sau đại học về kinh tế, sau đó trở thành giáo sư tại một trường đại học danh tiếng, và cuối cùng làm việc tại IMF. Hiện ông đang là Thống đốc thứ 23 của Ngân hàng Dự trữ Ấn Độ. Liệu có ai cho rằng tài năng trí tuệ của ông chỉ đến từ đào tạo kinh tế và những kiến thức cơ bản học được khi là sinh viên kỹ sư không đóng vai trò gì trong phát triển khả năng giải quyết vấn đề của ông?
Giáo sư Rajan là một kỹ sư. Tương tự như Xi Jinping, Chủ tịch nước Cộng hòa Nhân dân Trung Hoa, và Alexis Tsipras, Thủ tướng Hy Lạp, người đang buộc thế giới phải suy nghĩ lại về nền tảng kinh tế toàn cầu. Họ có thể không thiết kế mạch điện, thiết bị chưng cất hay cầu mới, nhưng họ đang giúp xây dựng xã hội và nền kinh tế tốt đẹp hơn. Đó chính là định nghĩa tuyệt vời nhất về kỹ thuật và kỹ sư – những người tận tâm xây dựng nền kinh tế và xã hội tốt đẹp hơn.
Tóm lại, tôi cho rằng khoa học dữ liệu là những gì các nhà khoa học dữ liệu làm.
Nhiều người định nghĩa khác nhau.
Vào tháng 9 năm 2015, một đồng nghiệp tại buổi gặp mặt do BigDataUniversity.com tổ chức ở Toronto đã giới hạn khoa học dữ liệu vào machine learning học máy. Đó là vấn đề. Theo một số chuyên gia, nếu bạn không sử dụng các hộp đen của học máy, bạn không phải là nhà khoa học dữ liệu. Ngay cả khi bạn tìm ra phương thuốc chữa bệnh cứu sống hàng triệu người, các đồng nghiệp bảo vệ lãnh địa vẫn sẽ loại bạn khỏi câu lạc bộ khoa học dữ liệu.
Tiến sĩ Vincent Granville (2014), một tác giả về khoa học dữ liệu, đưa ra một số tiêu chuẩn để trở thành nhà khoa học dữ liệu. Trong trang 8 và 9 của cuốn Phát triển Tài năng Phân tích, Tiến sĩ Granville mô tả giáo sư khoa học dữ liệu mới là một giảng viên không có nhiệm kỳ tại một trường đại học phi truyền thống, người công bố kết quả nghiên cứu trên blog trực tuyến, không lãng phí thời gian viết đơn xin tài trợ, làm việc tại nhà và kiếm được nhiều tiền hơn các giáo sư có nhiệm kỳ truyền thống. Có thể nói rằng cộng đồng học thuật khoa học dữ liệu đang phát triển mạnh mẽ có thể không đồng ý với Tiến sĩ Granville.
Tiến sĩ Granville định nghĩa khoa học dữ liệu dựa trên giới hạn kích thước dữ liệu và phương pháp. Ông mô tả nhà khoa học dữ liệu là người có thể xử lý dễ dàng bộ dữ liệu 50 triệu hàng trong vài giờ và không tin tưởng vào các mô hình (thống kê). Ông phân biệt khoa học dữ liệu với thống kê. Tuy nhiên, ông liệt kê đại số, giải tích và đào tạo về xác suất và thống kê là nền tảng cần thiết để hiểu khoa học dữ liệu (trang 4).
Một số người cho rằng dữ liệu lớn chỉ đơn thuần là vượt qua một ngưỡng nhất định về kích thước dữ liệu hoặc số lượng quan sát, hoặc là về việc sử dụng một công cụ cụ thể như Hadoop. Những ngưỡng tùy ý về kích thước dữ liệu như vậy là có vấn đề, bởi vì với sự đổi mới, ngay cả những máy tính thông thường và phần mềm có sẵn cũng đã bắt đầu xử lý được các tập dữ liệu rất lớn. Stata, một phần mềm thường được các nhà khoa học dữ liệu và thống kê sử dụng, đã công bố rằng người ta giờ đây có thể xử lý từ 2 tỷ đến 24,4 tỷ hàng bằng các giải pháp máy tính để bàn của họ. Nếu Hadoop là mật khẩu để gia nhập câu lạc bộ dữ liệu lớn, thì khả năng xử lý 24,4 tỷ hàng của Stata, dù có một số hạn chế, vừa mới đột nhập vào bữa tiệc dữ liệu lớn đó.
Cần nhận ra rằng việc đặt ra các ngưỡng tùy tiện để loại trừ người khác thường dẫn đến mâu thuẫn. Mục tiêu nên là định nghĩa khoa học dữ liệu trong bối cảnh độc lập với ngành và nền tảng, không phụ thuộc quy mô, nơi giải quyết vấn đề dựa trên dữ liệu và khả năng kể chuyện thuyết phục đóng vai trò trung tâm.
Xét đến tranh cãi, tôi muốn tham khảo ý kiến người khác về cách họ mô tả nhà khoa học dữ liệu.
Tại sao chúng ta không một lần nữa tham khảo ý kiến của Trưởng Khoa học Dữ liệu Hoa Kỳ (Chief Data Scientist of the United States)?
Nhớ lại rằng Tiến sĩ Patil đã nói với báo Guardian năm 2012 rằng nhà khoa học dữ liệu là sự kết hợp độc đáo của các kỹ năng có thể vừa khai thác thông tin từ dữ liệu vừa kể một câu chuyện tuyệt vời thông qua dữ liệu. Điều đáng ngưỡng mộ về định nghĩa của Tiến sĩ Patil là nó bao gồm cả những người có nền tảng học thuật và đào tạo khác nhau, không giới hạn định nghĩa nhà khoa học dữ liệu vào một công cụ cụ thể hay đặt ra một ngưỡng tối thiểu tùy ý nào về kích thước dữ liệu.
Một yếu tố quan trọng khác của nhà khoa học dữ liệu giỏi là tính cách tò mò. Họ phải có tâm trí luôn khao khát khám phá, sẵn sàng bỏ nhiều thời gian và công sức để theo đuổi trực giác của mình. Trong báo chí, biên tập viên gọi đó là có “mũi” đánh hơi tin tức. Không phải phóng viên nào cũng biết tin ở đâu. Chỉ những người có “mũi” mới tìm ra câu chuyện. Tính tò mò quan trọng với nhà khoa học dữ liệu không kém gì với nhà báo.
Rachel Schutt là Nhà khoa học Dữ liệu Trưởng tại News Corp. Cô giảng dạy môn khoa học dữ liệu tại Đại học Columbia. Cô cũng là tác giả của cuốn sách xuất sắc Thực hành Khoa học Dữ liệu. Trong một cuộc phỏng vấn với New York Times, Tiến sĩ Schutt định nghĩa một nhà khoa học dữ liệu là người vừa là nhà khoa học máy tính, vừa là kỹ sư phần mềm và nhà thống kê (Miller, 2013). Nhưng đó là định nghĩa của một nhà khoa học dữ liệu trung bình. “Những người giỏi nhất,” cô khẳng định, “thường là những người rất tò mò, những người suy nghĩ đặt ra những câu hỏi hay và sẵn sàng đối mặt với những tình huống không có cấu trúc và cố gắng tìm ra cấu trúc trong đó.”
Dieter R.
Để lại một bình luận