Big Data và nghề Data Scientist dưới góc nhìn của “Tiến sĩ Cambridge” Đặng Hoàng Vũ

big-data-la-gi-thumnail

Big Data là gì? Big Data là tập hợp dữ liệu lớn (cấu trúc và phi cấu trúc), đa dạng, thay đổi nhanh và phức tạp đến nỗi những công nghệ hay phần mềm truyền thống không có khả năng xử lý trong một khoảng thời gian nhất định.

Khối lượng đúng mực của Big Data không phải yếu tố quan trọng ( hoàn toàn có thể là vài petabyte hoặc exabytes ), điểm mấu chốt là nếu biết khai thác đúng hướng thì Big Data sẽ mang lại tiềm lực cạnh tranh đối đầu lớn cho doanh nghiệp .

Để hiểu thêm Big Data là gì, ITviec đã trò chuyện cùng anh Đặng Hoàng Vũ – Chief Scientist của tập đoàn FPT và đã “khai thác” được rất nhiều thông tin hữu ích.

Xem thêm việc làm Big Data trên website ITviec

Big Data là gì?

Big Data là gì?

Theo anh Vũ, Big Data là tài liệu lớn, đổi khác nhanh và phức tạp. Tuy nhiên, thật ra không có định nghĩa duy nhất cho Big Data là gì. Ví dụ, như IBM định nghĩa Big Data là 4V, gồm có :

  • Volume: Khối lượng dữ liệu
  • Velocity: Tốc độ của dữ liệu
  • Variety: Sự đa dạng của dữ liệu
  • Veracity: Tính xác thực của dữ liệu

Thật ra, thuật ngữ Big Data cũng mang tính thời trang nữa. Nghĩa là nhiều lúc người ta vẫn áp tên gọi Big Data cho những tài liệu ở quy mô thông thường, chứ không phải khi nào cũng là tài liệu quy mô lớn .

Anh Vũ chứng minh và khẳng định rằng Big Data lúc bấy giờ không chỉ là thực sự thiết yếu mà đã là “ xương sống ” của hầu hết những công nghệ tiên tiến .

Ví dụ : mỗi một loại sản phẩm xuất hiện trên những website thương mại điện tử như Tiki, Lazada, Sendo … đều là Big Data .

Các công ty truyền thống lịch sử cũng dùng Big Data để tối ưu hóa hoạt động giải trí kinh doanh thương mại, chăm nom người mua, ship hàng cho công tác làm việc marketing …

Xem thêm : Những siêu năng lượng mà Big Data đem đến cho doanh nghiệp

Những khó khăn khi làm việc với Big Data là gì?

Khi thao tác với Big Data, sẽ có những khó khăn vất vả lớn như sau :

  • Chất lượng dữ liệu không đảm bảo

Trong quy trình thao tác với Big Data, anh Vũ san sẻ rằng tiến trình tích lũy và giải quyết và xử lý tài liệu là phần việc mất nhiều thời hạn và sức lực lao động nhất. Lúc đó, anh phải thao tác với nhiều bộ phận khác nhau dẫn đến việc những nguồn tài liệu không đồng nhất và chất lượng tài liệu không tốt .

  • Kết quả triển khai không như ý

Với kinh nghiệm tay nghề thao tác của mình, anh cho rằng sai lầm đáng tiếc dễ mắc phải nhất chính là nhìn nhận và tiến hành hiệu quả dựa trên tài liệu đã tích lũy và giải quyết và xử lý. Nhiều khi dân kỹ thuật thường đặt ra những tiêu chuẩn theo kim chỉ nan hoặc theo những case study có sẵn nhưng nó lại không tương thích với quá trình kinh doanh thương mại trong thực tiễn .

Trước đây anh đã từng thao tác với một người mua khá có tiếng trong nghành thương mại điện tử ( anh không tiện nêu tên ). Mục tiêu của họ là tăng số lượng loại sản phẩm bán được trên website .
Sau khi nghiên cứu và phân tích và nhìn nhận dựa trên tài liệu tích lũy được, cả team anh quyết định hành động rằng sẽ để người mua xem được càng nhiều mẫu sản phẩm càng kích thích hành vi mua hàng .
Kết quả rằng, người mua ở lâu hơn trên website và xem nhiều mẫu sản phẩm hơn thật nhưng hiệu quả kinh doanh thương mại không có cải tổ. Nguyên nhân là vì họ cảm thấy bị “ ngợp ”, không biết quyết định hành động như thế nào, thế là không mua nữa .
Rõ ràng, tuy đã triển khai xong được tiêu chuẩn tự đề ra là kích thích hành vi xem loại sản phẩm nhưng không mang lại quyền lợi trong thực tiễn nào cho doanh nghiệp .

Cũng theo anh, những công ty làm Big Data thực ra cũng không chăm sóc lắm đến định nghĩa đúng chuẩn Big Data là gì. Họ chỉ chăm sóc đến hiệu quả ở đầu cuối mà quy trình khai thác tài liệu mang lại nên người thao tác với Big Data cần phải hiểu rõ mục tiêu ở đầu cuối là gì .

Nghề “làm” Big Data là gì? Là Data Scientist!

Công việc hằng ngày của một Data Scientist

Anh Vũ chia sẻ về những “bước” trong công việc hằng ngày của một Data Scientist:

  • Phân tích bài toán cần giải, mục tiêu dự án, tiêu chí thành công…
  • Thu thập và xử lý dữ liệu
  • Xây dựng các mô hình, thuật toán để đưa ra kết quả
  • Test, đánh giá kết quả
  • Đưa vào triển khai

Ở bước tiến hành, công ty sẽ dùng những hiệu quả, Dự kiến, yêu cầu … được rút ra từ tài liệu để đưa vào những hoạt động giải trí kinh doanh thương mại, marketing như anh Vũ đã nhắc ở phần san sẻ trên .

Những kỹ năng cần thiết để trở thành Data Scientist

Để trở thành một Data Scientist, có rất nhiều kiến thức và kỹ năng và công cụ bạn cần học :

  • Kỹ năng đầu tiên mà bạn cần đương nhiên phải là lập trình. Bạn nên học ngôn ngữ lập trình Python
  • Ngoài Python, còn có SQL, Spark, R hoặc các công cụ cấp cao hơn như là H2O, tableau
  • Các công cụ của Data Scientist: Numpy, Pandas, Matplotlib, Scikit-learn
  • Các công cụ Machine Learning: Tensorflow, Keras, Pytorch
  • Hiểu biết nhất định về Big Data, về các framework như Hadoop hay Scala
  • Thống kê cơ bản

Ngoài kiến thức và kỹ năng cứng về trình độ, bạn còn cần kỹ năng và kiến thức mềm nữa. Nghề này cần tư duy rõ ràng, mạch lạc và bạn phải biết cách thao tác với Data Engineer .

Data Engineer là người giải quyết và xử lý, sẵn sàng chuẩn bị tài liệu cho Data Scientist triển khai quy trình nghiên cứu và phân tích. Khi thao tác cùng nhau, người này sẽ giúp một phần việc của người kia nhưng nghĩa vụ và trách nhiệm cơ bản là như vậy .

Có rất nhiều kỹ năng và kiến thức và kỹ năng và kiến thức bạn cần trau dồi, tất yếu khi mở màn hoàn toàn có thể hơi khó khăn vất vả nhưng bạn hoàn toàn có thể vừa làm vừa học .

Xem thêm : 20 tài liệu học lập trình Python

Cơ hội nghề nghiệp với Big Data

Anh Vũ đánh giá và nhận định rằng thời cơ nghề nghiệp dành cho những ai muốn thao tác với Big Data vô cùng rộng mở. So với nghề Developer nói chung thì tất yếu là số việc làm tương quan đến Big Data sẽ ít hơn nhiều. Tuy nhiên, do tại ít, hiếm nên mức thu nhập khá ổn. Công việc cũng mang lại cái nhìn tổng lực hơn về hoạt động giải trí của loại sản phẩm mà bạn đang theo làm .

Xem ngay : Việc làm Data Scientist trên ITviec

Tại vị trí của mình, anh cũng tham gia tuyển dụng Data Scientist. Từ đó, anh Vũ san sẻ một vài tiêu chuẩn anh dựa trên để tuyển người vào thao tác chung :

  • Khả năng code rõ ràng, mạch lạc.
  • Biết cơ bản về Python. Nếu biết về Machine Learning, Database hoặc toán thống kê là một lợi thế lớn.
  • Tinh thần tốt. Đặc biệt là không được cố chấp vì làm sai và được nhắc nhở là chuyện bình thường.
  • Có khả năng giao tiếp, biết diễn đạt và lắng nghe người khác. Nên nhớ đây không phải vị trí làm việc một mình.

Những nguồn tài liệu tham khảo Big Data

  • Designing Data-Intensive Applications: Cuốn sách được viết năm 2017 bởi Martin Kleppmann, vẽ nên bức tranh toàn cảnh về Big Data và tập trung vào các khía cạnh của hệ thống cơ sở dữ liệu phân tán.
  • Big Data: Principles and best practices of scalable realtime data systems: Trả lời câu hỏi Big Data là gì và tấ cả những gì liên quan đến hệ thống, bao gồm các công cụ như Hadoop, Cassandra và Storm.
  • Hadoop: The Definitive Guide: được viết bởi Tom White – một trong những thành viên của tổ chức phần mềm Apache uy tín. Cuốn sách là toàn bộ những điều cần biết + ví dụ cụ thể khi làm việc với Hadoop.
  • High Performance Spark: Cuốn sách cần thiết cho những ai muốn học về Apache Spark với rất nhiều minh họa thực tế.

Ngoài ra, những khóa học Big Data online trên Coursera cũng đáng để xem xét .

Data Scientist trong ngành nói gì?

Anh Vũ san sẻ về một nhận định và đánh giá sai lầm đáng tiếc, một hiểu nhầm, mà anh đã từng nghe trong quy trình thao tác với Big Data nói chung, làm Data Scientist nói riêng .
Có một số ít người tưởng Data Scientist là nhà khoa học hoặc làm Data Scientist cần nhiều toán nhưng mà không phải. Nếu bạn giỏi toán thì tốt nhưng code vẫn quan trọng hơn .

Data Scientist là người xử lý những yếu tố cho doanh nghiệp bằng cách nghiên cứu và phân tích tài liệu chứ không phải là nhà khoa học điều tra và nghiên cứu cái mới .

Có thể vì chữ Scientist này mà nhiều người cho rằng đây là một ngành nghề yên cầu nhiều sự mạo hiểm, đánh đổi. Thật ra là không. Data Scientist không có gì mạo hiểm, chỉ cần trình độ tư duy khá và có niềm tin học hỏi là làm được .
Big Data là gì

Tiểu sử: Sau khi tốt nghiệp với bằng Tiến sĩ khoa Toán học, trường Đại học Cambridge, anh Vũ về làm Software Engineer cho tập đoàn HP (Hewlett-Packard) tại Anh. Tại đây, anh anh đã làm về Machine Learning, xử lý ảnh rồi nên về Việt Nam, anh cũng chọn làm các dự án Data Science cũng phù hợp.

Đến năm 2014, anh quay về Việt Nam và đầu quân cho FPT với vai trò Data Scientist. Hiện tại anh là Chief Scientist ở Ban công nghệ tập đoàn FPT.

Robby2Robby2

Bạn có nghĩ những kiến thức về Big Data này thực sự mang lại ý nghĩa? Hay bài viết này có thể giúp ích cho các Developer khác? Chia sẻ ngay để giúp cộng đồng Developer cùng phát triển.

Và đừng quên tham khảo việc làm Big Data tại ITviec!