Hai vợ chồng tôi có thói quen dùng chung một tài khoản Facebook, do trước đây chủ yếu chỉ để đăng ảnh con cho ông bà và anh chị em ở Việt Nam cập nhật. Vài năm trở lại đây phong trào họp lớp lên cao, tôi có tham gia vài lần. Và nhờ đó tôi kết nối được với rất nhiều bạn học cũ trên nền tảng này.
Thời gian sau đó trên tường Facebook (News feed) của tôi thỉnh thoảng lại xuất hiện ảnh hay bài đăng của... vợ các bạn tôi, thực tế không có liên hệ đã rất lâu. Các bạn gái này thường là xinh đẹp và chụp ảnh đáng yêu. Vợ tôi cũng quan tâm hỏi han làm tôi rất khó giải thích. Tìm hiểu kĩ hơn một chút, tôi nghĩ rằng rất nhiều người bạn khác của mình hẳn là đã nhấn xem hoặc like những bức ảnh này, và thuật toán của Facebook có lẽ đánh giá rằng nếu các bạn tôi thích thì chắc là tôi cũng vậy nên đưa chúng lên tường của tôi...
Mức độ "học" và "hiểu" về chúng ta hiện nay của máy tính quả thực là đáng kinh ngạc. Nghiên cứu gần đây từ đại học Cambride và Stanford chỉ ra rằng chỉ cần chúng ta nhấn khoảng 100 like trên Facebook, là thuật toán đã có thể hiểu về chúng ta hơn là một người bạn thực sự. Bạn đời hiểu chúng ta đến mức nào? Các nghiên cứu nhận định: chỉ tương đương với 300 Facebook like.
Tất cả mọi thứ trên Internet, từ website, mạng xã hội, ứng dụng... dường như đều hiểu những gì chúng ta muốn xem, muốn nghe, muốn đi, muốn đọc và cung cấp rất kịp thời. Tuyệt vời hơn, phần lớn đều là miễn phí.
"Nếu bạn không phải trả tiền, thì thực tế bạn chính là sản phẩm" - "If you are not paying for it, you are the product".
Câu nói này xuất phát trong bối cảnh của ngành truyền hình ở thế kỷ trước. Với vốn đầu tư rất lớn vào mạng lưới thiết bị cùng nội dung, cách phổ biến để các đài truyền hình có thể cung cấp dịch vụ miễn phí là bán quảng cáo. Nói cách khác, người xem ở đây chính là "sản phẩm" mà các hãng truyền hình bán cho các công ty thuê họ quảng cáo.
Những năm đầu thế kỉ 21 chứng kiến sự phát triển vượt bậc về công nghệ thông tin, Internet và đặc biệt là về công nghệ thu thập và xử lý dữ liệu. Khái niệm "you are the product" - "bạn là sản phẩm", lúc này được mở rộng đến mức có thể coi là vô tận về mặt tiềm năng.
Để thu thập dữ liệu khách hàng, các công ty dữ liệu đa quốc gia sẵn sàng cung cấp các sản phẩm với chất lượng rất cao như Tìm kiếm, Thư điện tử, Bản đồ điện tử, Mạng xã hội vân vân hoàn toàn miễn phí. Họ nắm lượng dữ liệu lớn nhất, nắm những công nghệ xử lý dữ liệu tiên tiến nhất, nắm những hạ tầng tính toán dữ liệu lớn nhất. Khác với truyền hình, họ thực sự làm chủ dữ liệu một cách chủ động và toàn diện.
Về lý thuyết, tiềm năng sử dụng dữ liệu có thể coi là không giới hạn. Lấy ví dụ hệ dữ liệu của một mạng xã hội với khoảng vài triệu khuôn mặt cùng với các thông tin liên quan như số like, trạng thái (status), bài viết (post), bình luận (comment) cùng đủ mọi loại dấu vết điện tử (digital footprint) mà người dùng để lại một cách vô thức. Với hệ dữ liệu này, thuật toán có thể "học" và "hiểu" từ những thông tin có phần vô hại như kiểu bạn thích hay ghét một ca sĩ, đến những thông tin rất hữu ích như phát hiện từ sớm một loại ung thư hiếm khi được kết hợp với các dữ liệu y học. Hơn nữa, nếu hệ dữ liệu có đủ tính đa dạng thì khả năng "hiểu" sau khi đã "học" này có thể mở rộng lên toàn bộ dân số, kể cả những người chưa từng tham gia mạng xã hội.
Nhưng, cũng với hệ dữ liệu ở trên, thuật toán cũng có thể "hiểu" về những thông tin nhạy cảm như quan điểm chính trị của bạn (ủng hộ Đảng nào, chính trị gia nào), hay thậm chí là những phức tạp giới tính. "Trông mặt mà bắt hình dong", máy móc chỉ cần nhìn khuôn mặt đã biết bạn ủng hộ lãnh tụ nào, hay bạn có phải là người đồng giới hay không. Những thông tin kiểu như vậy có thể chỉ là sự xấu hổ ở Việt Nam, nhưng ở những chính thể độc tài khắc nghiệt hoặc tôn giáo cực đoan thì nó rất có thể gần với sự sống và chết.
Ngày nay, dữ liệu không chỉ được bán cho các hệ thống quảng cáo, mà như thực tế chỉ ra, dữ liệu và thông tin chuyển hóa từ nó có thể được sử dụng cho cả các mục tiêu chính trị như trong vụ Cambride Analytica, khi Facebook để lộ thông tin 50 triệu người dùng... Sẽ ra sao nếu người nắm quyền chi phối và "mớm" suy nghĩ cho đám đông Việt Nam lại là những lực lượng chính trị từ bên ngoài, có khả năng tiếp cận lượng dữ liệu này? Ngay cả khi các công ty đa quốc gia có tuyên bố tuân thủ chặt chẽ việc bảo vệ dữ liệu người dùng, thì vẫn có những quốc gia rất giỏi trong việc buôn bán, đánh cắp dữ liệu và sử dụng nó cho mục tiêu chính trị, chi phối các nước khác.
Sự phát triển nhanh chóng của công nghệ trí tuệ nhân tạo (Artificial Intelligence, AI), Học máy (Machine Learning) trong khoảng 15 năm trở lại đây hay hiện tượng 2023 ChatGPT đã đóng góp rất lớn vào khả năng phân tích và xử lý dữ liệu, đặc biệt là công nghệ Học sâu (Deep learning). Học sâu có khả năng "học" và "hiểu" những cấu trúc dữ liệu rất phức tạp, ví dụ như hình ảnh, video hay ngôn ngữ, nếu cung cấp cho nó số lượng dữ liệu đủ lớn.
"Dữ liệu là loại dầu mới (Data is the new oil)" là thuật ngữ rất phổ biến trong giới công nghệ AI hiện nay. Thực tế các hoạt động khai thác dữ liệu của các công ty dữ liệu đa quốc gia hiện tại có đặc điểm rất giống với các công ty khai thác dầu khí quốc tế. Cách các công ty dữ liệu đa quốc gia cung cấp miễn phí hạ tầng (máy chủ, trung tâm dữ liệu, thậm chí Wifi) cùng các sản phẩm phần mềm hay thuê nhân viên bản địa để thu thập dữ liệu khách hàng không khác gì việc các công ty khai thác dầu khí quốc tế phải mang máy móc, dàn khoan, nhân công đến nước sở tại để thực hiện công việc khai thác dầu.
Ở đây có sự khác biệt tế nhị, đó là các công ty khai thác dầu khí quốc tế phải trả tiền phí nhượng quyền (royalty) cho chủ đất, ở đây là đất nước mà họ khai thác dầu ở đó. Các công ty dữ liệu đa quốc gia thì không, hay ít nhất là chưa. Về phía người dân, chúng ta cũng không nhận được gì ngoài những dịch vụ miễn phí - thực chất là các công cụ bắt buộc phải cung cấp nếu muốn khai thác dữ liệu. Đổi lại chúng ta bị "bán" cho những công ty thuê quảng cáo, các chi phí quảng cáo trước sau cũng sẽ tìm đường quay lại về người trả tiền cuối cùng, chính là những người dân bình thường.
Đặc điểm chính của khai thác dữ liệu dựa trên Học máy/Học sâu là lợi thế rất lớn cho những người đi tiên phong, đặc biệt khi đó là những công ty lớn với nguồn lực gần như vô hạn về tính toán, về nhân tài. Mỗi lần chúng ta thực hiện một thao tác tìm kiếm và nhấn vào đường link trên các website tìm kiếm, chúng ta giúp cho thuật toán tìm kiếm và hiển thị các quảng cáo liên quan của họ chính xác hơn.
Tương tự cách chúng ta tương tác với những trợ lý ảo, càng nói chuyện, càng ra lệnh sẽ làm cho chúng ngày càng thông minh hơn, hiểu chúng ta hơn. Trợ lý ảo Google nay đã cung cấp hỗ trợ tiếng Việt, và sẽ không có gì ngạc nhiên nếu nó trở thành trợ lý ảo mặc định của người Việt trong vài năm tới.
Không thể phủ nhận những lợi ích to lớn của các sản phẩm mà các công ty dữ liệu đa quốc gia mang lại nhưng với cơ sở dữ liệu lớn, khả năng tính toán mạnh cùng đội ngũ nhân viên tài năng, việc một ngày họ có thể "học" và "hiểu" phản ứng hay suy nghĩ không chỉ khách hàng của họ, mà là toàn bộ dân số, hơn và trước bất kì một chính phủ nào là khả năng có thật...
Bài học từ vụ Cambridge Analytica chỉ ra rằng ngay cả chính những công ty dữ liệu đa quốc gia lớn cũng không thể hình dung được dữ liệu của họ có thể được/bị sử dụng theo cách nào. Do đó, về góc độ quản lý nhà nước, cần có sự quan tâm nghiên cứu thấu đáo hơn nữa về ảnh hưởng của dữ liệu, để từ đó có các giải pháp quản lý phù hợp với các công ty dữ liệu hoạt động xuyên biên giới, cũng như các hình thức tuyên truyền đơn giản dễ hiểu để giúp người dân nhận thức đấy đủ và có trách nhiệm hơn với dữ liệu cá nhân.
Nguyễn Việt Linh
Nghiên cứu viên, Đại học Adelaide