Những trang mạng xã hội là nguồn dữ liệu lớn để khai thác khi ứng dụng big data.
Không thể đứng ngoài cuộc
Theo IBM Việt Nam, dữ liệu lớn là thuật ngữ chỉ những tập hợp dữ liệu phát triển nhanh và rộng khắp dưới nhiều hình thức khác nhau, làm cho chúng vượt quá khả năng xử lý của những hệ thống cơ sở dữ liệu truyền thống. Những dữ liệu này tới từ mọi nơi: trang mạng xã hội, những bức ảnh và video kỹ thuật số được đưa lên mạng, dữ liệu giao dịch của các hoạt động mua sắm trên mạng... Dữ liệu lớn có 3 đặc trưng: dung lượng lớn, vận tốc lớn và tính đa dạng.
Ông Chu Tiến Dũng, Chủ tịch Hội Tin học TP HCM (HCA), nhận định: “Việt Nam không thể đứng ngoài xu hướng ứng dụng công nghệ big data của thế giới. Tại Việt Nam hiện các cơ sở dữ liệu cấu trúc vẫn đang được hình thành và tích lũy, trong đó cơ sở dữ liệu quốc gia đã được đầu tư đáng kể. Ngành công nghiệp nội dung số tăng trưởng mạnh đã dẫn đến số lượng các dữ liệu phi cấu trúc đã bùng nổ thông qua các dịch vụ thương mại điện tử, mạng xã hội, SMS…”.
Theo Tập đoàn Dữ liệu Quốc tế IDG, trong hàng thập kỷ, các DN, nhất là trong lĩnh vực viễn thông, đã thu thập và lưu trữ các dữ liệu khách hàng nhưng vẫn chưa có hệ thống và phần mềm để biến nó thành thông tin hữu ích nhằm phục vụ khách hàng tốt hơn. Đến nay vấn đề này đang được thay đổi khi các ngành công nghiệp lớn đặt trên nền tảng big data sẽ được sử dụng một cách hiệu quả.
Mới đây, Đại học Cambridge đã công bố báo cáo nghiên cứu được thực hiện dựa vào số lượng và mức độ cập nhật thông tin cá nhân và dựa trên hồ sơ Facebook của 58.000 người để theo dõi hành vi của người dùng. Theo báo cáo, thuật toán của Facebook có độ chính xác đáng kể với 95% trong dự đoán chủng tộc và sắc tộc, xu hướng tình dục 88%, tín ngưỡng tôn giáo - chính trị 80% và các cá tính, sự ổn định cảm xúc 75%.
Chậm tiếp cận
Đại diện Intel Việt Nam cho biết một số DN Việt Nam bắt đầu quan tâm đến xu thế công nghệ big data, dù vẫn còn rất ít ỏi. Nhiều DN khi được hỏi về big data đều cho biết “có nghe nói” tuy nhiên hiện chưa có nhu cầu hay không đủ khả năng về tài chính, nhân lực để ứng dụng. Hiện nay, Intel đang hỗ trợ cho TP Đà Nẵng trong việc triển khai các giải pháp có liên quan đến big data như biến Trung tâm Dữ liệu Đà Nẵng trở thành trung tâm dữ liệu xanh với công nghệ điện toán đám mây, tiến hành triển khai các phương án thử nghiệm (POC - Proof of Concept), trong đó Intel sẽ chủ trì các POC về quản lý nguồn, trung tâm dữ liệu… Intel sẽ trực tiếp hỗ trợ Đà Nẵng thiết lập một trung tâm dữ liệu theo chuẩn mở, nối kết mọi hệ thống dữ liệu trên địa bàn, phục vụ quản lý nhà nước, DN; phát triển các dịch vụ công trên nền công nghệ mạng hiện đại để cung cấp đến công dân và tổ chức…
Theo ông Chu Tiến Dũng, bên cạnh các cơ hội, một số thách thức cũng đang đặt ra cho các đơn vị triển khai big data. Đó là thách thức về đào tạo nhân lực, về khả năng đầu tư vào big data. Ngoài ra, các vấn đề cần được lưu tâm khi triển khai big data tại Việt Nam hiện nay gồm: chính sách cho phép khai thác và phát triển môi trường hình thành dữ liệu phi cấu trúc, sử dụng internet, mạng xã hội và các quy định đi kèm, các hành lang pháp lý về việc khai thác thông tin trong môi trường big data còn chưa hoàn thiện. Ngoài ra, cần quan tâm đến vấn đề tư duy thay đổi của DN, tổ chức hiện nay có theo kịp xu thế big data hay không…
Tại Việt Nam hiện nay, việc giải quyết thách thức về dữ liệu lớn cũng đang là một điều ưu tiên trong việc đầu tư công nghệ thông tin của các tổ chức và DN có tầm nhìn chiến lược, đặc biệt là các DN trong các lĩnh vực liên quan đến người dùng cuối và các ngành có khối lượng giao dịch, dữ liệu lớn như ngân hàng, bán lẻ, chứng khoán… Công ty CP Chứng khoán KIS Việt Nam đã triển khai giải pháp ổ đĩa lưu trữ dữ liệu tầm trung của IBM để tăng cường khả năng lưu trữ và xử lý dữ liệu. Ngân hàng TMCP Á Châu (ACB) cũng xây dựng một trung tâm dữ liệu dạng mô-đun, ứng dụng các giải pháp phân tích kinh doanh của IBM nhằm xử lý các khối dữ liệu lớn cũng như cung cấp các thông tin về tình hình kinh doanh, thị trường chính xác.
Nguồn thông tin được HOCHOIMOINGAY.com sưu tầm từ Internet