Trang Chủ Suy nghĩ tiến tới Dữ liệu lớn: một 'cơ hội nghìn tỷ' đầy thách thức

Dữ liệu lớn: một 'cơ hội nghìn tỷ' đầy thách thức

2024

Video: AI LÀ NGƯỜI THƯƠNG EM - QUÂN A.P [LYRICS] (Tháng Chín 2024)

Một điều khiến tôi ấn tượng tại Hội nghị thượng đỉnh công nghệ doanh nghiệp Bloomberg ngày hôm qua là tập trung vào việc xử lý dữ liệu theo những cách mới - nói cách khác, xử lý những gì thường được gọi là "dữ liệu lớn".

Một số cuộc hội thoại liên quan đến giá trị của dữ liệu lớn và liệu đó có thực sự là "cơ hội nghìn tỷ" hay không, trong khi những cuộc trò chuyện khác giải quyết những thách thức cụ thể của các tổ chức cá nhân và toàn ngành trong việc triển khai rộng rãi hơn các kỹ thuật mới này.

Gerard Francis, Giám đốc Giải pháp Doanh nghiệp Toàn cầu của Bloomberg, Bloomberg LP bắt đầu ngày mới bằng cách gợi ý rằng điều quan trọng nhất mà các công ty có thể làm là "tận dụng giá trị của dữ liệu bằng cách sử dụng" và tập trung vào truy cập, chất lượng và lưu lượng của dữ liệu trong một tổ chức. Trong các bảng tiếp theo, có rất nhiều thảo luận về các công cụ mới xử lý dữ liệu, cũng như các vấn đề cụ thể trong việc lưu trữ, quản lý và tìm người để xử lý dữ liệu.

Trong một hội thảo chung về xu hướng doanh nghiệp, Dwight Merriman, Chủ tịch và đồng sáng lập MongoDB, nói rằng lớp dữ liệu của bản nhạc ứng dụng đang có "sự gián đoạn và thay đổi lớn nhất mà chúng ta đã thấy trong 25 năm qua." Ông cho biết các công ty đã sử dụng cơ sở dữ liệu quan hệ từ 25 năm trở lên, làm cho công nghệ lâu đời nhất trong ngăn xếp. Nhưng bây giờ có những điều xảy ra với lưu trữ dựa trên tệp như Hadoop và các công nghệ cơ sở dữ liệu mới, thường được nhóm lại thành "NoQuery". Ông đưa ra quan điểm rằng Dữ liệu lớn không phải là về "lớn" mà là về hình dạng của dữ liệu, các loại dữ liệu và hướng tới việc xử lý dữ liệu thời gian thực.

Giám đốc thông tin của Google, Benjamin Fried đồng ý rằng hầu hết các doanh nghiệp không gặp vấn đề về "dữ liệu lớn". Nhiều bộ dữ liệu - với những thứ như dữ liệu nhân sự và dữ liệu tài chính - không phải là lớn, ông nói. Điều quan trọng là sự linh hoạt bạn cần để xử lý dữ liệu.

Dù sao dữ liệu lớn là gì?

Mark Bloom của MarkLogic, Mark Bregman của Neustar, Mark Palmer của Streambase và Vipul Nagrath của Bloomberg

Khái niệm đó - tính linh hoạt đó cũng quan trọng như kích thước của dữ liệu - đã được lặp lại trong một bảng khác sau đó trong ngày. Ở đó, những người tham gia đồng ý rằng các công ty đã xử lý các ứng dụng nặng dữ liệu trong một thời gian dài, nhưng quy mô đã thay đổi gần đây. Chẳng hạn, Mark F. Bregman, Phó chủ tịch cấp cao và Giám đốc công nghệ của Neustar lưu ý rằng một số công ty hiện đang "lưu trữ mọi thứ" với hy vọng rằng nó sẽ có giá trị.

"Lớn được định nghĩa tốt hơn là sự phức tạp", theo Gary Bloom, CEO và Chủ tịch của MarkLogic. Ông lưu ý rằng nhiều ứng dụng được gọi là "dữ liệu lớn" liên quan đến nhiều loại dữ liệu khác nhau, nhưng không phải là loại âm lượng bạn thường nghe thấy trong các ứng dụng "dữ liệu lớn".

Ông trích dẫn một ví dụ về giao thông hàng không kết hợp dữ liệu thời tiết, dữ liệu sân bay, dữ liệu không gian địa lý, dữ liệu chuyến bay, dữ liệu đặt chỗ của hãng hàng không và dữ liệu xã hội. Ông lưu ý rằng việc xử lý dữ liệu không đồng nhất thực sự khó thực hiện với cơ sở dữ liệu quan hệ truyền thống, lặp lại ý kiến trước đó từ Merriman của MongoDB rằng đây là "sự thay đổi thế hệ cơ sở dữ liệu đầu tiên trong 25 năm" kể từ khi chúng tôi chuyển từ máy tính lớn sang thời đại cơ sở dữ liệu quan hệ.

Ông lưu ý rằng nhiều người nói về dữ liệu truyền thông xã hội, nhưng nó thực sự cần được kết hợp với các dữ liệu khác để thực sự có một cái gì đó mà bạn có thể tận dụng. Kết hợp dữ liệu này là "giá trị thực."

Tất nhiên, một số ứng dụng liên quan đến nhiều thông tin, với Bregman nói rằng sự không đồng nhất chỉ là một yếu tố. Ông đã trích dẫn dữ liệu DNS, có thể dễ dàng tạo ra 8TB thông tin mỗi ngày và nhu cầu lưu trữ những thứ đó trong Hadoop. Bregman và những người khác lưu ý rằng khi nói đến "viết hoa dữ liệu", giá trị thực không nằm trong dữ liệu thô, mà thay vào đó là trong phân tích khi nó trở thành thứ bạn có thể sử dụng. Những người khác trong hội đồng đã đồng ý.

Giám đốc điều hành Streambase Mark Palmer nói rằng việc kết hợp một lượng lớn dữ liệu với phân tích phát trực tuyến rất quan trọng trong nhiều ứng dụng; và nói về giá trị bổ sung có thể được tạo ra bằng cách kết hợp các phân tích truyền thống và thời gian thực.

Nhưng ông đồng ý rằng sự phức tạp của dữ liệu là một vấn đề. Ông đã trích dẫn cách Vivek Ranadivé, người điều hành Tibco (hiện đang sở hữu Streambase), đã mua một đội bóng rổ một phần để tìm ra cách công nghệ có thể cải thiện trải nghiệm của người hâm mộ. Anh ta lại nói về việc "trộn các loại dữ liệu khác nhau", bắt đầu từ một luồng Twitter nhưng cũng tận dụng các loại dữ liệu khác.

Bloom lưu ý rằng tất cả phụ thuộc vào ứng dụng, nói rằng "độ trễ nằm trong mắt của kẻ si tình". Một số ứng dụng cần phân tích dữ liệu trên dây trước khi nó chạm vào cơ sở dữ liệu, trong khi những ứng dụng khác thì không.

Bregman đưa ra một vấn đề là thay vì khó di chuyển các tài nguyên tính toán, giờ đây việc di chuyển dữ liệu trở nên khó khăn hơn nhiều. Ông lưu ý rằng đối với nhiều ứng dụng, "khóa" là vị trí của dữ liệu. Một khi bạn lưu trữ dữ liệu của mình trong một đám mây công cộng, sẽ rất khó để di chuyển nó. Do đó, ông nói, nhiều tổ chức muốn lưu trữ lượng dữ liệu khổng lồ tại các địa điểm của họ, sau đó có thể chuyển sang các nhà cung cấp khác nhau để thực hiện chức năng tính toán. Mượn thuật ngữ từ BloomLogic của MarkLogic, ông đã nói về cách các tổ chức có thể cần một "trung tâm dữ liệu tập trung vào dữ liệu" như một nơi bạn giữ một lượng dữ liệu khổng lồ.

Dữ liệu lớn có phải là 'Cơ hội hàng tỷ đô la?'

Porter Bibb của MediaTech Capital Partners, Cloudera's Doug Cutting, Snaplogic's Gaurav Dhillon và Bloomberg Link's Jason Kelly

Một hội thảo khác đã thảo luận về các cơ hội và thách thức do dữ liệu lớn mang lại, phản ánh nhận xét từ Porter Bibb, Đối tác quản lý tại MediaTech Capital Partners. Bibb cho biết thực sự có hơn một nghìn tỷ đô la lợi ích cho các tập đoàn sử dụng các kỹ thuật mới. Đến nay, ông nói, chúng tôi "thậm chí chưa bắt đầu khai thác tiềm năng mà công nghệ này mang lại."

Bibb đã nói về tầm quan trọng của việc các tổ chức sắp xếp chiến lược dữ liệu của họ với chiến lược kinh doanh và lo lắng rằng hầu hết các hệ thống của công ty và chính phủ đều bị điều chỉnh sai.

Trong phiên đầu tiên đó, Scott Weiss của Andreessen Horowitz đã nói rằng "Hadoop giống như kho lưu trữ đông lạnh", vì vậy người điều hành Jason Kelly của Bloomberg Link đã hỏi kiến trúc sư trưởng Cloudera Doug Cutting, một trong những người tạo ra Hadoop ở nơi đầu tiên, cách anh ta xem cái đó.

Cắt cho biết Hadoop đang cho phép mọi người làm việc với nhiều dữ liệu hơn. Ông cho biết các tổ chức đang lấy dữ liệu ra khỏi băng, thay vào đó làm cho nó trực tuyến và có thể sử dụng được. Khách hàng đang chuyển từ làm việc với 90 ngày dữ liệu sang năm hoặc 10 năm dữ liệu trong một "kho lưu trữ hoạt động".

Một số vấn đề cụ thể về việc xử lý tất cả các dữ liệu này lại xuất hiện trong bảng này. Giám đốc điều hành Snaplogic Gaurav Dhillon đã nói về "lực hấp dẫn dữ liệu", nói rằng việc lấy dữ liệu tại cơ sở trong Hadoop và chuyển nó lên đám mây là vô nghĩa. Nhưng đồng thời, nếu có dữ liệu trong đám mây, chẳng hạn như phân tích luồng nhấp chuột, sẽ không có ý nghĩa gì khi di chuyển tại chỗ đó. Kết quả là, ông nói, ông đã nhìn thấy rất ít "cơ hội xuyên biên giới" trong việc di chuyển dữ liệu.

Cutting cho biết ông không tin rằng thực sự thiếu các nhà khoa học dữ liệu. Thay vào đó, ông nói có rất nhiều người hiểu toán và kinh doanh, nhưng họ không có công cụ này. Bạn có thể tìm hiểu những điều cơ bản của các công cụ và những gì họ làm trong một vài tuần, ông nói, nhưng để hiểu doanh nghiệp của bạn mất nhiều năm. Tuy nhiên, có rất nhiều người hiểu điều đó.

Dhillon cũng phản ánh mối quan tâm về pháp luật đối phó với những thông tin có thể được lưu trữ ở đâu. Ông cho biết một số thị trường dọc yêu cầu thông tin được lưu trữ tại chỗ, nhưng lo lắng về những điều như yêu cầu không di chuyển dữ liệu ra khỏi quốc gia gốc của nó. Rất nhiều điều này là một phản ứng thái quá đối với những điều như các tiết lộ và vi phạm dữ liệu của Snowden, ông nói, lưu ý rằng "một sự vội vàng để lập pháp là không bao giờ tốt."

Khi được hỏi liệu anh ta có lo lắng rằng các vi phạm của Snowden và Target đang khiến khách hàng lo sợ về dữ liệu hay không, Cutting nói rằng anh ta lo lắng rằng rất nhiều người lo lắng. Rất nhiều người sợ công nghệ, ông nói, và đó là một thất bại của ngành công nghiệp khiến khách hàng thoải mái với khái niệm rằng dữ liệu của họ không được sử dụng. "Bạn không cần phải đáng sợ, " ông nói.

Cuối cùng, có rất nhiều cuộc thảo luận về định giá, với Bibb cho rằng khoản đầu tư gần đây của Intel vào Cloudera là một "vấn đề lớn", vì nó xác nhận những gì công ty đang làm. Ông cho biết các công ty lớn khác như Oracle, IBM, Microsoft và Amazon đang lảng vảng quanh các công ty phân tích dự đoán. "Cơn sốt vàng chỉ mới bắt đầu."

Dhillon nói rằng các định giá phản ánh những gì các công ty ống nước mang lại cho thị trường dữ liệu lớn. Anh ấy nói anh ấy rất vui khi thấy những người "nhặt và xẻng" như vậy có được định giá tốt, nhưng anh ấy nói rằng anh ấy có một chút lo sợ rằng việc định giá đang đi trước thị trường.

Bibb cho biết ông nghĩ rằng dữ liệu lớn có thể bị phơi bày quá mức trên các phương tiện truyền thông, nhưng nó không bị phơi bày trong "c-suite" (nghĩa là CEO, CFO và các giám đốc điều hành hàng đầu khác.) Ông nói rằng nó có "tiềm năng kinh tế to lớn chưa được khám phá . "