Trang Chủ Kinh doanh Khái niệm cơ bản về dữ liệu lớn: cách xây dựng kế hoạch quản trị dữ liệu

Khái niệm cơ bản về dữ liệu lớn: cách xây dựng kế hoạch quản trị dữ liệu

Video: Lần thứ hai Bộ Văn hóa bác đề xuất bán vé hội chọi trâu Đồ SÆ¡n (Tháng Chín 2024)

Video: Lần thứ hai Bộ Văn hóa bác đề xuất bán vé hội chọi trâu Đồ SÆ¡n (Tháng Chín 2024)
Anonim

Chúng tôi đã viết rất nhiều về vai trò của dữ liệu trong các doanh nghiệp hiện đại. Từ các công ty mới thành lập và doanh nghiệp vừa và nhỏ (SMB) đến các doanh nghiệp lớn, những hiểu biết và phân tích dữ liệu dễ tiếp cận hơn đối với các doanh nghiệp thuộc mọi quy mô hơn bao giờ hết. Điều này một phần là nhờ sự phát triển của trí tuệ kinh doanh tự phục vụ (BI) và các công cụ trực quan hóa dữ liệu.

Mặc dù, trước khi bạn có thể sử dụng các công cụ BI hoặc chạy các phân tích dự đoán trên một tập dữ liệu, có rất nhiều yếu tố để bình phương. Nó bắt đầu chỉ đơn giản là hiểu Big Data là gì, không phải là gì (gợi ý: không phải quả cầu pha lê) và cách quản lý lưu trữ dữ liệu, tổ chức, quyền và bảo mật trong kiến ​​trúc dữ liệu doanh nghiệp của bạn. Đây là nơi quản trị dữ liệu đến. Các quy trình mà bạn đảm bảo quản trị trong doanh nghiệp khác nhau tùy thuộc vào người bạn nói chuyện. Nhưng, cốt lõi của nó, quản trị dữ liệu là về sự tin cậy và trách nhiệm của dữ liệu, kết hợp với các thực tiễn tốt nhất về bảo mật dữ liệu toàn diện.

Tôi đã nói chuyện với Hortonworks và MapR, hai trong số các nhà cung cấp Hadoop doanh nghiệp lớn nhất trên thị trường. Scott Gnau, Giám đốc Công nghệ tại Hortonworks và Jack Norris, Phó Chủ tịch Cấp cao về Dữ liệu và Ứng dụng tại MapR, từng giải thích về quản trị dữ liệu có ý nghĩa gì đối với các tổ chức của họ. Họ đã thảo luận cách giải quyết thách thức phức tạp trong việc đảm bảo quản trị dữ liệu trong các kiến ​​trúc dữ liệu phức tạp và hệ thống phân cấp tổ chức của một doanh nghiệp lớn.

Chính xác là gì Quản trị dữ liệu và tại sao chúng ta cần nó?

Quản trị có nghĩa là đảm bảo dữ liệu doanh nghiệp được ủy quyền, tổ chức và cho phép trong cơ sở dữ liệu với ít lỗi nhất có thể, trong khi vẫn duy trì cả quyền riêng tư và bảo mật. Đó không phải là một sự cân bằng dễ dàng để đình công, đặc biệt là khi thực tế về nơi và cách dữ liệu được lưu trữ và xử lý liên tục thay đổi. Norris của MapR đã giải thích lý do tại sao các doanh nghiệp cần xem xét quản trị dữ liệu từ cấp cao hơn và tập trung vào đường truyền dữ liệu lớn hơn khi chơi.

"Khi bạn bắt đầu nhân rộng sự đa dạng và tốc độ của Dữ liệu lớn mà chúng tôi đang xử lý, bạn phải có quản trị dữ liệu nhưng trong bối cảnh rộng hơn này. Dữ liệu bạn có, ai có quyền truy cập và bạn là ai quản lý dòng dữ liệu đó theo thời gian? " Norris nói. "Từ quan điểm quản trị dữ liệu, bạn có thể có các giai đoạn khác nhau của dữ liệu tồn tại trong một hệ thống có thể được chụp nhanh để bạn có thể quay lại bất kỳ lúc nào trong đường ống. Đó là về việc xây dựng khả năng kiểm toán và kiểm soát truy cập vào nền tảng dữ liệu để thực hiện chắc chắn việc phát hiện và phân tích dữ liệu là minh bạch, cho dù bạn là người quản lý doanh nghiệp đang xem các bộ dữ liệu tài chính hay nhà khoa học dữ liệu làm việc với dữ liệu ngược dòng thô. "

Nguồn: Rimes. Nhấn vào hình ảnh để xem đầy đủ.

Gnau của Hortonworks đã nhấn vào một điểm tương tự. Cho dù bạn đang xử lý kho dữ liệu hoặc kiến ​​trúc hồ dữ liệu, quản trị dữ liệu là về việc cân bằng các lực lượng đối lập. Đó là về quyền truy cập dữ liệu không bị cản trở để thúc đẩy sự đổi mới và rút ra những hiểu biết sâu sắc, và các quyền và quyền riêng tư chi tiết để đồng thời bảo vệ dữ liệu đó từ đầu đến cuối.

"So sánh và đối chiếu thế giới quản trị truyền thống cũ trong không gian dữ liệu; nó dễ dàng hơn một chút, " Gnau nói. "Dữ liệu từng được xác định rõ bởi vai trò hoặc ứng dụng công việc. Trong thế giới mới, bạn nhận được giá trị cao nhất khi các nhà khoa học dữ liệu truy cập vào càng nhiều dữ liệu càng tốt và việc tìm ra phương tiện hạnh phúc là rất quan trọng.

"Đó là một mô hình hoàn toàn mới trong cách bạn cần tiếp cận quản trị, " Gnau nói thêm. "Trong thế giới mới này, tôi xem xét các chủ đề quản trị và bảo mật cần được đề cập cùng nhau. Rất nhiều công ty vẫn đang nỗ lực để vượt qua điều đó để cho phép các nhà khoa học dữ liệu của họ có hiệu quả trong việc tìm kiếm các trường hợp sử dụng mới đó, đồng thời, hiểu cách xử lý bảo mật, quyền riêng tư, quản trị, tất cả những điều quan trọng từ quan điểm cơ bản và cũng từ quan điểm danh tiếng của công ty. "

Làm thế nào là một kế hoạch quản trị dữ liệu doanh nghiệp có nghĩa vụ bao gồm và đáp ứng tất cả các lực lượng đối lập? Bằng cách giải quyết từng yêu cầu một cách có phương pháp, mỗi lần một bước.

Cách xây dựng kế hoạch quản trị dữ liệu

Hortonworks, MapR và Cloudera là ba người chơi độc lập lớn nhất trong không gian Hadoop. Các công ty có phạm vi ảnh hưởng riêng của họ khi nói đến quản trị dữ liệu. MapR đã phát hành một số sách trắng về chủ đề này và xây dựng quản trị dữ liệu trên khắp Nền tảng dữ liệu hội tụ của mình, trong khi Hortonworks có giải pháp quản trị và bảo mật dữ liệu của riêng mình và đồng sáng lập Sáng kiến ​​quản trị dữ liệu (DGI) vào năm 2015. Điều này dẫn đến việc mở nguồn dự án Apache Atlas cung cấp khung quản trị dữ liệu mở cho Hadoop.

Nhưng khi nói đến cách mỗi nhà cung cấp tạo ra các chiến lược quản trị và bảo mật dữ liệu toàn diện, cả Gnau và Norris đều nói theo những đường tương tự nhau. Sau đây là các bước kết hợp mà Hortonworks và MapR khuyên các doanh nghiệp nên ghi nhớ khi xây dựng kế hoạch quản trị dữ liệu.

The Big One: Quyền truy cập và ủy quyền dữ liệu dạng hạt

Cả hai công ty đều đồng ý rằng bạn không thể quản trị dữ liệu hiệu quả mà không cần kiểm soát chi tiết. MapR thực hiện điều này chủ yếu thông qua Biểu thức kiểm soát truy cập (ACE). Như Norris đã giải thích, các ACE sử dụng nhóm và logic Boolean để kiểm soát truy cập và ủy quyền dữ liệu linh hoạt, với các quyền dựa trên vai trò và cài đặt hiển thị.

Ông nói rằng hãy nghĩ về nó giống như một mô hình Gartner. Trên trục Y ở đầu dưới là quản trị chặt chẽ và nhanh nhẹn, và trên trục X ở đầu trên là nhanh nhẹn hơn và quản trị ít hơn.

"Ở cấp độ thấp, bạn bảo vệ dữ liệu nhạy cảm bằng cách làm xáo trộn dữ liệu. Ở đầu, bạn đã có hợp đồng bí mật cho các nhà khoa học dữ liệu và nhà phân tích BI", Norris nói. "Chúng tôi có xu hướng làm điều này với khả năng che giấu và các chế độ xem khác nhau trong đó bạn khóa dữ liệu thô ở phía dưới càng nhiều càng tốt và dần dần cung cấp nhiều quyền truy cập hơn cho đến khi, ở cấp cao hơn, bạn cung cấp cho quản trị viên tầm nhìn rộng hơn. Nhưng làm thế nào để bạn cung cấp Tiếp cận đúng người?

"Nếu bạn nhìn vào một danh sách kiểm soát truy cập ngày hôm nay, nó sẽ nói một cái gì đó như" mọi người trong ngành kỹ thuật đều có thể truy cập cái này ", Norris nói thêm. "Nhưng nếu bạn muốn một vài giám đốc chọn lọc trong một dự án trong CNTT có quyền truy cập hoặc tất cả mọi người trừ người, bạn phải tạo một nhóm đặc biệt. Đó là một cách quá phức tạp và phức tạp để xem xét quyền truy cập."

Đó là nơi cấp quyền truy cập cho các cấp và các nhóm khác nhau, theo Norris. "Chúng tôi đã kết hợp các ACE với nhiều cách khác nhau để bạn có thể truy cập dữ liệu qua các tệp, bảng, luồng, v.v., tầm nhìn và triển khai không có bản sao dữ liệu riêng biệt. Vì vậy, chúng tôi cung cấp Chế độ xem trên cùng một dữ liệu thô và Chế độ xem có thể có các cấp truy cập khác nhau. Điều này mang lại cho bạn bảo mật tích hợp nhiều hơn, trực tiếp hơn. "

Hortonworks xử lý truy cập chi tiết theo cách tương tự. Bằng cách tích hợp Apache Atlas cho quản trị và Apache Ranger, Gnau cho biết công ty xử lý ủy quyền ở cấp doanh nghiệp thông qua một ô kính duy nhất. Chìa khóa, theo ông, là khả năng cấp quyền truy cập vào cơ sở dữ liệu theo ngữ cảnh và trên các thẻ siêu dữ liệu cụ thể bằng cách sử dụng các chính sách dựa trên thẻ.

"Một khi có ai đó vào cơ sở dữ liệu, đó là về việc hướng dẫn họ thông qua dữ liệu mà họ nên có quyền truy cập có liên quan", Gnau nói. "Các chính sách bảo mật của Ranger ở cấp đối tượng, chi tiết và mọi nơi ở giữa có thể xử lý điều đó. Buộc bảo mật đó vào quản trị là nơi mọi thứ trở nên thực sự thú vị.

"Để mở rộng quy mô trong các tổ chức lớn, bạn cần tích hợp các vai trò đó với quản trị và gắn thẻ siêu dữ liệu", Gnau nói thêm. "Nếu tôi đăng nhập từ Singapore, có lẽ có các quy tắc khác nhau dựa trên luật riêng tư địa phương hoặc chiến lược của công ty. Một khi công ty xác định, đặt và hiểu các quy tắc đó từ góc độ từ trên xuống toàn diện, bạn có thể loại bỏ quyền truy cập dựa trên bộ quy tắc cụ thể trong khi thực hiện mọi thứ bên trong nền tảng cốt lõi. "

Nguồn: Trung tâm phân tích và dữ liệu lớn của IBM. Nhấn vào hình ảnh để xem đầy đủ.

2. Bảo mật vành đai, bảo vệ dữ liệu và xác thực tích hợp

Quản trị không xảy ra mà không có an ninh điểm cuối. Gnau cho biết điều quan trọng là xây dựng một vành đai và tường lửa tốt xung quanh dữ liệu tích hợp với các hệ thống và tiêu chuẩn xác thực hiện có. Norris đồng ý rằng, khi nói đến xác thực, điều quan trọng đối với các doanh nghiệp là phải đồng bộ hóa với các hệ thống đã được thử nghiệm.

"Theo xác thực, đó là về cách bạn tích hợp với LDAP, Active Directory và các dịch vụ thư mục của bên thứ ba, " Norris nói. "Chúng tôi cũng hỗ trợ tên người dùng và mật khẩu của Kerberos. Điều quan trọng không phải là tạo ra một cơ sở hạ tầng hoàn toàn riêng biệt, mà là cách bạn tích hợp với các hệ thống cấu trúc và đòn bẩy hiện có như Kerberos."

3. Mã hóa dữ liệu và mã thông báo

Bước tiếp theo sau khi bảo vệ chu vi của bạn và xác thực tất cả quyền truy cập dữ liệu chi tiết mà bạn cấp: Đảm bảo các tệp và thông tin nhận dạng cá nhân (PII) được mã hóa và mã thông báo từ đầu đến cuối thông qua đường ống dữ liệu của bạn. Gnau đã thảo luận về cách thức Hortonworks bảo mật dữ liệu PII.

"Một khi bạn vượt qua được vành đai và có quyền truy cập vào hệ thống, việc có thể bảo vệ dữ liệu PII là vô cùng quan trọng", Gnau nói. "Bạn cần mã hóa và mã hóa dữ liệu đó, bất kể ai có quyền truy cập vào dữ liệu đó, họ có thể chạy các phân tích họ cần mà không để lộ bất kỳ dữ liệu PII nào dọc theo dòng."

Về cách bạn truy cập an toàn dữ liệu được mã hóa cả khi chuyển động và khi nghỉ ngơi, MapR's Norris giải thích rằng điều quan trọng là phải ghi nhớ các trường hợp sử dụng như sao lưu và khắc phục thảm họa (DR). Ông đã thảo luận về một khái niệm về khối lượng logic được gọi là của MapR, có thể áp dụng các chính sách quản trị cho một cụm tệp và thư mục đang phát triển.

Norris nói: "Ở mức thấp nhất, MapR đã sao chép cấu trúc mạng WAN cho DR và ​​các ảnh chụp nhanh nhất quán theo thời gian trên tất cả dữ liệu có thể được thiết lập ở các tần số khác nhau theo thư mục hoặc âm lượng". "Nó rộng hơn chỉ là quản trị dữ liệu. Bạn có thể có một cụm vật lý với các thư mục, và sau đó khái niệm khối lượng logic là một đơn vị quản lý thực sự thú vị và cách nhóm các thứ trong khi kiểm soát bảo vệ dữ liệu và tần số. Đó là một mũi tên khác trong dữ liệu của quản trị viên CNTT quản trị run rẩy. "

4. Kiểm toán và phân tích liên tục

Nhìn vào bức tranh quản trị rộng hơn, cả Hortonworks và MapR đều cho rằng chiến lược này không hiệu quả nếu không kiểm toán. Mức độ khả thi và trách nhiệm giải trình trong từng bước của quy trình là điều cho phép CNTT thực sự "chi phối" dữ liệu thay vì chỉ đơn giản là thiết lập các chính sách và kiểm soát truy cập và hy vọng điều tốt nhất. Đó cũng là cách các doanh nghiệp có thể giữ chiến lược của mình hiện tại trong một môi trường trong đó cách chúng ta nhìn thấy dữ liệu và các công nghệ chúng ta sử dụng để quản lý và phân tích nó đang thay đổi mỗi ngày.

"Phần cuối cùng của một chiến lược quản trị hiện đại là ghi nhật ký và theo dõi, " Gnau nói. "Chúng tôi đang ở giai đoạn sơ khai của Dữ liệu lớn và IoT, và điều quan trọng là có thể theo dõi truy cập và nhận dạng các mẫu trong dữ liệu để chiến lược cần được cập nhật, chúng tôi đang đi trước đường cong."

Norris cho biết việc kiểm tra và phân tích có thể đơn giản như theo dõi các tệp Ký hiệu đối tượng JavaScript (JSON). Không phải mọi phần dữ liệu sẽ có giá trị theo dõi và phân tích nhưng doanh nghiệp của bạn sẽ không bao giờ biết được điều gì cho đến khi bạn xác định được một cái nhìn sâu sắc thay đổi trò chơi hoặc một cuộc khủng hoảng xảy ra và bạn cần phải thực hiện một cuộc kiểm toán.

"Mỗi tệp nhật ký JSON được mở ra để phân tích và chúng tôi có Apache Drill để truy vấn các tệp JSON bằng các lược đồ, vì vậy đây không phải là bước CNTT thủ công để thiết lập phân tích siêu dữ liệu", Norris nói. "Khi bạn bao gồm tất cả các sự kiện truy cập dữ liệu và mọi hành động quản trị, có thể có một loạt các phân tích."

5. Kiến trúc dữ liệu hợp nhất

Cuối cùng, nhân viên công nghệ hoặc quản trị viên CNTT giám sát chiến lược quản trị dữ liệu doanh nghiệp nên suy nghĩ về các chi tiết cụ thể của truy cập chi tiết, xác thực, bảo mật, mã hóa và kiểm toán. Nhưng nhân viên công nghệ hoặc quản trị viên CNTT không nên dừng ở đó; thay vào đó, người đó cũng nên suy nghĩ về cách mỗi thành phần này cung cấp kiến ​​trúc dữ liệu lớn hơn của họ. Anh ấy hoặc cô ấy cũng nên suy nghĩ về việc cơ sở hạ tầng đó cần có khả năng mở rộng và bảo mật như thế nào từ việc thu thập và lưu trữ dữ liệu cho đến các dịch vụ BI, phân tích và bên thứ ba. Gnau cho biết quản trị dữ liệu cũng giống như việc xem xét lại chiến lược và thực thi cũng như về chính công nghệ.

" Nó vượt xa một ô kính hoặc một bộ quy tắc bảo mật", Gnau nói. "Đó là một kiến ​​trúc duy nhất nơi bạn tạo các vai trò này và chúng đồng bộ hóa trên toàn bộ nền tảng và tất cả các công cụ bạn mang vào. Vẻ đẹp của cơ sở hạ tầng được quản trị an toàn là sự linh hoạt với các phương thức mới được tạo ra. Ở mỗi cấp độ nền tảng, hoặc thậm chí trong một môi trường đám mây lai, bạn đã có một điểm tham chiếu duy nhất để hiểu cách bạn thực hiện các quy tắc của mình. Tất cả dữ liệu đều đi qua lớp bảo mật và quản trị này. "

Khái niệm cơ bản về dữ liệu lớn: cách xây dựng kế hoạch quản trị dữ liệu