Trang Chủ Appscout Cách áp dụng dữ liệu lớn vào thế giới thực

Cách áp dụng dữ liệu lớn vào thế giới thực

Video: Hà Nội đề xuất giao hai cô giáo phụ trách lớp trên 50 học sinh (Tháng mười một 2024)

Video: Hà Nội đề xuất giao hai cô giáo phụ trách lớp trên 50 học sinh (Tháng mười một 2024)
Anonim

Trong phiên bản Fast Forward này, tôi đã nói chuyện với Hicham Oudghiri, CEO và đồng sáng lập Enigma, một công ty chuyên thu thập và hiểu ý nghĩa của các tập dữ liệu lớn. Enigma là một công ty quản lý dữ liệu và tình báo hoạt động cho các khách hàng tư nhân, nhưng có lẽ nổi tiếng nhất với Enigma Public, một bộ dữ liệu có thể tìm kiếm, có thể truy cập công khai bao gồm mọi thứ từ lương của nhân viên Văn phòng Nhà Trắng đến các cuộc kiểm tra nhà hàng của Thành phố New York. Chúng tôi đã nói về sức mạnh của dữ liệu lớn, giới hạn của quyền riêng tư của người tiêu dùng và tương lai của thế giới dựa trên dữ liệu của chúng tôi.

Tại sao bạn không giải thích cho tôi một chút về việc trở thành một công ty dữ liệu mở có nghĩa là gì hôm nay?

Chắc chắn rồi. Chúng tôi bắt đầu chỉ thu thập một lượng lớn dữ liệu công khai ở bất cứ nơi nào chúng tôi có thể tìm thấy, với nhiệm vụ thực sự là cố gắng kết nối những sự thật rất khác nhau về thế giới. Trong quá trình đó, chúng tôi nhận ra rằng cũng giống như việc truy cập vào dữ liệu cơ bản này đã bị phá vỡ, mẫu này đang gây tiếng vang cho dữ liệu của chính người dân, cho các kế hoạch báo cáo dữ liệu công khai như trong môi trường pháp lý. Thực sự, những gì chúng tôi mang đến là khái niệm dữ liệu mở như một mô hình hoạt động ở mọi nơi chúng tôi đã đến.

Điểm ngọt ngào của chúng tôi ngày nay là nuôi dưỡng kho dữ liệu công khai khổng lồ này và mang nó đến trong môi trường có vấn đề thực tế thường đứng sau tường lửa cho các doanh nghiệp. Mặc dù chúng tôi thu thập và phân phối một lượng dữ liệu khổng lồ, chúng tôi thấy rằng việc thực hiện bước tiếp theo để thực sự diễn giải dữ liệu đó và liên kết nó với dữ liệu riêng tư thực sự giúp mở rộng tác động của một số vấn đề chúng tôi muốn giải quyết.

Mọi người nghe về bộ dữ liệu mở, bộ dữ liệu công cộng, bộ dữ liệu riêng tư. Chúng ta đang nói về loại tập dữ liệu nào ở đây?

Chúng ta đang nói về dữ liệu nguồn, dữ liệu chính thức, những thứ mà các cơ quan chính phủ sẽ xuất bản, những thứ mà các cơ quan quốc tế sẽ xuất bản, mọi thứ khác nhau, từ hồ sơ đăng ký doanh nghiệp và đánh giá tài sản đến thị thực H-1B hoặc lô hàng container. Chắc chắn không nói về những thứ như dữ liệu LinkedIn, vốn là một chủ đề tranh luận lớn gần đây về việc đó có phải là một tập dữ liệu công khai hay không. Gần đây đã có vụ kiện với nhiều tranh cãi.

Nhưng chúng tôi chủ yếu nói về dữ liệu nguồn chính thức, trong đó đã có một ủy quyền và một loại phê duyệt pháp lý chính thức để đưa dữ liệu này ra phạm vi công cộng, chủ yếu là để tăng tính minh bạch trong hệ thống kinh tế và thương mại. Ví dụ, điều rất quan trọng đối với chúng tôi là từ quan điểm trách nhiệm, chính phủ của chúng tôi dành cho các công ty tư nhân khác nhau, hoặc từ quan điểm trách nhiệm, việc phân phối thị thực sẽ diễn ra giữa các công ty. Dữ liệu đó, được chính phủ thu thập thường xuyên cho các mục đích thay thế như báo cáo, lập kế hoạch, phân bổ tài nguyên và sau đó được trả lại cho công chúng vì lợi ích thứ cấp và thường là đại học này. Ví dụ phổ biến nhất chỉ là dữ liệu thời tiết, phải không?

Tất cả dữ liệu thời tiết mà chúng tôi thu thập đến từ các nguồn chính thức, hoặc GPS là một công nghệ.

Vì vậy, bạn lấy tất cả các bộ dữ liệu công khai đó và sau đó bạn có thể hợp nhất chúng với các bộ dữ liệu riêng tư mà một công ty sẽ cung cấp cho bạn một cách cụ thể và thực sự thấy những hiểu biết giữa việc kết hợp cả hai?

Vâng, rất thường xuyên. Hãy suy nghĩ về một trường hợp sử dụng kinh điển trong đó bạn đang cố gắng làm một cái gì đó giống như tìm hiểu xem một công ty có thật không. Nếu đó là một công ty nhỏ, hãy nói, một nhà hàng hoặc một doanh nghiệp nhỏ. Rất thường xuyên, loại hồ sơ họ sẽ có trên chúng là cực kỳ mỏng. Nhưng nếu bạn nhìn vào những thứ như giấy phép rượu của họ hoặc thậm chí thanh tra của Bộ Lao động hoặc kiểm tra hồ sơ sức khỏe, bạn sẽ có được một bức tranh chi tiết hơn về con người họ.

Thông thường, điều đó giúp các công ty này loại ngay lập tức rằng họ thậm chí còn thực sự để có được quyền truy cập vào tín dụng, để được bảo hiểm, những thứ này. Chuyển từ "Đây là ứng dụng 18 trang của bạn" và một quy trình rất khó chịu thông qua bảy bộ tuân thủ khác nhau, sang một thứ có thể xảy ra trực tuyến theo cách tự động và nói chung là ít rủi ro hơn.

Vì vậy, thay vì chỉ nhập chúng vào Google để xem họ có trang web không và chúng có thật không, bạn có thể xác thực tất cả các bộ dữ liệu khác này cho những thứ cơ bản không?

Chắc chắn rồi.

Chúng tôi đã nói chuyện, trước khi chúng tôi phát trực tiếp, về Ozark, vì vậy chương trình yêu thích của bạn, chương trình yêu thích mới của tôi và ý tưởng sử dụng các bộ dữ liệu này để tuân thủ và báo cáo tài chính và thậm chí để săn lùng những kẻ rửa tiền.

Vâng. Trước hết, một trong những chương trình tốt nhất hiện có. Kết nối khổng lồ với Netflix, đã trở thành hãng phim hạng nhất Hollywood.

Họ đã trả tiền cho nó. Họ đã mua đường vào thị trường đó.

Họ chắc chắn có. Nhưng chương trình nói về nhân vật Jason Bateman này, người tự nhận mình là kẻ rửa tiền cho băng đảng ma túy này. Điều hấp dẫn là anh ta cứu mạng mình bằng cách nói rằng anh ta sẽ đến Ozarks và tìm các kênh mới để rửa tiền. Anh ta bắt đầu mua vào những doanh nghiệp buồn ngủ này và sau đó trải qua nhiều loại chi phí.

Vấn đề rửa tiền là một vấn đề lý thuyết rất lớn ở chỗ, thành thực mà nói, bạn đang xem xét các mô hình hoạt động giữa các thương nhân hoặc người tiêu dùng dịch vụ tài chính khác nhau và cả mối liên hệ giữa chúng. Vì vậy, bạn sẽ thích một đại lý đã đăng ký, rõ ràng, một người như Jason Bateman, người sẽ đi xung quanh và làm điều này cho một vài doanh nghiệp. Anh ấy mua riêng cho họ và bắt đầu biết tên mình bằng nhiều hình thức khác nhau và bạn sẽ nhận thấy mô hình hoạt động đó. Đây là điều mà các ngân hàng phải đấu tranh chống lại, rõ ràng, bởi vì nó gây bất lợi cho hệ thống và họ đang gặp khó khăn khi làm điều này.

Tội phạm đã trở nên kỹ thuật số và phi tập trung như âm nhạc. Đây là một vấn đề lớn hơn nhiều. Không có một gia đình mob lớn nào mà chính phủ có thể ẩn nấp trong nhiều tháng và mang họ theo kiểu Capone. Đây là một cuộc rượt đuổi toàn diện trên nhiều mặt trận. Chúng tôi đã giúp đỡ và làm việc để mang lại dữ liệu công khai để giải quyết vấn đề đó, nhưng cũng mang công nghệ của chúng tôi mà chúng tôi đã sử dụng để tổng hợp tất cả dữ liệu công khai này để giải quyết vấn đề đó, chỉ vì các ngân hàng có nhiều cải tiến về công nghệ làm để hợp nhất các tập dữ liệu của riêng họ thành các manh mối mạnh mẽ, theo ngữ cảnh cho các nhà điều tra mà họ có trong đội ngũ nhân viên.

Tôi cảm thấy như chúng ta đang ở thời điểm hiện tại nơi chúng ta có tất cả dữ liệu công khai này được tạo bởi các cơ quan chính phủ. Chúng tôi đã có tất cả các bộ dữ liệu riêng tư. Mỗi công ty có nhiều bộ dữ liệu và nhiều định dạng khác nhau, thường là trong cùng một công ty. Tuy nhiên, không có nhiều tiêu chuẩn hóa, và làm cho chúng hoạt động cùng nhau thực sự là một thách thức lớn.

Đó là một thách thức lớn và có lẽ một trong những luận văn lớn nhất mà chúng tôi có tại Enigma là một sự chia rẽ lớn. Một trong những nhà đầu tư của tôi đã gọi nó theo cách này - có một thế giới nơi dữ liệu được ghi thành bit và có một thế giới nơi nó được gắn vào các nguyên tử. Các công ty công nghệ, Google, Facebook, Amazon, tất cả họ đã thực hiện một công việc tuyệt vời khi lấy dữ liệu họ nhận được từ hoạt động của bạn khi duyệt web và tạo ra các dịch vụ mới này như tìm kiếm và trải nghiệm thương mại điện tử tốt hơn. Nhưng dữ liệu đó đều tồn tại. Đó là kỹ thuật số bản địa. Nó chỉ lắng nghe bạn trên web. Web là một giao thức và các giao thức đó được thiết kế để nói chuyện với nhau.

Nhưng khi bạn có dữ liệu này được gắn vào các nguyên tử hoặc thế giới thực, giống như ai đó đi vào ngân hàng ở Ozarks và hỏi một khoản vay nhỏ, trông khác với người khác đi vào chi nhánh ngân hàng khác, hoặc container chở hàng tàu đến trong đó yêu cầu tên của công ty đang thực hiện vận chuyển. Tất cả các dữ liệu này được thiết kế - hoặc không được thiết kế - để nói chuyện với nhau vì vậy có một vấn đề rất lớn trong việc ghép dữ liệu này lại với nhau. Tôi nghĩ rằng sẽ mất ít thời gian hơn, các ngành công nghệ thuần túy này sẽ có được thời gian dài hơn để gặt hái những lợi ích của những gì bạn đã thấy trong công nghệ với dữ liệu lớn. Nhưng khi họ làm vậy, tôi nghĩ nó sẽ thay đổi rất nhiều cách chúng ta sống hàng ngày theo cách khá tác động.

Tôi cũng có cảm giác rằng, khi có một động lực tài chính để kết hợp các bộ dữ liệu này lại với nhau và tạo ra những hiểu biết này, các doanh nghiệp tìm cách trả tiền cho nó và họ tìm ra cách để hoàn thành nó. Các công ty thẻ tín dụng là một trong những công ty đầu tiên có thể xác định các mô hình và xác định gian lận. Tôi cảm thấy như khu vực công cộng bị bỏ lại khá xa khi tạo ra những hiểu biết sâu sắc từ những lượng dữ liệu này. Đo co phải la đanh gia khach quan không?

Trong một số giác quan, khu vực tư nhân luôn có lợi thế trong việc vận hành công nghệ. Các ưu đãi tài chính là rất lớn và cũng là phong cách hoạt động của một đơn vị nhỏ hơn. Chính phủ Hoa Kỳ thực sự là một trong những tổ chức lớn nhất trên thế giới và việc hoàn thành mọi thứ thực sự là vấn đề của mọi người. Đảm bảo các ưu đãi được căn chỉnh, đảm bảo mọi người chấp nhận đúng mức rủi ro.

Nhưng chúng tôi đã thấy chính phủ làm một số điều rất sáng tạo. Chúng tôi hợp tác với Thành phố New Orleans, tôi nghĩ giống như hai năm trước, để giúp họ cơ bản dự đoán nơi chủ nhà ổ chuột, chủ yếu là lắp đặt máy dò khói trong những ngôi nhà này. Sau Katrina, bạn đã có một lượng lớn bệnh hoạn này. Rất nhiều chủ nhà đã thoát khỏi việc để lại những người có điều kiện tồi tệ. Thành thật mà nói, máy dò khói chỉ làm một công việc tuyệt vời là ngăn chặn cái chết từ lửa. Thay vì gửi một lính cứu hỏa đến một ngôi nhà ngẫu nhiên, điều gì sẽ xảy ra nếu bạn sử dụng các yếu tố như nhân khẩu học và tòa nhà bao nhiêu tuổi và lần cuối cùng có một loại cài đặt cơ sở hạ tầng như cơ sở hạ tầng viễn thông?

Bạn sử dụng tất cả những sự thật này và bạn nhận được tỷ lệ trúng cửa mà bạn đang gõ vào đó cao hơn đáng kể. Chúng tôi đã thấy rất nhiều loại bóng tiền này cho các công cụ của chính quyền địa phương diễn ra khá mạnh mẽ. Rõ ràng, đã có một lượng sử dụng dữ liệu khổng lồ trong cộng đồng tình báo, như bạn có thể tưởng tượng. Chúng tôi thấy rằng có những túi của sự đổi mới. Một lần nữa, tất cả là về cách bạn vận hành nó.

Bạn có tất cả các điểm dữ liệu đó nhưng sau đó bạn phải truy vấn nó theo cách thích hợp, tìm kiếm các mẫu. Bạn gần như phải tìm kiếm các mối tương quan, và đó là một loạt các câu hỏi và câu trả lời. Đó là thiết lập mối quan hệ với dữ liệu mà tôi nghĩ rằng chúng ta mới bắt đầu tìm ra cách thức hoạt động của nó.

Đúng. Chúng ta đang bắt đầu tìm hiểu làm thế nào nó hoạt động từ góc độ kỹ năng. Và, giống như một sự thay đổi tâm trí về tư duy thống kê so với tư duy thống kê. Có một câu nói: "Tất cả các mô hình đều sai nhưng một số mô hình rất hữu ích" - vì vậy thực sự là liệu bạn có thể, không có dữ liệu, không có thuật toán, bối cảnh hóa một chút, các tham số về tư duy thống kê của bạn. Tôi có thể không có quyền này, như trong trường hợp hỏa hoạn, chúng tôi có thể không có quyền này nhưng chúng tôi có thể tăng cơ hội để có được quyền hoặc chúng tôi có thể giảm rủi ro diện tích bề mặt hoặc những gì chúng tôi phải tìm kiếm. Mang thái độ giải quyết vấn đề đó, đó là kỹ năng số một khi nói đến việc có thể suy nghĩ thống kê. Một số người bị khóa, "Chà, cách duy nhất chúng ta có thể chắc chắn là nếu chúng ta có X, Y và Z."

Tôi sẽ cung cấp cho bạn một trường hợp trong một ví dụ riêng tư. Rất thường xuyên ở các ngân hàng, vì lý do gian lận và tuân thủ lịch sử, cách họ xác minh xem ai đó có thật trước khi họ cấp thẻ tín dụng hay không, đảm bảo số điện thoại và địa chỉ của họ khớp với bất cứ điều gì họ có trong đơn. Không phải tất cả các công ty sử dụng điện thoại cố định thực tế bây giờ. Không phải tất cả các công ty đều sử dụng địa chỉ chính của họ như địa chỉ họ đang thực sự hoạt động. Hiện tại có một số thực tế đã lỗi thời của những người làm việc tại WeWork và những người sử dụng giọng nói qua IP. Thoải mái với việc xác định mọi người thông qua sự hiện diện xã hội của họ hoặc thông qua một số bộ dữ liệu mà chúng tôi mang đến tại Enigma cung cấp các điểm chứng minh phụ trợ này. Nhìn và chạy theo lịch sử các số liệu thống kê để xem khả năng nó có thật hay không, so với sự đảm bảo rằng bạn sẽ nhận được từ các phương tiện thay thế này trước đó.

Tôi nghĩ đó cũng là một điểm thú vị, giả định rằng tất cả các mô hình sẽ sai, phần lớn sai hoặc sai theo cách nhỏ hơn, nhưng điều đó không sao vì nó vẫn có thể giúp bạn đưa ra quyết định tốt. Đó có phải là một kỹ năng mà chúng tôi đang làm tốt trong việc dạy dỗ con cái của chúng tôi, và chúng thậm chí sẽ được đào tạo ở đâu? Ý tôi là, nó không nhất thiết phải ở môn toán. Nó sẽ không được trong Khoa học xã hội. Họ lấy sự nhạy cảm đó ở đâu?

Thống kê thường được phân loại, như giáo dục toán học nói chung, nhưng bạn thấy nó ở những nơi khác. Bạn thấy nó xuất hiện ngay cả trong nguồn cấp dữ liệu ESPN của bạn những ngày này. Mọi người thoải mái hơn nhiều với dự đoán là một phần của cuộc sống của họ. Thành thật mà nói, tôi yêu những khoảnh khắc thiên nga đen này, nơi tất cả những thứ đó bay vào mặt chúng tôi. Hãy tham gia cuộc bầu cử cuối cùng. Bạn đã chiến thắng Hilary và bạn có các nhà khoa học dữ liệu tốt nhất thế giới tại một số tổ chức tốt nhất gọi đó là sai.

Chiến thắng, nhưng chiến thắng không có khả năng chiến thắng 70 phần trăm bởi vì điều đó vẫn có nghĩa là, một trong ba lần, Donald Trump thắng. Và đoán xem? Đây là một trong ba lần đó.

Chắc chắn rồi. Và sau đó là nền giáo dục mà chúng ta đang thấy những mô hình này giúp mọi người thoải mái hơn. Trong các lớp học, tôi nghĩ một trong những vấn đề lớn nhất mà chúng ta gặp phải chỉ là việc học ứng dụng. Giống như, tôi không biết tại sao họ không dạy tài chính cá nhân trong lớp học. Ý tôi là, tôi là một thằng ngốc với tiền của tôi ở tuổi 18 và ảnh hưởng đến nợ và tất cả những thứ đó. Tôi vẫn ngạc nhiên khi họ không làm điều đó, vì vậy tôi cảm thấy như chúng ta đang di chuyển trong một thế giới nơi giáo dục sẽ ngày càng có nhiều hơn về những thứ được áp dụng và ít hơn về những thứ lý thuyết. Nhưng sau đó tôi lo lắng nếu chúng ta mất đi một số phần của việc học văn hóa. Tất cả là một sự đánh đổi.

Tôi sẽ còn đi xa hơn nữa trên con đường đó và nói về trí tuệ nhân tạo.

Trí tuệ nhân tạo, một công nghệ biến đổi mạnh mẽ. Dường như với tôi rằng có một vai trò cho trí tuệ nhân tạo trong việc giúp chúng ta hiểu được thế giới này của sự dư thừa dữ liệu và tìm ra những mô hình đó cho chúng ta. Bạn có lạc quan về AI giúp chúng ta hiểu điều đó hay đó sẽ là một thứ gì đó hoàn toàn tách biệt với phần còn lại của trải nghiệm con người chúng ta?

Ý tôi là, tôi lạc quan theo nghĩa là tôi lạc quan về loài người nói chung. Tôi cảm thấy như đó là một điều gen lật xảy ra với mọi người tại một thời điểm nào đó. Một trong những điều tôi thích nhất về lời hứa của trí tuệ nhân tạo là nó thực sự sẽ giúp công nghệ biến mất bởi vì ngay bây giờ, trọng tâm là công nghệ và dữ liệu hiện hữu. Nhưng trong thực tế, công việc của dữ liệu rất chuyên sâu. Có một lý do họ gọi đó là khai thác dữ liệu khi bạn đang tìm kiếm thứ trong bộ dữ liệu. Nó rất khó chịu. Các bộ dữ liệu không sạch. Đó là một loại tàn bạo trong một ý nghĩa.

Điều tôi thích ở AI là nó tạo ra các vòng phản hồi từ trải nghiệm quan sát được. Mặc dù bạn đang thu thập tất cả các dữ liệu này từ tất cả những nơi này, nhưng bạn không thực sự cần biết nó sẽ kết hợp với nhau như thế nào để bạn bắt đầu nghiên cứu kết quả. Học máy giúp chúng ta thực sự định hướng kết quả hơn một chút trong cách chúng ta có được tư duy thống kê. Tôi nghĩ rằng nó sẽ giúp chúng ta trừu tượng hóa một số tính khó chịu của công việc đó và có định hướng kết quả hơn một chút trong cách chúng ta tiếp cận nó. Bây giờ, chắc chắn sẽ rất đáng sợ về mặt tác động đối với tự động hóa ở một số khu vực, thật lòng mà nói, tôi nghĩ AI nên bị bỏ lại một mình, như thay thế một bồi thẩm đoàn. Liệu chúng ta có bao giờ có được chất lượng trí tuệ cảm xúc đó không? Tôi không biết.

Và bạn phải chọn và nói rằng bạn muốn phẩm chất cảm xúc đó trong bồi thẩm đoàn trái ngược với khả năng thuần túy rằng người này có tội hay không có tội?

Đúng. Đối với tôi, nhân loại tiềm ẩn, tôi nghĩ là siêu quan trọng. Thành thật mà nói, chỉ cần kinh doanh và thấy sự tiếp xúc của con người là quan trọng đến mức nào để thuyết phục mọi người bắt đầu suy nghĩ về mặt thống kê, tôi lạc quan rằng chúng ta sẽ không đánh mất điều đó với sự ra đời của AI ở quy mô.

Chúng tôi đã chạm một chút về việc LinkedIn có phải là một bộ dữ liệu công khai hay không. Rất nhiều người, họ có cảm giác rằng họ đang sống ở thế giới này, nơi mọi thứ về họ đều có sẵn trực tuyến, từ mô hình mua hàng cho đến tuổi của họ cho đến lịch sử y tế của họ. Nó làm cho mọi người khó chịu. Nó khiến mọi người lo lắng rằng chính phủ có quá nhiều thông tin. Cá nhân tôi lo lắng hơn rằng các công ty tư nhân có quá nhiều thông tin và họ ít bị điều tiết hơn.

Đúng.

Chúng ta có cần luật pháp để bảo vệ thông tin cá nhân của chúng tôi? Thông tin cá nhân có nên được xử lý riêng so với hồ sơ chính phủ của bạn?

Chắc chắn rồi. Chúng tôi có rất ít sự bảo vệ đối với các luật lệ chi phối cách chúng tôi cung cấp dữ liệu của mình. Hãy suy nghĩ về nó trong một số ngành nghề nhất định. Trong ngành y, đó là khóa máy. Nhưng vì một số lý do, nó không nhất thiết phải khóa trong các ngành công nghiệp khác. Lý do là, hồi đó, bạn không thể làm gì nhiều với thông tin cá nhân của mình. Hôm nay, họ có ý thức thực sự tốt về cách giúp bạn chuyển đổi hoặc khả năng bạn sẽ ở đâu đó. Đối với tất cả ý định và mục đích, theo tôi, điều đó thực sự có lợi cho chúng ta.

Nhưng đồng thời, dữ liệu của chúng tôi vẫn xứng đáng với mức độ tôn nghiêm đó trong cách xử lý. Châu Âu đã được đưa ra với luật pháp rất mạnh mẽ. Có một luật ra đời gọi là GDPR. Nó được thiết lập để ban hành vào năm 2018 và nó mang mọi thứ từ việc đảm bảo các công ty đang theo dõi dòng dữ liệu cá nhân của họ, ai có nó, quyền truy cập được cung cấp cho công ty như thế nào, có quyền bị lãng quên. Khi bạn nói, "Xóa dữ liệu của tôi", bạn thực sự đang xóa nó hay bạn đang giữ nó cho một số thông tin khác? Vì vậy, có một sự trao đổi, luôn luôn, giữa người tiêu dùng và các dịch vụ mà họ làm việc. Rất nhiều dịch vụ này là miễn phí và chúng tôi yêu thích chúng, phải không?

Tôi sẽ cho đi một phần bản thân mình để truy cập YouTube, phải không? Tôi rất vui vì điều đó.

Và có lẽ, bạn có.

Và có lẽ, tôi có. Nhưng điều đó không có nghĩa là phần mà tôi cho đi không nên bỏ vào hộp an toàn và tôi biết rằng cái hộp đó nằm dưới một hầm ngầm và tất cả những điều tốt đẹp đó.

Ngoài ra, ý tưởng hết hạn dữ liệu, trong thế giới kỹ thuật số ngày nay, là một khái niệm tương đối mới. Nó đã từng là có một sự tối nghĩa nhất định. Nếu một cái gì đó đã xảy ra 30 năm trước, sẽ rất khó để tìm thấy hồ sơ và nhận được một hồ sơ từ đó. Nhưng có những đứa trẻ ngày nay đã trực tuyến toàn bộ cuộc sống của chúng, và những gì chúng đã làm và đăng khi chúng 13 tuổi sẽ ở đó khi chúng 63 tuổi.

Đúng.

Chúng tôi không có cơ sở hạ tầng hợp pháp có thể giải quyết vấn đề đó theo bất kỳ cách có ý nghĩa nào.

Không, chúng tôi không và đó là một khu vực nhiều lông. Đó là một lĩnh vực nhiều lông trong luật lao động. Đó là một khu vực nhiều lông để hẹn hò, phải không?

Nếu bạn nhìn vào hồ sơ Facebook của ai đó - tôi nghĩ rằng văn hóa sẽ thích nghi với điều đó, với sự hiện diện trực tuyến của ai đó được công khai. Nhưng nó gần như sân khấu. Nó giống như sự hiện diện công khai của bạn không phải là bạn thực sự. Bộ phim Jim Carey đó là gì? Tất cả chúng ta đều đeo mặt nạ, nói một cách ẩn dụ. Vì vậy, tôi nghĩ rằng sự hiện diện trực tuyến của bạn sẽ giống như bộ sưu tập này hoặc tác phẩm nghệ thuật này mô tả bạn và sau đó là bạn thực sự. Nhưng vẫn còn bạn thực hiện một cú bắn cơ thể hoặc đại loại như … Điều đó, bạn không muốn công khai. Có một câu hỏi thực sự là liệu những người đủ trẻ có khả năng quyết định liệu có thông minh khi đưa nó lên mạng hay không. Thật đáng sợ, chắc chắn.

Nói về việc đưa những điều ngu ngốc lên mạng, hãy nói về chính quyền Trump. Tôi đã nghe nói trên nhiều mặt trận … Rõ ràng là bạn đang làm việc với rất nhiều bộ dữ liệu công khai. Bạn phải đi và xin phép để có được thông tin này rất nhiều lần, hoặc tìm ra cách để ăn nó. Bây giờ có dễ hơn không? Làm thế nào để truy cập vào các bộ dữ liệu công cộng thay đổi kể từ khi chính quyền Trump nhậm chức?

Đúng. Lời cảnh báo đầu tiên của tôi khi tôi nói về những thứ này là, sự khác biệt lớn giữa chính quyền Trump và chính phủ Hoa Kỳ. Chính phủ Hoa Kỳ cho đến nay là một trong những tổ chức minh bạch hơn mà tôi từng gặp trên thế giới. Chúng tôi cực kỳ minh bạch so với các đồng nghiệp của chúng tôi về số lượng dữ liệu mà chúng tôi đưa ra, với số tiền chúng tôi tài trợ cho loại công cụ này, vì vậy hãy cẩn thận số một.

Khi nói đến Trump, ý tôi là, tôi đã rất rõ ràng rằng mọi người nên rất lo lắng về lập trường của chính quyền này với sự minh bạch và chia sẻ thông tin. Trước hết, có những thứ rất rõ ràng như gỡ xuống danh sách khách đến Nhà Trắng, đó là một thông lệ mà Obama đưa ra và tôi nghĩ là một trong những hệ thống kế toán trung tâm nhất của chính phủ. Đã có dữ liệu EPA, có dữ liệu khí hậu và nói chung, thậm chí còn có tranh luận về một số dữ liệu điều tra dân số bị ảnh hưởng bởi điều này. Bạn phải nhớ, đây không phải là những nỗ lực nhỏ. Tôi nghĩ rằng điều tra dân số Hoa Kỳ là khoản đầu tư hơn 4 tỷ đô la mỗi lần nó xảy ra, với hơn 300.000 tình nguyện viên tham gia.

Một số trong những điều này, chúng ta sẽ thấy tác động của chúng trong bốn năm, chỉ cần đưa ra các chu kỳ tài trợ về cách nó xảy ra. Mặc dù chính quyền này chắc chắn không thân thiện, tôi nghĩ rằng xương sống minh bạch ở đất nước này đủ mạnh. Điều kỳ lạ là điều đó xuất phát từ cả bên trái và bên phải. Đủ mạnh để đảm bảo rằng phong trào này hướng tới sự cởi mở của thông tin sẽ ở đây.

Và có rất nhiều cưỡi trên các bộ dữ liệu.

Đúng. Đó là cách chúng tôi quyết định nơi đặt bệnh viện. Đó là cách chúng tôi quyết định cách định tuyến xe cứu thương. Đó là cách chúng tôi quyết định rất nhiều dịch vụ cơ bản, như quản lý chất thải phụ thuộc vào những thứ này.

Nói với những người đang xem bộ dữ liệu công khai của Enigma mà tôi đã truy cập nhiều lần … siêu, cực hay. Mọi người nên mong đợi điều gì khi đến đó? Họ có thể nhận được gì từ nó?

Một trong những cam kết của chúng tôi là liên tục trung thực về sứ mệnh thu thập tất cả dữ liệu này, nhưng trả lại nhiều nhất có thể cho mọi người. Nó hoàn toàn miễn phí để sử dụng cho mục đích phi thương mại, mục đích báo chí. Chúng tôi muốn đảm bảo rằng mọi người đều có quyền truy cập vào dữ liệu này. Bạn thậm chí không cần phải đăng nhập hoặc cần cung cấp cho chúng tôi bất kỳ thông tin nào để tiếp tục và truy cập nó. Khi chúng tôi thành lập công ty, có một tiền đề lớn về quyền truy cập.

Như chúng ta đã học được nhiều hơn trong những năm qua, truy cập và thiết kế giao diện và tìm kiếm và độ tin cậy là rất quan trọng. Một cái khác đã được giám tuyển và đó là trọng tâm lớn của Enigma Public, mà chúng tôi đã khởi chạy lại vào mùa hè này, đó là khái niệm rằng mọi người cần biết dữ liệu này được sử dụng như thế nào. Mọi người cần biết không chỉ thực hành tốt nhất về cách làm việc với dữ liệu mà tập dữ liệu nào tốt cho việc gì. Có gì mới, có gì thú vị? Tôi nghĩ rằng loại hình giáo dục này là thứ mà chúng tôi rất hào hứng khi trở thành một phần và là thứ mà chúng tôi hy vọng mọi người sẽ có được thứ hai họ đặt chân lên trang web.

Đó chắc chắn là giá trị kiểm tra. Tôi nghĩ, một lần nữa, các doanh nghiệp nhìn thấy dữ liệu đó và họ biết rằng họ có thể xây dựng các doanh nghiệp trên đó. Tôi nghĩ rằng đối với các nhà báo và đối với công dân, cần phải có nhiều nền giáo dục hơn.

Hoàn toàn, giáo dục nhiều hơn và, hy vọng, toàn bộ một lớp dịch vụ trên đó cung cấp mọi thứ cho những người như tôi và bạn khi chúng tôi không tìm hiểu, có thể nói như vậy.

Hãy để tôi hỏi bạn những câu hỏi tôi hỏi mọi người trong chương trình. Xu hướng công nghệ nào làm bạn quan tâm nhất? Có điều gì khiến bạn thức đêm không?

Xu hướng mà tôi quan tâm nhất hoặc điều mà tôi nghĩ, trên đường chân trời, rằng chúng ta nên coi chừng nhất là khái niệm về lập trình sinh học, vì vậy mức độ mà chúng ta đang trở nên tốt hơn trong việc lập trình các chuỗi sinh học lập trình sinh vật. Điều đó có tác động rất lớn, nhưng cũng có tác động rất lớn đến khả năng tạo ra quy mô nhỏ, về cơ bản là sự cố thông qua điều này. Bất cứ nơi nào công nghệ và sinh học gặp nhau, tôi luôn quan tâm một chút đến cách xử lý. Nó giống như làn sóng tiếp theo đối với tôi, hậu hạt nhân, thực sự là khả năng của chúng tôi để làm những việc như sắp xếp thứ tự lập trình trong một phòng thí nghiệm quy mô nhỏ và phân phối nó.

Thách thức là ngay cả khi chúng ta thông qua luật ở Hoa Kỳ, điều đó không có nghĩa là ai đó không thể thực hiện nghiên cứu tương tự ở Trung Quốc hoặc ở Nga.

Hoàn toàn - và thậm chí từ góc độ an toàn, phải không? Vì vậy, chúng tôi thực sự bắt đầu có phương tiện cho bất cứ ai để tự làm chương trình chiến tranh sinh học của riêng họ. Vì vậy, đối với tôi, là điều mà tôi quan tâm nhất. Nhưng flipside bao gồm những thứ như y học cá nhân, thực tế là bạn có thể thực sự hiểu cơ thể của tôi, bạn gần như có thể tạo phiên bản sinh học này của một chương trình phần mềm được thiết kế để chữa bất cứ bệnh gì tôi mắc phải. Cũng như tôi quan tâm, tôi cũng vui mừng vì điều đó.

Tôi nghĩ rằng thiếu sót sẽ là chúng ta cần một loại cấu trúc đạo đức để đưa các công nghệ mới này vào. Chúng tôi đã làm nó với vũ khí hạt nhân và năng lượng hạt nhân, nhưng chúng tôi đã làm nó ở đó và tôi nghĩ rằng chúng tôi sẽ cần phải phát triển một cái gì đó giống. Ở cấp độ cá nhân, có một công nghệ mà bạn sử dụng hàng ngày chỉ làm thay đổi cuộc sống của bạn, mà bạn có ngạc nhiên không?

Đây là loại lạ, nhưng chỉ là FaceTime. Hoặc trò chuyện video. Tôi có một số thành viên gia đình ở nước ngoài và tôi đi du lịch rất nhiều cho công việc. Sự khác biệt giữa một cuộc gọi điện thoại và một cuộc trò chuyện video chỉ là tình cờ trên điện thoại, nó thực sự khiến tôi cảm thấy toàn bộ lời hứa rằng internet đã kết nối tất cả mọi người. Có thể, trong một vấn đề của 15 giây. Tôi đến từ Ma-rốc, vì vậy nhìn thấy ai đó trên toàn cầu và nói, "Này, bạn đang làm gì vậy?", nhìn thấy thời tiết trong môi trường của họ như thế nào và cách họ mặc quần áo và thái độ của họ, điều đó thực sự đã thay đổi cách tôi cảm thấy kết nối với mọi người xung quanh và khiến tôi cảm thấy như tất cả chúng ta sống trong ngôi làng lớn này hơn một chút, và tôi thích cảm giác đó

Có một điều thú vị nữa là, tôi đã xem sự gia tăng của hội nghị truyền hình. Nó sẽ là điều tiếp theo. Không ai sẽ gọi điện thoại nữa. Hội nghị video không bao giờ thực sự cất cánh nhưng trò chuyện video, cá nhân hơn, khác biệt sâu sắc và không trong môi trường làm việc, một cái gì đó gần như bình thường hơn một cuộc gọi điện thoại. Giống như nó có thể là một điều ngay lập tức.

Tôi có một cô con gái 3 tuổi và cô ấy hoàn toàn hiểu rõ điều đó. Cô trò chuyện video trước khi gọi điện thoại. Cô ấy không biết cuộc gọi điện thoại là gì. Bạn đặt một chiếc điện thoại loa và bạn yêu cầu cô ấy trò chuyện với ai đó và cô ấy hoàn toàn không hứng thú. Bạn đặt cô ấy trước mặt ông của cô ấy trên FaceTime và cô ấy có thể ở đó trong 20 phút.

Nó sẽ trở nên xa lạ với cô như những chiếc điện thoại quay mà trẻ em ngày nay không biết sử dụng. Hicham, làm thế nào mọi người có thể theo dõi bạn trực tuyến, tìm hiểu những gì bạn đang làm và theo kịp Enigma?

Truy cập enigma.com. Hãy xem Enigma Public để chắc chắn, đó là public.enigma.com. Kiểm tra trang web của chúng tôi. Chúng tôi có một tài khoản Twitter khá hoạt động, chưa có Instagram cho chúng tôi.

Không bao giờ nói không bao giờ.

Không bao giờ nói không bao giờ. Nhưng-

Bạn có thể làm những điều tuyệt vời với infographics.

Vâng, đó là sự thật. Chúng tôi thực sự là những người hâm mộ dữ liệu lớn. Chúng tôi có phần tuyệt vời này trên trang web của chúng tôi, labs.enigma.com, nơi đó là tất cả các thử nghiệm của chúng tôi và một số dự án chuyên nghiệp của chúng tôi như dự án tôi đã đề cập với New Orleans, vì vậy tôi cũng sẽ kiểm tra điều đó.

Rất tuyệt. Cảm ơn rất nhiều vì đã đến.

Tuyệt vời. Cảm ơn bạn rất nhiều vì đã có tôi.

Cách áp dụng dữ liệu lớn vào thế giới thực