Trang Chủ Kinh doanh Google đơn giản hóa việc học máy với sql

Google đơn giản hóa việc học máy với sql

Mục lục:

Video: SQL Index |¦| Indexes in SQL |¦| Database Index (Tháng Chín 2024)

Video: SQL Index |¦| Indexes in SQL |¦| Database Index (Tháng Chín 2024)
Anonim

Google hiện đã thêm các khả năng học máy (ML) vào Google BigQuery, công ty cung cấp cơ sở dữ liệu đám mây quy mô nhỏ (PB) của công ty. Hiện được đặt tên là BigQuery ML, phiên bản mới cho phép bạn sử dụng các câu lệnh Ngôn ngữ truy vấn có cấu trúc (SQL) đơn giản để xây dựng và triển khai các mô hình ML cho các phân tích dự đoán.

Đó không chỉ là tin tốt cho các nhà khoa học dữ liệu sử dụng Google. Điều này cũng tốt cho các nhà khai thác kinh doanh quan tâm đến việc nâng cao khả năng phân tích dữ liệu của họ vì nó bổ sung thêm một đối thủ cạnh tranh hiệu quả hơn vào một danh sách khá nhỏ các nhà cung cấp có khả năng cung cấp mức độ tinh vi này qua đám mây. Hai tên nổi tiếng khác là Dịch vụ cơ sở dữ liệu quan hệ của Amazon và Azure SQL của Microsoft và bạn có thể tìm thấy nhiều hơn trong dịch vụ cơ sở dữ liệu đám mây gần đây của chúng tôi.

Nguyên nhân của tất cả các nhà cung cấp và người mua sản phẩm dữ liệu luôn là khoảng cách về kỹ năng. Điều đó đặc biệt đúng đối với những người quan tâm đến ML và phân tích dự đoán, vì các ngành này thường đòi hỏi kiến ​​thức về công nghệ mới và ngôn ngữ truy vấn.

"Đối với mỗi một nhà khoa học dữ liệu, có hàng trăm nhà phân tích làm việc với dữ liệu và hầu hết sử dụng SQL", Sudhir Hasbe, Giám đốc quản lý sản phẩm tại Google Cloud, nói với PCMag. Một cái gì đó phải cung cấp nếu sức mạnh của một đội ngũ các nhà phân tích dữ liệu sẽ được mở ra từ nút thắt được tạo ra bởi quá ít các nhà khoa học dữ liệu làm việc quá sức.

Câu trả lời của Google cho vấn đề nan giải này là không có gì đáng chú ý. Trong khi ML là một xu hướng nóng và xuất hiện trong các loại sản phẩm ở khắp mọi nơi, thì đó vẫn là lãnh thổ khoa học dữ liệu vững chắc. Rất nhiều nhà cung cấp đã đi đầu trong việc đơn giản hóa công nghệ, nhưng sự thật xấu xí là, bạn có thể đơn giản hóa nó rất nhiều và vẫn còn quá khó để hơn 99% dân số sử dụng. Tuy nhiên, chúng ta cần có khả năng sử dụng nó vì ML có thể làm được nhiều hơn và làm nó nhanh hơn một nhóm người siêu thông minh có thể.

Google đang trồng ML bên trong Google BigQuery để nó nằm gần dữ liệu hơn. Ứng dụng sẽ mang lại khả năng ML nhanh hơn các mô hình ML truyền thống một phần vì các phân tích dữ liệu có thể được thực hiện tại nguồn. Hiện đang ở giai đoạn thử nghiệm, BigQuery ML cho phép các nhà phân tích (và nhà khoa học dữ liệu) chạy các phân tích dự đoán như dự báo doanh số và tạo phân khúc khách hàng ngay trên đầu dữ liệu được lưu trữ. Đó là một nâng cấp đáng kính và đáng chú ý.

Tuy nhiên, Google đã đi xa hơn thế bằng cách thêm một khả năng cho phép các nhà phân tích dữ liệu sử dụng các câu lệnh SQL đơn giản để xây dựng và triển khai các mô hình ML. Ngay bây giờ, các tùy chọn là mô hình hồi quy tuyến tính và hồi quy logistic để phân tích dự đoán vì đây là hai mô hình được sử dụng phổ biến nhất.

Đây là một minh họa Google cung cấp để chứng minh các nhà phân tích dữ liệu sẽ sử dụng khả năng này như thế nào:

Google có kế hoạch thêm nhiều tùy chọn ML cho khả năng này theo thời gian, theo Hasbe. "Chúng tôi cần nghe ý kiến ​​từ khách hàng về những mô hình mà họ muốn chúng tôi thêm vào để chúng tôi cung cấp những mô hình hữu ích nhất trước tiên", ông nói.

Nâng cấp Google BigQuery bổ sung

Đứng đầu danh sách nâng cấp đáng kể sau ML là khả năng phân cụm, Hệ thống thông tin địa lý BigQuery (BigQuery GIS), trình kết nối dữ liệu Google Sheets mới và trình kết nối dữ liệu Google Sheets mới.

Phân cụm cũng đang trong giai đoạn thử nghiệm và cho phép tạo các bảng phân cụm trong một động thái tối ưu hóa dữ liệu kết hợp các hàng với các khóa cụm tương tự lại với nhau. Điều này giúp giảm chi phí vì nó cải thiện hiệu suất và cho phép Google BigQuery chỉ tính phí người dùng cho dữ liệu được quét chứ không phải toàn bộ bảng hoặc phân vùng.

BigQuery GIS hiện đang ở dạng alpha và được sử dụng để phân tích dữ liệu không gian địa lý. Trong khi nhóm Google Cloud hợp tác với Google Earth Engine để xây dựng BigQuery GIS, bạn phải mang dữ liệu không gian địa lý của riêng mình vào bảng. Đó không phải là vấn đề trong và trên một số ngành công nghiệp, bao gồm các hệ thống xe hơi được kết nối, Internet vạn vật (IoT), sản xuất, bán lẻ, thành phố thông minh và viễn thông. Không đề cập đến các cơ quan chính phủ, từ Cơ quan Bảo vệ Môi trường (EPA) và Cơ quan Tình báo Không gian Địa lý Quốc gia đến Cơ quan Khí quyển và Đại dương Quốc gia (NOAA) và tất cả các ngành quân sự, tất nhiên.

BigQuery GIS sử dụng thư viện S2, hiện có hơn một tỷ người dùng thông qua nhiều sản phẩm như Google Earth Engine và Google Maps. Nếu bạn cần thêm dữ liệu không gian địa lý, thì chính phủ liên bang sẽ chia sẻ số lượng lớn dữ liệu đó trên GeoPl Platform.

Trình kết nối dữ liệu Google Sheets mới có khả năng làm hài lòng nhiều nhà phân tích dữ liệu đơn giản vì nó rất thiết thực để sử dụng hàng ngày. Bạn có thể truy cập Google BigQuery từ Google Sheets (chương trình bảng tính) và sử dụng các công cụ Google Sheets như Explore, đây là sự cộng tác kết hợp, trực quan hóa dữ liệu và công cụ truy vấn ngôn ngữ tự nhiên.

Google BigQuery hiện cũng có giao diện người dùng (UI) mới ở phiên bản beta. Một trong những yếu tố thú vị hơn là chức năng hiển thị bằng một cú nhấp chuột, mà Google Data Studio hỗ trợ. Tất cả đã nói, đó là một vòng nâng cấp tuyệt vời cho một dịch vụ thanh lịch. Những nâng cấp này sẽ được thử nghiệm trong đợt đánh giá giải pháp Cơ sở dữ liệu (DBaaS) tiếp theo của PCMag, sau khi các lỗi được khắc phục và các sản phẩm đã vượt ra khỏi trạng thái alpha và beta tương ứng.

PCMag EIC Dan Costa thảo luận về tương lai của dữ liệu:
Google đơn giản hóa việc học máy với sql