Video: Google Cloud AI Platform Overview (Tháng mười một 2024)
Trong vài tuần qua, đã có một số giới thiệu quan trọng về các nền tảng điện toán mới được thiết kế dành riêng cho hoạt động trên các mạng thần kinh sâu để học máy, bao gồm cả "đám mây TPU" mới của Google và thiết kế Volta mới của Nvidia.
Đối với tôi, đây là xu hướng thú vị nhất trong kiến trúc máy tính, thậm chí còn hơn cả AMD và giờ đây Intel giới thiệu CPU 16 nhân và 18 lõi. Tất nhiên, có những cách tiếp cận khác, nhưng Nvidia và Google xứng đáng nhận được nhiều sự chú ý cho cách tiếp cận độc đáo của họ.
Tại Google I / O, tôi đã thấy nó giới thiệu một "đám mây TPU" (cho Đơn vị xử lý kéo căng, chỉ ra rằng nó được tối ưu hóa cho khung học máy của TensorFlow của Google). TPU thế hệ trước, được giới thiệu tại triển lãm năm ngoái, là một ASIC được thiết kế chủ yếu để suy luận các hoạt động học máy chạy bộ, nhưng phiên bản mới được thiết kế để suy luận và đào tạo các thuật toán như vậy.
Trong một bài báo gần đây, Google đã cung cấp thêm thông tin chi tiết về TPU ban đầu, được mô tả là có chứa ma trận gồm các đơn vị tích lũy nhiều lần 256 (tổng cộng 65.536) với hiệu suất cao nhất là 92 teraops (nghìn tỷ thao tác trên mỗi thứ hai). Nó nhận được hướng dẫn từ CPU chủ qua bus PCIe Gen 3. Google cho biết đây là một bộ chết 28nm nhỏ hơn một nửa so với bộ xử lý Intel Haswell Xeon 22nm và nó vượt trội so với bộ xử lý và bộ xử lý K80 28nm của Nvidia.
Phiên bản mới, được đặt tên là TPU 2.0 hoặc TPU đám mây, (xem ở trên), thực sự chứa bốn bộ xử lý trên bảng và Google cho biết mỗi bảng có khả năng đạt 180 teraflop (180 nghìn tỷ hoạt động điểm nổi mỗi giây). Cũng quan trọng không kém, các bo mạch được thiết kế để hoạt động cùng nhau, sử dụng mạng tốc độ cao tùy chỉnh, do đó chúng hoạt động như một máy tính học siêu máy tính mà Google gọi là "pod pod".
Vỏ TPU này chứa 64 TPU thế hệ thứ hai và cung cấp tới 11, 5 petaflop để tăng tốc độ đào tạo của một mô hình học máy lớn duy nhất. Tại hội nghị, Fei Fei Li, người đứng đầu nghiên cứu AI của Google, nói rằng trong khi một trong những mô hình học tập quy mô lớn của công ty dịch thuật phải mất cả ngày để đào tạo 32 GPU có sẵn trên thị trường tốt nhất, thì giờ đây nó có thể được đào tạo để độ chính xác tương tự trong một buổi chiều bằng cách sử dụng một phần tám của một pod TPU. Đó là một bước nhảy lớn.
Hiểu rằng đây không phải là những hệ thống nhỏ mà một chiếc Pod trông có kích thước tương đương với bốn giá đỡ máy tính thông thường.
Và mỗi bộ xử lý riêng lẻ dường như có các khe tản nhiệt rất lớn, có nghĩa là các bảng không thể được xếp chồng lên nhau quá chặt. Google chưa đưa ra nhiều chi tiết về những gì đã thay đổi trong phiên bản bộ xử lý hoặc kết nối này, nhưng có khả năng điều này cũng dựa trên MAC 8 bit.
Tuần trước, Nvidia đã giới thiệu mục mới nhất của mình trong danh mục này, một con chip khổng lồ được gọi là Telsa V100 Volta, được mô tả là CPU đầu tiên có kiến trúc Volta mới này, được thiết kế cho GPU cao cấp.
N. và là một mảng 4 x 4 có khả năng thực hiện 64 hoạt động FMA (Fuse Multiply-Add) trên mỗi đồng hồ. Nvidia cho biết họ sẽ cung cấp chip trong các máy trạm DGX-1V của mình với 8 bo mạch V100 trong quý thứ ba, sau DGX-1 trước đó của công ty sử dụng kiến trúc P100 trước đó.
Công ty cho biết chiếc hộp trị giá 149.000 USD này sẽ mang lại hiệu suất đào tạo là 960 teraflop, sử dụng 3200 watt. Sau đó, người đầu tiên cho biết, họ sẽ vận chuyển Trạm DGX cá nhân với bốn chiếc V100 và trong quý IV, họ cho biết các nhà cung cấp máy chủ lớn sẽ vận chuyển máy chủ V100.
Con chip này là lần đầu tiên được công bố sử dụng bộ xử lý 12nm của TSMC và nó sẽ là một con chip khổng lồ với 21, 1 tỷ bóng bán dẫn trên khuôn khổ 815 milimet vuông. Nvidia đã trích dẫn cả Microsoft và Amazon là những khách hàng đầu tiên cho chip.
Lưu ý có sự khác biệt lớn giữa các phương pháp này. Google TPU là những con chip thực sự tùy chỉnh, được thiết kế cho các ứng dụng TensorFlow, trong khi Nvidia V100 là một con chip có phần chung hơn, có khả năng toán học khác nhau cho các ứng dụng khác.
Trong khi đó, các nhà cung cấp điện toán đám mây lớn khác đang xem xét các lựa chọn thay thế, trong đó Microsoft sử dụng cả GPU cho đào tạo và mảng cổng lập trình trường (FPGA) để suy luận và cung cấp cả cho khách hàng. Amazon Web Services hiện cung cấp cả phiên bản GPU và GPU cho các nhà phát triển. Và Intel đã và đang thúc đẩy các GPU và một loạt các kỹ thuật khác. Trong khi đó, một số start-up mới đang làm việc theo các phương pháp thay thế.
Theo một số cách, đây là thay đổi mạnh mẽ nhất mà chúng ta đã thấy trong các bộ xử lý máy trạm và máy chủ trong nhiều năm, ít nhất là kể từ khi các nhà phát triển bắt đầu sử dụng "tính toán GPU" vài năm trước. Sẽ thật hấp dẫn khi thấy điều này phát triển.