Trang Chủ Suy nghĩ tiến tới Tại sao máy học là tương lai

Tại sao máy học là tương lai

2024

Mục lục:

Cuộc thi học máy

Video: Uống Rượu Đừng Lái Xe - Bé NGUYỄN HẢI ANH | OFFICIAL MV | Nhạc Thiếu Nhi Hay Nhất 2020 (Tháng mười một 2024)

Tại hội nghị siêu máy tính SC16 tháng này, hai xu hướng nổi bật. Đầu tiên là sự xuất hiện của Xeon Phi (Hiệp sĩ hạ cánh) mới nhất của Intel và Tesla mới nhất của Nvidia (P100 dựa trên Pascal) trong danh sách Top500 máy tính nhanh nhất thế giới; cả hai hệ thống đều nằm trong top 20. Thứ hai là một sự nhấn mạnh lớn về cách các nhà sản xuất chip và hệ thống lấy các khái niệm từ các hệ thống máy học hiện đại và áp dụng chúng cho các siêu máy tính.

Trong bản sửa đổi hiện tại của danh sách Top500, được cập nhật hai lần mỗi năm, đầu bảng xếp hạng vẫn nằm trong tay máy tính Sunway TaihuLight từ Trung tâm siêu máy tính quốc gia của Trung Quốc tại Vô Tích và máy tính Tianhe-2 từ Siêu máy tính quốc gia của Trung Quốc Trung tâm ở Quảng Châu, như đã có từ chương trình ISC16 của tháng Sáu. Không có máy tính nào khác có tổng hiệu năng gần như nhau, với các hệ thống xếp hạng thứ ba và thứ tư vẫn là siêu máy tính Titan tại Oak Ridge và hệ thống Sequoia tại Lawrence Livermore, cả hai đều cung cấp khoảng một nửa hiệu suất của Tianhe-2.

Đầu tiên trong số này dựa trên bộ xử lý độc đáo của Trung Quốc, SW26010 1.45GHz, sử dụng lõi RISC 64 bit. Điều này có 10.649.600 lõi chưa từng có, cung cấp 125, 4 petaflop thông lượng cực đại lý thuyết và 93 petaflop hiệu suất đo tối đa trên điểm chuẩn Linpack, sử dụng công suất 15, 4 Megawatt. Cần lưu ý rằng mặc dù cỗ máy này đứng đầu các bảng xếp hạng về hiệu suất Linpack với một mức chênh lệch lớn, nhưng nó không vượt trội trong các thử nghiệm khác. Có các điểm chuẩn khác như điểm chuẩn liên hợp hiệu suất cao (HPCG), trong đó các máy có xu hướng chỉ nhìn thấy 1 đến 10 phần trăm hiệu suất cao nhất về mặt lý thuyết của chúng và trong trường hợp hệ thống hàng đầu trong trường hợp này, máy Riken K vẫn cung cấp ít hơn hơn 1 petaflop.

Nhưng các bài kiểm tra Linpack là tiêu chuẩn để nói về điện toán hiệu năng cao (HPC) và những gì được sử dụng để tạo danh sách Top500. Sử dụng các bài kiểm tra Linpack, cỗ máy số 2, Tianhe-2, là số 1 trên bảng xếp hạng trong vài năm qua và sử dụng các máy gia tốc Xeon E5 và Xeon Phi (Hiệp sĩ góc) cũ hơn. Điều này cung cấp 54, 9 petaflop hiệu suất cao nhất về mặt lý thuyết và điểm chuẩn ở 33, 8 petaflop trong Linpack. Nhiều nhà quan sát tin rằng lệnh cấm xuất khẩu các phiên bản mới hơn của Xeon Phi (Hiệp sĩ hạ cánh) đã khiến người Trung Quốc tạo ra bộ xử lý siêu máy tính của riêng họ.

Hiệp sĩ hạ cánh, chính thức Xeon Phi 7250, đóng một vai trò lớn trong các hệ thống mới trong danh sách, bắt đầu với siêu máy tính Cori tại Phòng thí nghiệm quốc gia Lawrence Berkeley ở vị trí thứ năm, với hiệu suất cao nhất là 27, 8 petaflop và hiệu suất đo được là 14 petaflop . Đây là hệ thống Cray XC40, sử dụng kết nối Bạch Dương. Lưu ý rằng Hiệp sĩ hạ cánh có thể hoạt động như một bộ xử lý chính, với 68 lõi cho mỗi bộ xử lý cung cấp 3 teraflop đỉnh. (Intel liệt kê một phiên bản chip khác với 72 lõi với 3, 46 teraflop hiệu năng chính xác gấp đôi về mặt lý thuyết trong bảng giá của nó, nhưng không có máy nào trong danh sách sử dụng phiên bản này, có lẽ vì nó đắt hơn và sử dụng nhiều năng lượng hơn.)

Trước đó Xeon Phis chỉ có thể chạy như máy gia tốc trong các hệ thống được điều khiển bởi bộ xử lý Xeon truyền thống. Ở vị trí thứ sáu là hệ thống Oakforest-PACS của Trung tâm liên hợp máy tính hiệu năng cao tiên tiến của Nhật Bản, đạt 24, 9 petaflop đỉnh. Điều này được Fujitsu xây dựng, sử dụng kết nối Omni-Path của Hiệp sĩ hạ cánh và Intel. Hiệp sĩ hạ cánh cũng được sử dụng trong hệ thống số 12 (Máy tính Marconi tại CINECA của Ý, được xây dựng bởi Lenovo và sử dụng Omni-Path) và hệ thống số 33 (Camphor 2 tại Đại học Kyoto của Nhật Bản, được xây dựng bởi Cray và sử dụng Aries kết nối với nhau).

Nvidia cũng được đại diện trong danh sách mới. Hệ thống số 8, Piz Daint tại Trung tâm siêu máy tính quốc gia Thụy Sĩ, đã được nâng cấp thành Cray XC50 với Xeons và Nvidia Tesla P100, và hiện cung cấp chỉ dưới 16 petaflop hiệu suất cao nhất về mặt lý thuyết và 9, 8 petaflop hiệu suất cao của Linpack nâng cấp từ 7, 8 petaflop hiệu năng cao nhất và 6, 3 petaflop hiệu suất Linpack trong lần lặp trước đó dựa trên Cray XC30 với bộ tăng tốc Nvidia K20x.

Hệ thống dựa trên P100 khác trong danh sách là DGX Saturn V của Nvidia, dựa trên hệ thống DGX-1 của chính công ty và kết nối Infiniband, đứng ở vị trí thứ 28 trong danh sách. Lưu ý rằng Nvidia hiện đang bán cả bộ xử lý và thiết bị DGX-1, bao gồm phần mềm và tám chiếc Tesla P100. Hệ thống DGX Saturn V, mà Nvidia sử dụng cho nghiên cứu AI nội bộ, đạt gần 4, 9 petaflop đỉnh và 3, 3 Linpack petaflop. Nhưng những gì Nvidia chỉ ra là nó chỉ sử dụng 350 kilowatt năng lượng, giúp nó tiết kiệm năng lượng hơn nhiều. Do đó, hệ thống này đứng đầu danh sách Green500 về các hệ thống tiết kiệm năng lượng nhất. Nvidia chỉ ra rằng đây là năng lượng ít hơn đáng kể so với hệ thống Camphor 2 dựa trên Xeon Phi, có hiệu suất tương tự (gần 5, 5 petaflops đỉnh và 3, 1 Linpack petaflop).

Đây là một so sánh thú vị, với việc Nvidia chào hàng hiệu quả năng lượng tốt hơn trên GPU và Intel chào mời một mô hình lập trình quen thuộc hơn. Tôi chắc chắn rằng chúng ta sẽ thấy cạnh tranh nhiều hơn trong những năm tới, vì các kiến trúc khác nhau cạnh tranh để xem ai trong số họ sẽ là người đầu tiên tiếp cận "điện toán exascale" hoặc liệu phương pháp trồng tại nhà của Trung Quốc sẽ đến đó thay thế. Hiện tại, Dự án Điện toán Exascale của Bộ Năng lượng Hoa Kỳ dự kiến các máy exascale đầu tiên sẽ được lắp đặt vào năm 2022 và đi vào hoạt động vào năm sau.

Tôi thấy thú vị khi lưu ý rằng mặc dù nhấn mạnh vào các máy gia tốc nhiều lõi như các giải pháp Nvidia Tesla và Intel Xeon Phi, chỉ có 96 hệ thống sử dụng các máy gia tốc như vậy (bao gồm cả những máy sử dụng Xeon Phi một mình); trái ngược với 104 hệ thống một năm trước. Intel tiếp tục là nhà cung cấp chip lớn nhất, với chip của họ trong 462 trong số 500 hệ thống hàng đầu, tiếp theo là bộ xử lý IBM Power trong 22. Hewlett-Packard Enterprise đã tạo ra 140 hệ thống (bao gồm cả các hệ thống được xây dựng bởi Silicon Graphics, do HPE mua lại), Lenovo xây dựng 92 và Cray 56.

Cuộc thi học máy

Có một số thông báo tại hoặc xung quanh chương trình, hầu hết trong số đó xử lý một số dạng trí tuệ nhân tạo hoặc máy học. Nvidia tuyên bố hợp tác với IBM về bộ công cụ phần mềm học sâu mới có tên IBM PowerAI chạy các máy chủ IBM Power sử dụng kết nối NVLink của Nvidia.

AMD, đã từng là một suy nghĩ trong cả môi trường HPC và máy học, đang nỗ lực để thay đổi điều đó. Trong lĩnh vực này, công ty tập trung vào GPU Radeon của riêng mình, đẩy GPU máy chủ FirePro S9300 x2 và tuyên bố hợp tác với Google Cloud Platform để cho phép nó được sử dụng trên đám mây. Nhưng AMD đã không đầu tư nhiều vào phần mềm để lập trình GPU, vì hãng đã nhấn mạnh OpenCL về cách tiếp cận độc quyền hơn của Nvidia. Tại triển lãm, AMD đã giới thiệu một phiên bản mới của Radeon Open Compute Platform (ROCm) và đã lên kế hoạch hỗ trợ GPU của mình trong các kịch bản điện toán không đồng nhất với nhiều CPU, bao gồm CPU "Zen" x86 sắp ra mắt, kiến trúc ARM bắt đầu với ThunderX của Thunderium và kiến trúc ARM. CPU IBM Power 8.

Tại triển lãm, Intel đã nói về một phiên bản mới của chip Xeon E5v4 (Broadwell) hiện tại được điều chỉnh cho khối lượng công việc điểm nổi và cách phiên bản tiếp theo dựa trên nền tảng Skylake sẽ ra mắt vào năm tới. Nhưng trong một sự kiện sau đó vào tuần đó, Intel đã đưa ra một loạt các thông báo được thiết kế để định vị chip của mình trong trí tuệ nhân tạo hoặc không gian học máy. (Đây là của ExtremeTech.) Phần lớn điều này có ý nghĩa đối với điện toán hiệu năng cao, nhưng chủ yếu là riêng biệt. Để bắt đầu, ngoài các bộ xử lý Xeon tiêu chuẩn, công ty cũng đang quảng bá cho các GPU để thực hiện nhiều hoạt động suy luận trong các mạng thần kinh. Đó là một lý do lớn mà công ty gần đây đã mua Altera và các loại GPU như vậy hiện đang được sử dụng bởi các công ty như Microsoft.

Nhưng sự tập trung vào AI tuần trước đã xử lý một số chip mới hơn. Đầu tiên, có Xeon Phi, nơi Intel đã chỉ ra rằng phiên bản Hiệp sĩ hiện tại sẽ được bổ sung vào năm tới với phiên bản mới có tên là Hiệp sĩ Mill, nhằm vào thị trường "học sâu". Được công bố tại IDF, đây là một phiên bản 14nm khác nhưng có hỗ trợ tính toán nửa chính xác, thường được sử dụng trong đào tạo mạng lưới thần kinh. Thật vậy, một trong những lợi thế lớn của các chip Nvidia hiện tại trong việc học sâu là hỗ trợ cho các phép tính nửa chính xác và các phép toán số nguyên 8 bit, mà Nvidia thường gọi là "tera-op" học sâu. Intel cho biết, Hiệp sĩ Mill sẽ cung cấp hiệu suất cao gấp bốn lần so với Hiệp sĩ hạ cánh để học sâu. (Con chip này vẫn được dự kiến sẽ được theo sau bởi phiên bản 10nm có tên Knights Hill, có lẽ nhắm nhiều hơn vào thị trường điện toán hiệu năng cao truyền thống.)

Thú vị nhất cho năm tới là một thiết kế từ Nervana, mà Intel mới mua, sử dụng một loạt các cụm xử lý được thiết kế để thực hiện các phép toán đơn giản được kết nối với bộ nhớ băng thông cao (HBM). Đầu tiên trong gia đình này sẽ là Lake Crest, được thiết kế trước khi Intel mua công ty và sản xuất theo quy trình TSMC 28nm. Do ra mắt trong các phiên bản thử nghiệm trong nửa đầu năm tới, Intel cho biết họ sẽ cung cấp hiệu năng tính toán thô hơn so với GPU. Điều này cuối cùng sẽ được theo sau bởi Hiệp sĩ Huy hiệu, bằng cách nào đó thực hiện công nghệ của Nervana cùng với Xeon, với các chi tiết vẫn chưa được công bố.

"Chúng tôi hy vọng các công nghệ của Nervana sẽ tạo ra hiệu suất tăng gấp 100 lần đột phá trong ba năm tới để đào tạo các mạng lưới thần kinh phức tạp, cho phép các nhà khoa học dữ liệu giải quyết các thách thức AI lớn nhất của họ nhanh hơn", Brian Krzanich, CEO của Intel viết.

Intel gần đây cũng đã công bố kế hoạch mua lại Movidius, điều này khiến cho các chip dựa trên DSP đặc biệt phù hợp với suy luận về thị giác máy tính, một lần nữa đưa ra quyết định dựa trên các mô hình được đào tạo trước đó.

Đó là một câu chuyện phức tạp và đang phát triển, chắc chắn không đơn giản như việc Nvidia thúc đẩy GPU của mình ở khắp mọi nơi. Nhưng điều rõ ràng là tốc độ học máy diễn ra nhanh như thế nào, và nhiều cách khác nhau mà các công ty đang lên kế hoạch giải quyết vấn đề, từ các GPU như của Nvidia và AMD, đến nhiều bộ xử lý x86 lõi như Xeon Phi, cho đến GPU, cho các sản phẩm chuyên dụng để đào tạo như Nervana và TrueNorth của IBM, cho các công cụ suy luận giống như DSP tùy chỉnh như Bộ xử lý kéo căng của Google. Sẽ rất thú vị để xem liệu thị trường có chỗ cho tất cả các phương pháp tiếp cận này hay không.