Trang Chủ Suy nghĩ tiến tới Chip nóng: học máy chiếm sân khấu trung tâm

Chip nóng: học máy chiếm sân khấu trung tâm

2024

Video: LEGO Jurassic World - All Dinosaur Chase Sequences (Indominus Rex, T. Rex, etc) (Tháng Chín 2024)

Chủ đề nóng nhất trong điện toán ngày nay là học máy, và điều đó chắc chắn có thể nhìn thấy ở phía phần cứng. Trong những tuần gần đây, chúng tôi đã nghe rất nhiều về các chip mới được thiết kế để học sâu, từ Tesla P100 và Drive PX 2 của Nvidia đến Bộ xử lý kéo căng của Google cho đến Xeon Phi của Intel. Vì vậy, không có gì đáng ngạc nhiên khi tại hội nghị Hot Chips tuần trước, chúng tôi đã nghe từ một số công ty khác nhau với một số cách tiếp cận rất khác nhau để thiết kế phù hợp với học máy và xử lý tầm nhìn.

Có lẽ tin tức lớn nhất là tiết lộ chi tiết hơn về chip Parker của Nvidia, được sử dụng trong mô-đun Drive PX 2 cho xe tự lái và nhằm mục đích học sâu cho các máy tự trị. Con chip này sử dụng hai lõi CPU Denver tương thích ARM được xây dựng tùy chỉnh, bốn lõi ARM Cortex-A57 và 256 trong số những gì Nvidia gọi là lõi Pascal CUDA (đồ họa).

Nvidia cho biết đây là con chip đầu tiên được thiết kế và đánh giá sử dụng cho ô tô, với các tính năng phục hồi đặc biệt, và nói về tốc độ và bộ nhớ nhanh hơn, lưu ý rằng lõi Denver cung cấp một sự cải thiện đáng kể về hiệu suất trên mỗi watt. Trong số các tính năng mới là ảo hóa có hỗ trợ phần cứng, có tới 8 VMS để cho phép tích hợp các tính năng của xe hơi thường được thực hiện trên các máy tính riêng biệt. Nhìn chung, công ty cho biết mô hình Drive PX 2 có thể có hai trong số các chip Parker này và hai GPU rời, với tổng hiệu suất 8 teraflop (độ chính xác kép) hoặc 24 hoạt động học sâu (8 bit hoặc chính xác một nửa.) công ty bao gồm các điểm chuẩn so sánh thuận lợi với xử lý di động hiện tại bằng cách sử dụng SpecInt_2000, một điểm chuẩn tương đối cũ. Nhưng hiệu suất có vẻ ấn tượng và gần đây Volvo cho biết họ sẽ sử dụng nó để thử nghiệm các phương tiện tự trị bắt đầu vào năm tới.

Tất nhiên, có nhiều cách tiếp cận khác.

Công ty khởi nghiệp Trung Quốc DeePhi đã thảo luận về một nền tảng dựa trên nền tảng đồ họa cho các mạng thần kinh, với hai kiến trúc khác nhau tùy thuộc vào loại mạng liên quan. Aristotle được thiết kế cho các mạng thần kinh tích chập tương đối nhỏ và dựa trên Xilinx Zynq 7000, trong khi Descartes được thiết kế cho các mạng thần kinh tái phát lớn hơn sử dụng bộ nhớ ngắn hạn (RNN-LSTM), dựa trên Kintex Ultrascale FPGA. DeePhi tuyên bố rằng trình biên dịch và kiến trúc của nó đã cắt giảm thời gian phát triển so với hầu hết việc sử dụng các GPU và cũng như việc sử dụng một FPGA có thể mang lại hiệu năng tốt hơn các giải pháp Tegra K1 và K40 của Nvidia.

Một cách tiếp cận khác là sử dụng bộ xử lý tín hiệu số hoặc DSP, thường thực hiện một chức năng cụ thể hoặc một bộ chức năng nhỏ rất nhanh, sử dụng rất ít năng lượng. Thông thường chúng được nhúng vào các chip khác, phức tạp hơn để tăng tốc các chức năng nhất định, chẳng hạn như xử lý tầm nhìn. Một số công ty, bao gồm Movidius, CEVA và Cadence đã chia sẻ các giải pháp của họ tại Hot Chips.

Movidius đang trình diễn giải pháp dựa trên DSP được gọi là bộ xử lý tầm nhìn My Vô 2 và đã được trưng bày trong máy bay không người lái DJI Phantom 4. Nó cũng cho thấy My Vô 2 vượt trội so với GPU và mạng lưới thần kinh sâu GoogLeNet được sử dụng trong cuộc thi ImageNet 2014.

CEVA đang quảng bá CEVA-XM4 Vision DSP, được điều chỉnh cụ thể để xử lý tầm nhìn và nhắm vào thị trường ô tô, cùng với nền tảng CEVA Deep Neural Network 2, mà hãng cho biết có thể lấy bất cứ thứ gì được viết cho các khung Caffe hoặc TensorFlow và tối ưu hóa nó để chạy trên DSP của nó. Bộ xử lý mới sẽ có trong SoC vào năm tới.

Trong khi đó, Cadence, nhà sản xuất bộ xử lý thị giác của Tensilica (có thể nhúng vào các sản phẩm khác), đã thảo luận về phiên bản mới nhất của nó, Vision P6, đã bổ sung các tính năng mới như hỗ trợ điểm nổi vector và các tính năng khác cho mạng thần kinh tích chập . Các sản phẩm đầu tiên sẽ được ra mắt trong thời gian ngắn.

Microsoft đã nói về các chi tiết của phần cứng cho tai nghe HoloLens của họ, cho biết họ đã sử dụng bộ xử lý Intel Atom Cherry Trail 14nm chạy Windows 10 và trung tâm cảm biến Hologpson Xử lý tùy chỉnh (HPU 1.0), do TSMC sản xuất trên quy trình 28nm. Điều này bao gồm 24 lõi DSP Tensilica.

Tôi đặc biệt được thực hiện bởi một trong các slide của Cadence cho thấy sự khác biệt về thông lượng và hiệu quả của GPU, GPU và các loại DSP khác nhau về hoạt động thêm nhiều lần, một trong những khối xây dựng chính cho mạng thần kinh. Mặc dù rõ ràng là tự phục vụ (như tất cả các bài thuyết trình của nhà cung cấp), nó đã chỉ ra các kỹ thuật khác nhau khác nhau về tốc độ và hiệu quả (hiệu suất trên mỗi watt), chưa kể đến chi phí và dễ lập trình. Có rất nhiều giải pháp cho các cách tiếp cận khác nhau ở đây, và sẽ rất thú vị để xem điều này sẽ thay đổi như thế nào trong vài năm tới.