Trang Chủ Suy nghĩ tiến tới Oracle, nvidia, cánh tay nổi bật với các chip nóng

Oracle, nvidia, cánh tay nổi bật với các chip nóng

2024

Video: Will Nvidia Chips Be Inside Everything? (Tháng mười một 2024)

Mặc dù phần lớn sự phấn khích của chip tuần trước đến từ thông báo Broadwell của Intel, có một số chip khác được thảo luận chi tiết tại hội nghị Hot Chips hàng năm, có xu hướng tập trung chủ yếu vào các chip được thiết kế cho máy chủ và trung tâm dữ liệu.

Chương trình được biết đến với các chip cao cấp, với Intel, Oracle và IBM đều thảo luận về các mục mới nhất của họ, nhưng chỉ Sparc M7 của Oracle là thực sự mới. Thay vào đó, phần lớn chương trình kết thúc tập trung vào các sản phẩm dựa trên ARM, bao gồm các chi tiết đầu tiên về phiên bản 64-bit "Denver" sắp tới của Nvidia của bộ xử lý Tegra K1

Oracle, Intel và IBM Aim High With Server Chips

Trong số các chip cao cấp, tin tức ấn tượng nhất đến từ Oracle, đã thảo luận về thế hệ tiếp theo của bộ xử lý SPARC, được biết đến với M7. Con chip này sẽ có 32 lõi S4 SPARC (mỗi lõi có tới 8 luồng động), bộ nhớ cache L3 64 MB, tám bộ điều khiển bộ nhớ DDR4 (tối đa 2TB cho mỗi bộ xử lý và băng thông bộ nhớ 160 GB / giây với DDR4-2133) và tám bộ tăng tốc phân tích dữ liệu được kết nối qua một mạng trên chip.

Con chip này được tổ chức thành tám cụm với bốn lõi, mỗi lõi có bộ đệm L2 được chia sẻ và bộ đệm L3 8 MB được phân vùng với băng thông hơn 192GBps giữa cụm lõi và bộ đệm L3 cục bộ. So với M6 (chip 28nm với 12 lõi SPARC S3 3, 6 GHz), M7 mang lại hiệu năng tốt hơn 3-3, 5 lần về băng thông bộ nhớ, thông lượng nguyên, OLTP, Java, hệ thống ERP và thông lượng điểm nổi. Stephen Phillips, Giám đốc cấp cao của Kiến trúc SPARC của Oracle, cho biết mục tiêu là tăng chức năng từng bước trong hiệu suất, thay vì tăng dần.

M7 có thể mở rộng tới 8 ổ cắm không cần keo (tối đa 256 lõi, 2.000 luồng và 16TB bộ nhớ) và với công tắc ASIC để quản lý lưu lượng giữa chúng trong cấu hình SMP, tối đa 32 bộ xử lý, do đó bạn có thể kết thúc với hệ thống có 1.024 lõi, 8.192 luồng và bộ nhớ lên tới 64TB. Khá ấn tượng. Oracle cho biết họ cung cấp hiệu suất tốt hơn 3 đến 3, 5 lần trên nhiều thử nghiệm, so với SPARC M6 năm ngoái. Công ty cho biết điều này sẽ được tối ưu hóa cho ngăn xếp phần mềm của riêng Oracle, được sản xuất trên quy trình 20nm và có sẵn trong các hệ thống vào năm tới.

IBM cũng đã cung cấp thêm chi tiết về dòng Power8 của mình, được công bố tại triển lãm năm ngoái. Phiên bản chip đó có 12 lõi, mỗi lõi có tới 8 luồng với 512KB bộ đệm SRAM Cấp 2 trên mỗi lõi (tổng 6 MB L2) và 96 MB DRAM nhúng được chia sẻ dưới dạng bộ đệm cấp 3. Con chip khổng lồ này, có kích thước 650 mm vuông với 4.2 tỷ bóng bán dẫn, được sản xuất theo quy trình SOI 22nm của IBM và bắt đầu giao hàng vào tháng 6, theo IBM.

Vài tháng trước, IBM đã công bố một phiên bản có sáu lõi có kích thước 362 mm ² . Cuộc thảo luận năm nay là về cách IBM có thể kết hợp hai trong số các phiên bản sáu lõi thành một gói duy nhất với 48 làn PCIe Gen 3. IBM cho biết phiên bản hai ổ cắm với tổng số 24 lõi và 192 luồng sẽ vượt trội hơn so với bộ xử lý hai Máy chủ Xeon Ivy Bridge có 24 lõi (với 48 luồng). IBM bán Power chủ yếu ở các thị trường hiệu suất cao và chuyên biệt, vì vậy hầu hết mọi người sẽ không so sánh cả hai, nhưng điều đó thật thú vị. Trong nỗ lực làm cho kiến trúc Power trở nên chủ đạo hơn, năm ngoái, IBM đã công bố Hiệp hội điện mở và năm nay, công ty cho biết họ có một kho phần mềm nguồn mở đầy đủ cho nền tảng. Nhưng cho đến nay, không ai khác ngoài IBM đã công bố một máy chủ dựa trên nền tảng này.

Intel đã nói về "Ivytown", phiên bản máy chủ của Ivy Bridge, bao gồm các phiên bản Xeon E5 được giới thiệu một năm trước và Xeon E7 được giới thiệu vào tháng Hai. Cuộc thảo luận năm nay tập trung vào cách Intel hiện có một kiến trúc có thể bao quát cả hai thị trường, với các chip cho phép tối đa 15 lõi, hai bộ điều khiển bộ nhớ DDR3, ba liên kết QPI và 40 làn PCI Gen 3, được bố trí trong một tầng mô-đun kế hoạch có thể biến thành ba khuôn khác nhau, mỗi khuôn được thiết kế cho các ổ cắm khác nhau, với tổng số hơn 75 biến thể. Điều này có thể được sử dụng trong các máy chủ hai, bốn, và tám ổ cắm mà không có kết nối đặc biệt.

Những con chip này, tất nhiên, chiếm phần lớn số lượng máy chủ mua trong những ngày này, vì Intel chiếm phần lớn các đơn vị máy chủ. Nhưng rất nhiều thông tin đã được đề cập trước đây tại ISSCC và Intel dự kiến sẽ giới thiệu phiên bản tiếp theo của gia đình E5 (E5-1600v3 và E5-2600 v3), dựa trên phiên bản cập nhật sử dụng biến thể của Kiến trúc Haswell gọi là Haswell-EP. (Tuần trước, Dell đã công bố các máy trạm mới dựa trên các chip mới này.)

Intel cũng đã thảo luận về Atom C2000 của mình, được gọi là Avoton, được đưa vào sản xuất vào cuối năm 2013. Chip này và chip Ivy Bridge và Haswell đều dựa trên quy trình 22nm của Intel.

Nvidia, AMD, Micro Aim được áp dụng tại các thị trường mới cho ARM

Bất ngờ lớn nhất của chương trình có lẽ là sự tập trung vào công nghệ dựa trên ARM, bao gồm các chú thích từ loa ARM và chi tiết của Nvidia về phiên bản "Denver" sắp tới của bộ xử lý Tegra K1.

Trong một bài phát biểu, CTO ARM Mike Muller đã thảo luận về các hạn chế về năng lượng trong mọi thứ, từ cảm biến đến máy chủ và tập trung vào cách ARM đang cố gắng mở rộng vào doanh nghiệp. Muller cũng thúc đẩy khái niệm sử dụng chip cảm biến ARM cho Internet of Things, một chủ đề cũng được lặp lại trong một bài phát biểu từ Rob Chandhok của Qualcomm. Nhưng cả hai công ty đều không công bố lõi hoặc bộ xử lý mới.

Thay vào đó, tin tức lớn trên mặt trận đó đến từ Nvidia, đã cung cấp thêm nhiều chi tiết về phiên bản mới của bộ xử lý K1. Khi dự án Denver của công ty lần đầu tiên được công bố, có vẻ như con chip này sẽ nhắm vào thị trường điện toán hiệu năng cao, nhưng giờ đây công ty dường như đã tập trung nhiều hơn vào những thứ như máy tính bảng và thị trường ô tô. Tegra K1 sẽ có hai phiên bản. Đầu tiên, được công bố vào đầu năm nay và hiện đang được vận chuyển trong máy tính bảng Shield của công ty, có bốn lõi ARM Cortex-A15 32 bit cộng với "lõi đồng hành" năng lượng thấp trong cấu hình 4 + 1 mà Nvidia đang sử dụng. dòng Tegra của nó trong vài năm.

Phiên bản Denver khá khác biệt với hai lõi 64 bit độc quyền mới được thiết kế bởi Nvidia và công ty thực sự đang chào mời những hiệu suất mà nó đạt được. Cốt lõi là siêu khối bảy chiều (có nghĩa là nó có thể thực thi đồng thời tới bảy micro-op) và có bộ đệm hướng dẫn L1 bốn chiều 128KB và bộ đệm dữ liệu L1 bốn chiều 64KB. Con chip này kết hợp hai trong số các lõi này, cùng với bộ đệm 2 cấp độ 2 MB phục vụ cả hai lõi, như 192 "lõi CUDA" (lõi đồ họa) mà nó chia sẻ với K1 32 bit. Như vậy, nó đại diện cho một sự khởi đầu lớn từ kiến trúc 4 + 1.

Một thay đổi lớn bao gồm cái mà Nvidia gọi là "tối ưu hóa mã động", được thiết kế để lấy mã ARM được sử dụng thường xuyên và chuyển đổi nó thành mã vi mô được tối ưu hóa đặc biệt cho bộ xử lý. Điều này được lưu trữ trong 128 MB bộ nhớ đệm (khắc khỏi bộ nhớ chính của hệ thống truyền thống). Mục tiêu là cung cấp cho nó hiệu suất của việc thực hiện không theo thứ tự mà không đòi hỏi nhiều sức mạnh như kỹ thuật đó thường sử dụng. Khái niệm này không mới - Transmeta đã thử nó từ nhiều năm trước với chip Crusoe của mình - nhưng Nvidia cho biết điều này giờ đây hoạt động tốt hơn đáng kể.

Nvidia đã cho thấy một số điểm chuẩn, trong đó tuyên bố rằng chip mới có thể đạt hiệu năng cao hơn đáng kể so với CPU di động bốn hoặc tám lõi hiện tại - đặc biệt trích dẫn Snapdragon 800 (MSM8974) của Qualcomm, Apple A7 (đôi khi được gọi là Cyclone) được sử dụng trong iPhone 5s - và thậm chí một số bộ xử lý PC chính thống. Nvidia cho biết họ vượt trội so với bộ xử lý Atom (Bay Trail) và tương tự như bộ xử lý Celeron lõi kép (Haswell) 1, 4 GHz của Intel. Tất nhiên, tôi có xu hướng lấy số hiệu suất của nhà cung cấp bằng một hạt muối: không chỉ các nhà cung cấp chọn điểm chuẩn, không rõ ràng rằng chúng ta đang nói về cùng tốc độ đồng hồ hoặc cùng mức tiêu thụ năng lượng.

Trong khi đó, trong các chip nhắm vào máy chủ nhiều hơn, AMD đã nói nhiều hơn về Opteron A1100 của họ, được gọi là "Seattle", với công ty cho biết họ hiện đang lấy mẫu và sẽ có mặt trong các máy chủ vào cuối năm nay. Con chip này có tám lõi CPU 64 bit Cortex A57; 4 MB bộ đệm L2 và 8 MB bộ đệm L3; hai kênh bộ nhớ cho tối đa 128GB bộ nhớ DDR3 hoặc DDR4 có sửa lỗi; rất nhiều I / O tích hợp (8 làn mỗi PCIe Gen3 và 6Gbps SATA và hai cổng Ethernet 10Gbps); một "bộ xử lý kiểm soát hệ thống" Cortex A5 để khởi động an toàn; và một máy gia tốc để tăng tốc mã hóa và giải mã. Nó được sản xuất trên quy trình 28nm của GlobalFoundries. AMD chưa đưa ra chi tiết về tần số, công suất hoặc hiệu suất của chip, nhưng đã cho thấy một sơ đồ cơ bản của chip. (ở trên)

Ứng dụng Micro từ lâu đã tuyên bố có chip máy chủ ARM đầu tiên trên thị trường, với X-Gene 1 (được gọi là Storm) chứa 8 lõi ARMv8 độc quyền 2.4GHZ, bốn bộ điều khiển bộ nhớ DDR3, PCIe Gen3 và 6Gbps SATA và Ethernet 10Gbps . Điều này hiện đang được sản xuất trên quy trình 40nm của TSMC, công ty cho biết.

Tại Hot Chips, Application Micro đã đẩy thiết kế X-Gene 2 (Shadowcat) của mình, sẽ có sẵn tám hoặc 16 lõi "được tăng cường", chạy ở tốc độ 2, 4 đến 2, 8 GHz và thêm Máy chủ RoCE (RDMA qua Ethernet hội tụ) Bộ điều hợp kênh như một kết nối được thiết kế để cho phép các kết nối có độ trễ thấp giữa các cụm máy vi tính. Điều này được thiết kế để được sử dụng trong các cụm, với một giá đỡ máy chủ duy nhất hỗ trợ tới 6.480 luồng và 50TB bộ nhớ, tất cả đều chia sẻ một nhóm lưu trữ duy nhất. Công ty cho biết X-Gene 2 sẽ cung cấp hiệu suất số nguyên tốt hơn khoảng 60%, hiệu suất gấp đôi trên Memcache và phục vụ Web Apache tốt hơn khoảng 25%. Nó được sản xuất trên quy trình 28nm và hiện đang lấy mẫu.

Ứng dụng Micro cho biết X-Gene 2 lấp đầy khoảng cách giữa các máy siêu nhỏ cạnh tranh (Cavium ThunderX, Intel Atom C2000 "Avoton, " và AMD Opteron A1100 "Seattle") và các máy chủ Xeon kích thước đầy đủ. Nó đã đưa ra một số chi tiết về thế hệ tiếp theo, X-Gene 3 (Skylark), dự kiến sẽ bắt đầu lấy mẫu vào năm tới. Con chip này sẽ có 16 lõi ARMv8 chạy với tốc độ lên đến 3 GHz và sẽ được sản xuất bằng công nghệ FinFet 16nm.