Trang Chủ Ý kiến Ai là (cũng) một lực lượng tốt | ben Dickson

Ai là (cũng) một lực lượng tốt | ben Dickson

2024

Mục lục:

Làm thế nào Deep Learning tạo ra tiếng nói của con người
Tái tạo giọng nói của một người không có tiếng nói
Cân bằng các công dụng tiêu cực của tổng hợp AI

Video: Phim ngáº¯n kÃªu gá»i cá»ng Äá»ng 'quay lÆ°ng' vá»i sá»«ng tÃª giÃ¡c (Tháng Chín 2024)

Vào năm 2017, Amyotrophic Lateral Sclerosis (ALS), một chứng rối loạn thần kinh tàn khốc, đã cướp đi Pat Quinn, người sáng lập của Ice Xô Challenge nổi tiếng, về khả năng nói.

Năm 2018, trí tuệ nhân tạo đã giúp anh lấy lại.

Nhờ những tiến bộ trong học máy và học sâu, thuật toán trí tuệ nhân tạo đã trở nên rất tốt trong việc bắt chước con người. Nhưng trong khi nhiều phát triển nổi bật trong không gian là tiêu cực, sức mạnh bắt chước của AI là một lực thay đổi tích cực cho Quinn.

"Hầu hết những người sống chung với ALS (còn được gọi là bệnh thần kinh vận động) cuối cùng bị tê liệt và không thể giao tiếp với bất cứ thứ gì ngoại trừ giọng nói 'máy tính' nhân tạo", Oskar Westerdal, đồng sáng lập Project Revoice, một sáng kiến nhằm giúp đỡ các bệnh nhân ALS như Quinn .

Để tái tạo giọng nói của Quinn, Project Revoice đã hợp tác với Lyrebird, một trong số ít các công ty sử dụng AI để sao chép giọng nói của một người, một nhóm cũng bao gồm Google WaveNet và Voicery, một công cụ khởi động được hỗ trợ bởi AI để tạo ra các bản ghi giọng nói tổng hợp .

Làm thế nào Deep Learning tạo ra tiếng nói của con người

Đằng sau những ứng dụng này là các thuật toán học sâu, một nhánh phổ biến của AI sử dụng các bộ dữ liệu lớn để hiểu biết sâu sắc và các mẫu không thể nắm bắt được bằng phần mềm dựa trên quy tắc truyền thống. Khi bạn đào tạo một trình tổng hợp giọng nói học sâu với đủ bản ghi giọng nói, nó sẽ tạo ra một mô hình kỹ thuật số đại diện cho giọng nói của người đó và có thể tạo ra các mẫu giọng nói mới.

Trước sự ra đời của công nghệ tổng hợp giọng nói do AI cung cấp, bệnh nhân ALS đã phải sử dụng giọng nói kỹ thuật số chung không phải của họ. Các công nghệ khác có thể kết hợp các câu được ghi sẵn với giọng nói của bệnh nhân, nhưng kết quả quá giả tạo và cần hàng chục giờ ghi âm giọng nói để được sử dụng tối thiểu.

Mặt khác, các ứng dụng học sâu đòi hỏi ít dữ liệu hơn và cung cấp kết quả tốt hơn. "Những gì Lyrebird có thể đạt được chỉ với một vài giờ âm thanh là điều đáng chú ý. Nó mang đến cho mọi người một bản sao giọng nói kỹ thuật số hoàn chỉnh, vì vậy họ có thể nói bất cứ điều gì họ muốn", Westerdal nói.

Tái tạo giọng nói của một người không có tiếng nói

Một trong những giới hạn của các ứng dụng học sâu là sự phụ thuộc của chúng vào các mẫu dữ liệu chất lượng cao để đào tạo mạng lưới thần kinh của chúng. Vấn đề với bệnh nhân ALS là một khi họ mất giọng, việc ghi lại các mẫu giọng nói là không thể. May mắn thay, Quinn đã có hàng giờ ghi chú và phỏng vấn.

"Thách thức lớn nhất là chất lượng. Công nghệ này hoàn toàn phụ thuộc vào việc có các bản ghi chất lượng cao, nhất quán cũng tuân theo một kịch bản chính xác, vì vậy chúng tôi phải làm việc với một phòng thu âm để 'thủ công' và phiên âm mọi dòng đối thoại mà chúng tôi có thể tìm thấy của Pat, "Westerdal nói.

"Chúng tôi đã có một chút sợ hãi rằng chúng tôi sẽ không thể cung cấp một chất lượng tuyệt vời để tạo ra tiếng nói của Pat", Jose Sotelo, đồng sáng lập của Lyrebird nói. "Vì chúng tôi không thể có được bản ghi sạch, chất lượng cuối cùng của giọng nói nhân tạo là không hoàn hảo. Chúng tôi nghĩ rằng chúng tôi có thể làm tốt hơn nhiều với bản ghi sạch."

Kết quả vẫn có vẻ hơi không tự nhiên và tổng hợp. Nhưng đối với Quinn, người đã sử dụng giọng nói chung để giao tiếp, sự khác biệt là rất lớn. "Sau khi nghe giọng nói của tôi thông qua công nghệ mới này, tôi đã bị thổi bay! Để bệnh nhân biết rằng họ có thể có tiếng nói riêng sau khi ALS lấy đi, nó sẽ thay đổi cách mọi người sống với ALS", ông nói.

Quinn khuyên các bệnh nhân ALS ghi lại giọng nói của họ trước khi quá muộn. "Sau khi nghe lại giọng nói của chính mình, tôi cần bệnh nhân ALS biết ghi âm giọng nói của họ là vô cùng quan trọng", ông nói.

Cân bằng các công dụng tiêu cực của tổng hợp AI

Đầu năm nay, FakeApp, một ứng dụng hoán đổi khuôn mặt được hỗ trợ bởi AI, đã kích hoạt một loạt các video khiêu dâm giả mạo có sự góp mặt của những người nổi tiếng và các chính trị gia. Có lo ngại rằng các ứng dụng như FakeApp và Lyrebird sẽ mở ra một thời đại mới của tin tức giả mạo, lừa đảo và giả mạo.

Trang đạo đức trên trang web của Lyrebird trước đây đã thừa nhận rằng công nghệ này có thể "có thể gây ra hậu quả nguy hiểm như các nhà ngoại giao gây hiểu lầm, lừa đảo và nói chung là bất kỳ vấn đề nào khác do đánh cắp danh tính của người khác."

Để thúc đẩy quan điểm, trang web của công ty có một số bản ghi tổng hợp được tạo ra với giọng nói của Donald Trump và Barack Obama.

@realDonaldTrump https://t.co/N6DRPdEGPT pic.twitter.com/G30DvmQNdk
- Lyrebird AI (@LyrebirdAi) ngày 4 tháng 9 năm 2017

Câu chuyện của Quinn có thể giúp làm sáng tỏ những khía cạnh tích cực của một ngành công nghiệp đã tạo ra những ứng dụng phi thực tế và phi đạo đức cho các ứng dụng của nó. "Điều quan trọng là mọi người nhận ra mặt sáng của công nghệ này", Sotelo của Lyrebird nhắc nhở.

Bên cạnh việc sử dụng y tế, các ứng dụng tổng hợp AI có thể phục vụ các mục tiêu năng suất khác. Voicery đang cung cấp cho các thương hiệu những giọng nói được số hóa tùy chỉnh được cung cấp bởi thuật toán AI. Google cũng đang thử nghiệm với WaveNet để cung cấp trải nghiệm tự nhiên hơn cho người dùng các thiết bị hỗ trợ Google Assistant của Google. Các lĩnh vực khác mà công nghệ này hữu ích bao gồm tự động hóa audiobook hoặc lồng tiếng trong phim dễ dàng hơn nhiều.

Những rào cản về đạo đức và pháp lý sẽ không còn nghi ngờ gì nữa và các cuộc tranh luận sẽ tiếp tục. Nhưng đối với Quinn, AI là một lực lượng tốt. "Tôi không muốn nghe như một máy tính, " anh nói. "Tôi muốn âm thanh như tôi."