Video: Dùng Siri chuyên nghiệp kể cả không biết tiếng Anh (Tháng mười một 2024)
Các trợ lý thông minh, Sir Siri, Google Now, Cortana và những người tương tự đã đi từ sự tò mò và mánh khóe chỉ vài năm trước đến các công cụ thiết yếu mà nhiều người sử dụng trong cuộc sống hàng ngày. Tuần trước, tôi đã bỏ qua Hội nghị Trợ lý Thông minh ở New York, do Opus Research trình bày và rất ấn tượng với tiến bộ mà phần mềm đang tạo ra trong nhiều ngành công nghiệp, bao gồm tiến trình của các công ty tài chính, bảo hiểm và y tế trong việc xây dựng các đại lý cụ thể .
Người sáng lập Opus Research Dan Miller giải thích rằng nhiều công nghệ cốt lõi, như nhận dạng giọng nói, đã tồn tại hơn 20 năm. Mặc dù gần đây ông đã nhìn thấy một số cải tiến lớn, thay vì một cuộc cách mạng, ông nói "chúng tôi đang trên con đường tiến hóa", với rất nhiều sản phẩm liên tục với các khả năng khác nhau. Ông lưu ý rằng có hàng trăm trợ lý thông minh doanh nghiệp có thể được sử dụng cho một cuộc trò chuyện dựa trên văn bản đơn giản bằng tiếng Anh đơn giản bằng cách sử dụng một bộ dữ liệu cố định và cho những việc như điều hướng một trang web hoặc Câu hỏi thường gặp. Ở phía bên kia của quang phổ, có lẽ chỉ có vài chục "ứng dụng cảm động, cảm giác con người" mang tính đối thoại và nhận thức ngữ cảnh nhiều hơn.
Miller chỉ vào các ứng dụng đã giành giải thưởng tại hội nghị. Julie của Amtrak khởi đầu là một đại lý dịch vụ điện thoại phản hồi bằng giọng nói tương tác từ nhiều năm trước, nhưng giờ đây đã phát triển thành một đại lý hoạt động trên trang web để hướng dẫn khách du lịch thông qua Amtrak.com, dựa trên một đại lý từ Next IT. Telefonica Mexico có một đại lý tên là Nico có hình đại diện và cũng cung cấp hỗ trợ qua Twitter và Facebook, dựa trên nền tảng của AgentBot. ING Hà Lan có Inge, một ứng dụng cho phép bạn kiểm tra số dư tài khoản ngân hàng hoặc chuyển tiền qua giọng nói, sử dụng công nghệ sinh trắc học giọng nói từ Nuance, để xác thực danh tính của bạn.
Những đề cập đáng trân trọng bao gồm các ứng dụng chăm sóc sức khỏe, chẳng hạn như một ứng dụng giúp bạn chọn một chương trình chăm sóc sức khỏe. Các ứng dụng khác mà tôi đã nghe nói tại triển lãm bao gồm Pizza của Domino, có ứng dụng có tên là Dom cho phép bạn sử dụng giọng nói để đặt bánh pizza; và BMW, công ty có một đại lý ảo là một phần của nhánh tài chính tự động Up2drive.
Brett Beraneck của Nuance đã nói về việc những tiến bộ trong mạng lưới thần kinh học tập sâu đã cải thiện những thứ như hiểu ngôn ngữ tự nhiên cũng như nhận dạng giọng nói, và làm thế nào điều này hiện đang kết hợp với nhau để tạo ra nhiều sự quan tâm hơn trong lĩnh vực này. Trợ lý Nina của Nuance là một ví dụ ban đầu, và kể từ đó, nó đã phát triển thành rất nhiều ứng dụng cụ thể, từ hệ thống phản hồi bằng giọng nói tương tác tại các công ty bảo hiểm đến ứng dụng mua sắm. Mỗi ứng dụng này có một tính cách khác nhau, tùy thuộc vào những gì nó đang cố gắng giúp bạn làm.
Một tính năng mới mà anh ấy đã thảo luận là sinh trắc học bằng giọng nói, trong đó giọng nói của bạn thay thế mật khẩu. Ông nói về cách các công ty như ING ở châu Âu đang phát triển các đại lý không chỉ sử dụng nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên mà còn bắt đầu sử dụng giọng nói để nhận ra người đang gọi. Ông nói rằng điều này vừa an toàn và tự nhiên hơn mật khẩu truyền thống.
Trong khi các nghiên cứu gần đây lo lắng rằng ghi âm giọng nói có thể đánh lừa các hệ thống như vậy, Nuance lưu ý rằng công nghệ ngày nay bao gồm các tính năng nhằm thu nhận sự bất thường từ giọng nói được ghi lại và chỉ ra các nghiên cứu khác có quan điểm khác. Ngoài ra, ông cho biết, các nhà thiết kế có thể sử dụng các mức sinh trắc học giọng nói khác nhau cho các chức năng khác nhau, chẳng hạn như sử dụng nhận dạng đơn giản để kiểm tra số dư tài khoản hoặc yêu cầu bạn lặp lại một chuỗi từ ngẫu nhiên để chuyển tiền đáng kể.
Sinh trắc học giọng nói dường như chắc chắn sẽ đạt được một chút lực kéo. Tại Hội nghị chuyên đề Gartner tuần trước, một phiên về "các trường hợp khách hàng tuyệt vời" trong các dịch vụ tài chính bao gồm một ứng dụng Citibank sử dụng tính năng này.
MyWave có một trợ lý tên là Frank có nghĩa là được nhiều doanh nghiệp kích hoạt để cho phép bạn tương tác với họ theo cách trò chuyện hơn, thay vì để mỗi doanh nghiệp tự phát triển. Việc sử dụng đầu tiên bao gồm một ngân hàng New Zealand và một ứng dụng có tên Saveawatt được thiết kế để giúp bạn chọn nhà cung cấp điện.
CEO Geraldine McBride giải thích rằng công ty đang cố gắng tạo ra các trợ lý để thu hẹp khoảng cách giữa khách hàng và ứng dụng dịch vụ, với cái gọi là "mối quan hệ do khách hàng quản lý" hoặc CMR, một sự quay vòng trên các ứng dụng CRM truyền thống. Một sự khác biệt lớn, cô nói, là khách hàng chịu trách nhiệm về tất cả dữ liệu của mình, chứ không phải là doanh nghiệp.
Một công ty tương đối mới, Expect Labs có một sản phẩm có tên MindMeld hoạt động như một phần phụ trợ cho một số công ty muốn cung cấp giao diện giọng nói để thay thế giao diện truyền thống và xử lý các câu hỏi và câu trả lời. Điều này có thể được sử dụng cho nhiều ứng dụng, chẳng hạn như xem chương trình TV bằng cách chỉ hỏi tên và truy vấn hệ thống nhiều hệ thống. (Fire TV của Amazon có một số tính năng này, nhưng không được tích hợp với hộp set-top cáp của bạn, trong khi một trong những nhà đầu tư trong Expect Labs là công ty cáp Liberty Global.)
CEO Tim T Ink giải thích rằng MindMeld có xu hướng sử dụng nhận dạng giọng nói đã có sẵn trong hầu hết các thiết bị và thay vào đó tập trung vào hiểu ngôn ngữ tự nhiên và xây dựng một biểu đồ kiến thức về thông tin có sẵn. Ông cho biết công ty đang cố gắng mở rộng hệ thống để bao gồm nhiều thông tin hơn từ nhiều nguồn và phá vỡ hệ thống phân cấp của các loại thông tin khác nhau là một phần của hầu hết các hệ thống như vậy. Thực sự hiểu câu hỏi có nghĩa là có thể hiểu ý định trên một loạt các loại, ông nói.
Một điều tôi nghe được từ một số người tham dự là số liệu thống kê cho thấy khoảng 10 phần trăm tất cả các tìm kiếm trên web hiện được thực hiện thông qua các nhân viên tình báo. (Nhà tiên phong về AI Andrew Ng cho biết điều này đúng với tìm kiếm bằng giọng nói tại Yahoo năm ngoái và một số người nói điều này cũng đúng với Google, nhưng tôi chưa nghe thấy bất kỳ xác nhận trực tiếp nào.)
Nhìn về phía trước, Miller của Opus Research cho biết vẫn còn nhiều việc phải làm. Độ chính xác cơ bản của các hệ thống có rất nhiều chỗ để cải thiện, đặc biệt là trong việc chuyển từ những gì bạn nói sang những gì bạn muốn làm để làm kết quả. Ông đã đề cập đến một cuộc nói chuyện từ Giám đốc điều hành Xerox PARC, Stephen Hoover tại hội nghị, người nói rằng các hệ thống ngày nay đã chính xác đến 90% để hiểu ý của chúng tôi, nhưng 10% đó vẫn là một vấn đề bởi vì đó là điều mà hầu hết mọi người nhớ khi giao dịch hệ thống. Và Miller cho biết có chỗ để cá nhân hóa tốt hơn, bởi vì nếu hệ thống biết ai đang nói chuyện với nó, nó có thể cho kết quả tốt hơn. Chẳng hạn, ông lưu ý rằng Facebook biết ai đang sử dụng hệ thống vì bạn đã đăng nhập; và nói rằng liên tục làm điều này với nhiều tác nhân sẽ trở nên quan trọng hơn.
Đây chắc chắn là một thể loại hấp dẫn và tôi hy vọng tất cả chúng ta sẽ dành nhiều thời gian hơn để nói chuyện với điện thoại và máy tính của chúng tôi và tương tác với các tác nhân không hoàn toàn giống con người. Tôi thấy đây là một trong những xu hướng hấp dẫn nhất trong điện toán ngày nay.