Trang Chủ Đặc trưng Trí tuệ nhân tạo có vấn đề sai lệch, và đó là lỗi của chúng tôi

Trí tuệ nhân tạo có vấn đề sai lệch, và đó là lỗi của chúng tôi

2024

Mục lục:

Nguồn gốc của thiên vị thuật toán
Tác động của thiên vị thuật toán
Xóa Bias khỏi thuật toán AI
Độ mờ đục của AI làm phức tạp tính công bằng
Trách nhiệm của con người

Video: Cá»¥c ÄÆ°á»ng thá»§y ÄÃ¬nh chá» 2 cÃ¡n bá» bá» tá» láºp 'quá»¹ Äen' (Tháng Chín 2024)

Năm 2016, các nhà nghiên cứu từ Đại học Boston và Microsoft đã nghiên cứu các thuật toán trí tuệ nhân tạo khi họ phát hiện ra xu hướng phân biệt chủng tộc và phân biệt giới tính trong công nghệ dựa trên một số dịch vụ quan trọng và phổ biến nhất mà chúng ta sử dụng hàng ngày. Sự mặc khải đã đi ngược lại với sự khôn ngoan thông thường rằng trí tuệ nhân tạo không phải chịu những định kiến về giới tính, chủng tộc và văn hóa mà con người chúng ta làm.

Các nhà nghiên cứu đã thực hiện khám phá này trong khi nghiên cứu các thuật toán nhúng từ, một loại AI tìm thấy mối tương quan và liên kết giữa các từ khác nhau bằng cách phân tích các khối văn bản lớn. Ví dụ, một thuật toán nhúng từ được đào tạo có thể hiểu rằng các từ cho hoa có liên quan chặt chẽ đến cảm giác dễ chịu. Ở mức độ thực tế hơn, nhúng từ hiểu rằng thuật ngữ "lập trình máy tính" có liên quan chặt chẽ với "C ++, " "JavaScript" và "phân tích và thiết kế hướng đối tượng". Khi được tích hợp trong ứng dụng quét sơ yếu lý lịch, chức năng này cho phép nhà tuyển dụng tìm được ứng viên đủ điều kiện với ít nỗ lực hơn. Trong các công cụ tìm kiếm, nó có thể cung cấp kết quả tốt hơn bằng cách hiển thị nội dung có liên quan về mặt ngữ nghĩa với thuật ngữ tìm kiếm.

Các nhà nghiên cứu của BU và Microsoft đã phát hiện ra rằng các thuật toán nhúng từ có những thành kiến có vấn đề, mặc dù vậy, chẳng hạn như liên kết "lập trình viên máy tính" với đại từ nam và "người nội trợ" với nữ. Phát hiện của họ, được công bố trong một bài báo nghiên cứu có tiêu đề "Đàn ông là lập trình viên máy tính như phụ nữ là người nội trợ?" là một trong một số báo cáo để làm sáng tỏ huyền thoại về tính trung lập của AI và làm sáng tỏ sự thiên vị thuật toán, một hiện tượng đang đạt đến các chiều quan trọng khi các thuật toán ngày càng liên quan đến các quyết định hàng ngày của chúng ta.

Nguồn gốc của thiên vị thuật toán

Các thuật toán học máy và học sâu là nền tảng của hầu hết các phần mềm hỗ trợ AI hiện đại. Trái ngược với phần mềm truyền thống, hoạt động dựa trên các quy tắc được xác định trước và có thể kiểm chứng, học sâu tạo ra các quy tắc riêng và học bằng ví dụ.

Chẳng hạn, để tạo ra một ứng dụng nhận dạng hình ảnh dựa trên việc học sâu, các lập trình viên "huấn luyện" thuật toán bằng cách cung cấp cho nó dữ liệu được gắn nhãn: trong trường hợp này, ảnh được gắn thẻ với tên của đối tượng mà họ chứa. Khi thuật toán nhập đủ các ví dụ, nó có thể thu thập các mẫu chung trong các dữ liệu được dán nhãn tương tự và sử dụng thông tin đó để phân loại các mẫu không được gắn nhãn.

Cơ chế này cho phép học sâu để thực hiện nhiều nhiệm vụ gần như không thể với phần mềm dựa trên quy tắc. Nhưng nó cũng có nghĩa là phần mềm học sâu có thể thừa hưởng sự thiên vị bí mật hoặc công khai.

Giáo sư Venkatesh Saligrama, giảng viên tại Khoa Kỹ thuật Điện và Máy tính của Đại học Boston, cho biết: "Các thuật toán AI vốn không thiên vị. "Họ có chức năng xác định và sẽ nhận bất kỳ xu hướng nào đã tồn tại trong dữ liệu họ đào tạo."

Các thuật toán nhúng từ được thử nghiệm bởi các nhà nghiên cứu của Đại học Boston đã được đào tạo trên hàng trăm ngàn bài viết từ Google News, Wikipedia và các nguồn trực tuyến khác trong đó các thành kiến xã hội được nhúng sâu. Một ví dụ, do văn hóa bro thống trị ngành công nghệ, các tên nam xuất hiện thường xuyên hơn với các công việc liên quan đến công nghệ, và điều này dẫn đến các thuật toán liên kết nam giới với các công việc như lập trình và kỹ thuật phần mềm.

"Thuật toán không có sức mạnh của tâm trí con người trong việc phân biệt đúng và sai", Tolga Bolukbasi, một sinh viên tiến sĩ năm cuối tại BU nói thêm. Con người có thể đánh giá đạo đức trong hành động của chúng ta, ngay cả khi chúng ta quyết định hành động chống lại các chuẩn mực đạo đức. Nhưng đối với các thuật toán, dữ liệu là yếu tố quyết định cuối cùng.

Saligrama và Bolukbasi không phải là người đầu tiên đưa ra cảnh báo về sự thiên vị này. Các nhà nghiên cứu tại IBM, Microsoft và Đại học Toronto đã nhấn mạnh sự cần thiết phải ngăn chặn sự phân biệt đối xử thuật toán trong một bài báo xuất bản năm 2011. Trước đó, xu hướng thuật toán là một mối quan tâm bí truyền, và học sâu vẫn chưa tìm được đường chính. Tuy nhiên, ngày nay, xu hướng thuật toán đã để lại dấu ấn trong nhiều việc chúng ta làm, chẳng hạn như đọc tin tức, tìm bạn bè, mua sắm trực tuyến và xem video trên Netflix và YouTube.

Tác động của thiên vị thuật toán

Vào năm 2015, Google đã phải xin lỗi sau khi các thuật toán cung cấp năng lượng cho ứng dụng Ảnh của họ gắn thẻ hai người da đen là khỉ đột có lẽ vì tập dữ liệu huấn luyện của họ không có đủ hình ảnh của người da đen. Năm 2016, trong số 44 người chiến thắng trong một cuộc thi sắc đẹp được đánh giá bởi AI, gần như tất cả đều là người da trắng, một số ít là người châu Á và chỉ có một người có làn da tối. Một lần nữa, lý do là thuật toán chủ yếu được đào tạo với hình ảnh của người da trắng.

Google Photos, bạn sẽ vui lên. Bạn tôi không phải là một con khỉ đột. pic.twitter.com/SMkMCsNVX4
- jackyalciné không đáp ứng nhiều ở đây. DM (@jackyalcine) ngày 29 tháng 6 năm 2015

Gần đây, một cuộc thử nghiệm các dịch vụ phân tích khuôn mặt của IBM và Microsoft cho thấy thuật toán của các công ty gần như hoàn hảo trong việc phát hiện giới tính của đàn ông có làn da sáng nhưng thường bị nhầm lẫn khi đưa ra hình ảnh phụ nữ có làn da tối.

Mặc dù những sự cố này có thể gây ra thiệt hại không đáng kể, nhưng các thuật toán AI trong các lĩnh vực quan trọng hơn, chẳng hạn như chăm sóc sức khỏe, thực thi pháp luật và tuyển dụng. Vào năm 2016, một cuộc điều tra của ProPublica đã phát hiện ra rằng phần mềm điều khiển AI của COMPAS, đánh giá nguy cơ tái phạm ở những người phạm tội đã bị thiên vị đối với người da màu. Phát hiện này đặc biệt liên quan vì các thẩm phán ở một số bang sử dụng COMPAS để xác định ai là người tự do và ai ở trong tù.

Trong một trường hợp khác, một nghiên cứu về nền tảng quảng cáo của Google, được cung cấp bởi các thuật toán học sâu, đã phát hiện ra rằng đàn ông được hiển thị quảng cáo cho các công việc lương cao thường xuyên hơn phụ nữ. Một nghiên cứu riêng biệt cho thấy một vấn đề tương tự với quảng cáo việc làm của LinkedIn. Tuy nhiên, một nghiên cứu khác cho thấy các thuật toán tuyển dụng thiên vị có khả năng gửi lời mời phỏng vấn cao hơn 50% cho một người có tên là người Mỹ gốc Âu so với người có tên người Mỹ gốc Phi.

Các lĩnh vực như phê duyệt cho vay, xếp hạng tín dụng và học bổng phải đối mặt với các mối đe dọa tương tự.

Xu hướng thuật toán là đáng lo ngại hơn nữa vì làm thế nào nó có thể khuếch đại các khuynh hướng xã hội. Theo ảo tưởng rằng AI lạnh lùng, tính toán toán học không có thành kiến hay thiên vị, con người có thể có xu hướng tin tưởng vào phán đoán thuật toán mà không đặt câu hỏi.

Trong một cuộc phỏng vấn với Wired UK, giảng viên tội phạm học của Đại học Edinburgh Napier Andrew Wooff đã nhận thấy rằng thế giới trị an "áp lực về thời gian, tốn nhiều tài nguyên" có thể khiến các nhân viên thực thi pháp luật phụ thuộc quá nhiều vào các quyết định thuật toán. "Tôi có thể tưởng tượng một tình huống mà một sĩ quan cảnh sát có thể dựa vào hệ thống nhiều hơn là quá trình ra quyết định của chính họ", ông nói. "Một phần có thể là để bạn có thể biện minh cho một quyết định khi có sự cố xảy ra."

Dựa vào các thuật toán thiên vị sẽ tạo ra một vòng phản hồi: Chúng tôi đưa ra quyết định tạo ra dữ liệu thiên vị hơn mà thuật toán sẽ phân tích và đào tạo trong tương lai.

Điều này đã xảy ra trên các mạng truyền thông xã hội như Facebook và Twitter. Các thuật toán chạy nguồn cấp tin tức tạo ra "bong bóng bộ lọc", hiển thị nội dung phù hợp với sở thích và thành kiến của người dùng. Điều này có thể làm cho họ ít khoan dung hơn đối với các quan điểm đối lập và cũng có thể phân cực hơn nữa xã hội bằng cách lái một cái nêm thông qua sự phân chia chính trị và xã hội.

"Sự thiên vị thuật toán có thể có khả năng ảnh hưởng đến bất kỳ nhóm nào", Jenn Wortman Vaughan, nhà nghiên cứu cao cấp của Microsoft nói. "Các nhóm được trình bày trong dữ liệu có thể đặc biệt có nguy cơ."

Trong các lĩnh vực đã được biết đến là thiên vị, chẳng hạn như sự phân biệt đối xử đặc hữu của ngành công nghệ công nghệ, thuật toán AI có thể làm nổi bật những thành kiến đó và dẫn đến sự ra rìa của các nhóm không được thể hiện tốt.

Sức khỏe là một lĩnh vực quan trọng khác, Wortman chỉ ra. "Nó có thể gây ra vấn đề nghiêm trọng nếu một thuật toán học máy được sử dụng để chẩn đoán y tế được đào tạo về dữ liệu từ một dân số và kết quả là không thể thực hiện tốt trên những người khác", cô nói.

Xu hướng cũng có thể có hại theo những cách tinh tế hơn. "Năm ngoái tôi đã lên kế hoạch đưa con gái đi cắt tóc và tìm kiếm trên mạng những hình ảnh về" cắt tóc trẻ mới biết đi "để lấy cảm hứng", Wortman nói. Nhưng những hình ảnh được trả về là gần như tất cả những đứa trẻ da trắng, chủ yếu là tóc thẳng, và đáng ngạc nhiên hơn, chủ yếu là các bé trai, cô nhận thấy.

Các chuyên gia gọi hiện tượng này là "tác hại đại diện": khi công nghệ củng cố định kiến hoặc giảm bớt các nhóm cụ thể. "Thật khó để định lượng hoặc đo lường tác động chính xác của loại sai lệch này, nhưng điều đó không có nghĩa là nó không quan trọng", Wortman nói.

Xóa Bias khỏi thuật toán AI

Ý nghĩa ngày càng nghiêm trọng của thiên vị AI đã thu hút sự chú ý của một số tổ chức và cơ quan chính phủ, và một số bước tích cực đang được thực hiện để giải quyết các vấn đề đạo đức và xã hội xung quanh việc sử dụng AI trong các lĩnh vực khác nhau.

Microsoft, sản phẩm của họ phụ thuộc nhiều vào thuật toán AI, đã khởi động một dự án nghiên cứu cách đây ba năm có tên là Công bằng, Trách nhiệm, Minh bạch và Đạo đức trong AI (FATE) nhằm mục đích cho phép người dùng tận hưởng những hiểu biết và hiệu quả nâng cao của các dịch vụ do AI cung cấp mà không bị phân biệt đối xử và Thiên kiến.

Trong một số trường hợp, như cuộc thi sắc đẹp được phân xử bằng AI, việc tìm và sửa nguồn gốc của hành vi sai lệch của thuật toán AI có thể dễ dàng như kiểm tra và thay đổi ảnh trong tập dữ liệu đào tạo. Nhưng trong các trường hợp khác, chẳng hạn như các thuật toán nhúng từ mà các nhà nghiên cứu của Đại học Boston đã kiểm tra, sự thiên vị được khắc trong dữ liệu đào tạo theo những cách tinh tế hơn.

Nhóm BU, được tham gia bởi nhà nghiên cứu của Microsoft, Adam Kalai, đã phát triển một phương pháp để phân loại các từ nhúng dựa trên phân loại giới tính của họ và xác định các tương tự có khả năng sai lệch. Nhưng họ đã không đưa ra quyết định cuối cùng và sẽ điều hành mỗi hiệp hội nghi phạm bởi 10 người trên Mechanical Turk, thị trường trực tuyến của Amazon cho các nhiệm vụ liên quan đến dữ liệu, họ sẽ quyết định có nên xóa liên kết đó hay không.

"Chúng tôi không muốn chèn những thành kiến của riêng mình vào quá trình, " Saligrama, giáo sư và nhà nghiên cứu của BU nói. "Chúng tôi chỉ cung cấp các công cụ để khám phá các hiệp hội có vấn đề. Con người đã đưa ra quyết định cuối cùng."

Trong một bài báo gần đây hơn, Kalai và các nhà nghiên cứu khác đã đề xuất sử dụng các thuật toán riêng biệt để phân loại các nhóm người khác nhau thay vì sử dụng các biện pháp tương tự cho mọi người. Phương pháp này có thể chứng minh hiệu quả trong các lĩnh vực nơi dữ liệu hiện có đã được thiên vị cho một nhóm cụ thể. Chẳng hạn, các thuật toán đánh giá ứng viên nữ cho công việc lập trình sẽ sử dụng các tiêu chí phù hợp nhất với nhóm đó thay vì sử dụng tập hợp dữ liệu rộng hơn chịu ảnh hưởng sâu sắc của các xu hướng hiện có.

Wortman của Microsoft coi tính toàn diện trong ngành công nghiệp AI là một bước cần thiết để chống lại sự thiên vị trong các thuật toán. "Nếu chúng tôi muốn các hệ thống AI của chúng tôi hữu ích cho mọi người và không chỉ là một số nhân khẩu học nhất định, thì các công ty cần phải thuê các nhóm khác nhau để làm việc trên AI, " cô nói.

Năm 2006, Wortman đã giúp tìm ra Women in Machine Learning (WiML), tổ chức một hội thảo hàng năm, nơi phụ nữ học tập và làm việc trong ngành AI có thể gặp gỡ, kết nối, trao đổi ý tưởng và tham dự các cuộc thảo luận với phụ nữ cao cấp trong ngành và học viện. Một nỗ lực tương tự là Black in AI mới, được thành lập bởi Timnit Gebru, một nhà nghiên cứu khác của Microsoft, nhằm mục đích xây dựng tài năng đa dạng hơn về AI.

Bolukbasi của Đại học Boston cũng đề xuất thay đổi cách giải thuật của AI. "Các thuật toán sẽ chọn một bộ quy tắc tối đa hóa mục tiêu của chúng. Có thể có nhiều cách để đạt được cùng một tập hợp kết luận cho các cặp đầu ra đầu vào nhất định", ông nói. "Lấy ví dụ về các bài kiểm tra trắc nghiệm cho con người. Người ta có thể đạt được câu trả lời đúng với một quá trình suy nghĩ sai, nhưng vẫn có cùng số điểm. Một bài kiểm tra chất lượng cao nên được thiết kế để giảm thiểu hiệu ứng này, chỉ cho phép những người thực sự Biết các chủ đề để có được điểm chính xác. Làm cho các thuật toán nhận thức được các ràng buộc xã hội có thể được xem như là một ví dụ tương tự với ví dụ này (mặc dù không phải là một chính xác), trong đó việc học một bộ quy tắc sai bị phạt trong mục tiêu. đề tài."

Độ mờ đục của AI làm phức tạp tính công bằng

Một thách thức khác trong cách làm cho thuật toán AI trở nên công bằng hơn là hiện tượng "hộp đen". Trong nhiều trường hợp, các công ty ghen tị bảo vệ thuật toán của họ: Chẳng hạn, Northpointe Inc., nhà sản xuất COMPAS, phần mềm dự đoán tội phạm, đã từ chối tiết lộ thuật toán độc quyền của mình. Những người duy nhất hiểu được hoạt động bên trong của COMPAS là các lập trình viên của nó, chứ không phải các thẩm phán sử dụng nó để vượt qua sự phán xét.

Bên cạnh bí mật của công ty, các thuật toán AI đôi khi trở nên phức tạp đến nỗi những lý do và cơ chế đằng sau quyết định của họ cũng lảng tránh ngay cả những người tạo ra chúng. Tại Anh, cảnh sát Durham sử dụng hệ thống AI HART để xác định liệu nghi phạm có nguy cơ thấp, trung bình hoặc cao có thể phạm tội tiếp theo trong vòng hai năm hay không. Nhưng một đánh giá học thuật năm 2017 của HART đã nhận thấy rằng "độ mờ có vẻ khó tránh". Điều này một phần là do số lượng lớn và sự đa dạng của dữ liệu mà hệ thống sử dụng, điều này gây khó khăn cho việc phân tích lý do đằng sau các quyết định của nó. "Những chi tiết này có thể được cung cấp miễn phí cho công chúng, nhưng sẽ cần một lượng lớn thời gian và nỗ lực để hiểu đầy đủ", tờ báo viết.

Một số công ty và tổ chức đang nỗ lực hàng đầu để mang lại sự minh bạch cho AI, bao gồm Google, công ty đã đưa ra GlassBox, một sáng kiến giúp hành vi của các thuật toán học máy trở nên dễ hiểu hơn mà không làm giảm chất lượng đầu ra. Cơ quan Dự án Nghiên cứu Quốc phòng Tiên tiến (DARPA), giám sát việc sử dụng AI trong quân đội, cũng đang tài trợ cho nỗ lực kích hoạt thuật toán AI để giải thích các quyết định của họ.

Trong các trường hợp khác, sự phán xét của con người sẽ là chìa khóa trong việc đối phó với sự thiên vị. Để ngăn chặn sự thiên vị về chủng tộc và xã hội hiện tại của con người xâm nhập vào các thuật toán của HART, Chương trình Từ vựng của Durham đã cung cấp cho các thành viên của đội ngũ nhân viên của mình các phiên nhận thức về sự thiên vị vô thức. Lực lượng cảnh sát cũng đã thực hiện các bước để loại bỏ các điểm dữ liệu như đặc điểm chủng tộc, có thể tạo ra căn cứ cho các quyết định thiên vị.

Trách nhiệm của con người

Từ một góc nhìn khác, các thuật toán AI có thể cung cấp một cơ hội để phản ánh về những thành kiến và thành kiến của chúng ta. "Thế giới bị thiên vị, dữ liệu lịch sử bị sai lệch, do đó không có gì đáng ngạc nhiên khi chúng tôi nhận được kết quả thiên vị", Sandra Wachter, nhà nghiên cứu về đạo đức dữ liệu và thuật toán tại Đại học Oxford, nói với The Guardian .

Wachter là một phần của nhóm nghiên cứu từ Viện Alan Turing ở London và Đại học Oxford, đã xuất bản một bài báo kêu gọi các quy định và tổ chức để điều tra sự phân biệt đối xử có thể bằng thuật toán AI.

Cũng nói với The Guardian, Joanna Bryson, một nhà khoa học máy tính tại Đại học Bath và là đồng tác giả của một bài nghiên cứu về thiên kiến thuật toán, nói: "Rất nhiều người đang nói rằng AI bị định kiến. Không. Điều này cho thấy chúng ta 'định kiến và AI đang học nó. "

Vào năm 2016, Microsoft đã ra mắt Tay, một bot Twitter được cho là học hỏi từ con người và tham gia vào các cuộc trò chuyện thông minh. Nhưng trong vòng 24 giờ kể từ khi ra mắt của Tay, Microsoft đã phải đóng cửa nó sau khi họ bắt đầu đưa ra những bình luận phân biệt chủng tộc, thứ mà họ đã chọn từ các cuộc trò chuyện với người dùng Twitter. Có lẽ đây là một lời nhắc nhở rằng đã qua thời gian mà con người chúng ta thừa nhận vai trò của chính chúng ta trong việc thể hiện và truyền bá hiện tượng thiên vị thuật toán và thực hiện các bước tập thể để hoàn tác các tác động của nó.

"Đây là một nhiệm vụ rất phức tạp, nhưng đó là trách nhiệm mà xã hội chúng ta không nên né tránh", Wachter nói.