8 min read

Informatik trifft auf Geisteswissenschaften: Ethik des maschinellen Lernens

Published on

January 7, 2020

Author

Aliz Team

Company

Subscribe to our newsletter

Subscribe

Obwohl ich in einem Technologieunternehmen arbeite, habe ich keinerlei technologischen Hintergrund. Ich habe meinen Abschluss in Linguistik an der Fakultät für Geisteswissenschaften gemacht, was bedeutet, dass ich die Pflichtfächer Philosophie und Ethik belegen musste. Das brachte mich zum Nachdenken: Wie kann ich das alles nutzen? Und dann wurde es mir klar. Es gibt keinen besseren Zeitpunkt, um über die Ethik des maschinellen Lernens (ML) zu sprechen als jetzt. ML breitet sich aus, und so nützlich es auch sein mag, es muss auch mit Vorsicht behandelt werden. Lassen Sie uns sehen, warum.

Maschinelles Lernen - schuldig oder unschuldig?

Ob Sie sich dessen bewusst sind oder nicht, das maschinelle Lernen hat bereits Auswirkungen auf unser tägliches Leben. Wahrscheinlich sind Sie ML schon in irgendeiner Form begegnet. Spotifys Discover Weekly? Die Filmempfehlungen von Netflix? Amazons Buchempfehlungen? Aber was passiert, wenn Sie einen Film sehen, den Netflix Ihnen empfohlen hat, und er Ihnen nicht gefällt? Nun, Sie verlieren ein paar Stunden Ihres Lebens. Das ist ärgerlich, aber nicht weiter schlimm, oder? Aber es gibt einige Bereiche, in denen ML, wenn es schief geht, schwerwiegende Folgen haben kann, die sich auf das Leben der Menschen auswirken können.

Ein berühmt-berüchtigter Fall, in dem ein ML-Algorithmus Entscheidungen mit fragwürdigen Ergebnissen traf, war die Einführung von ML in die Personalprozesse von Amazon. Die Grundidee war, dass der ML-Algorithmus eine Reihe von Lebensläufen prüft und nur die besten Bewerber für die menschliche Bewertung übrig lässt. Nachdem das System einige Zeit im Einsatz war, stellte sich jedoch heraus, dass es anfing, Frauen zu diskriminieren: Ein bestimmter Lebenslauf erhielt Minuspunkte, wenn darin ein rein weiblicher Verein erwähnt wurde oder wenn der Bewerber eine rein weibliche Schule besucht hatte. Im Bereich der Strafjustiz wird die Gesichtserkennung schon seit langem von der Polizei eingesetzt. Jetzt wird ML eingesetzt, um festzustellen, wie wahrscheinlich es ist, dass ein Krimineller wieder straffällig wird. Was ist an all dem falsch? Nun, wenn der Algorithmus eine Person auf der Grundlage einer falschen Eingabe bewertet, kann dies zu einer voreingenommenen Entscheidung führen. Und genau das ist passiert - das System diskriminierte schließlich afroamerikanische Menschen. All diese Beispiele zeigen, dass die Ethik von ML noch nie so wichtig war wie heute, und dass es von entscheidender Bedeutung ist, sie richtig einzusetzen, wenn man sie bei der Entscheidungsfindung verwendet.

Aber wie?

Voreingenommenheit beim maschinellen Lernen

Zunächst einmal müssen Sie sich darüber im Klaren sein, dass maschinelles Lernen oft als "Black Box" bezeichnet wird. Das bedeutet, dass Entwickler und Datenwissenschaftler zwar in der Lage sind, einen Algorithmus zu erstellen, das Innenleben des maschinellen Lernens für uns Menschen jedoch nicht ganz klar ist. Das ist auch der Grund, warum der ML-Bias oder auch Algorithmus-Bias genannt (ein wichtiges Konzept der ML-Ethik) schwer zu verstehen ist. Was wir wissen, ist, dass ML-Voreingenommenheit durch die Sammlung oder Verwendung von Daten entsteht. Ähnlich wie bei der Voreingenommenheit im herkömmlichen Sinne zieht das System im Falle einer Voreingenommenheit ungenaue Schlussfolgerungen auf der Grundlage der von ihm verwendeten Daten. Aber Funktionen und Algorithmen können nicht sexistisch oder rassistisch sein, richtig? Wie kann sich dann trotzdem Voreingenommenheit in das maschinelle Lernen einschleichen? Nun, Maschinen und ML-Algorithmen werden von Menschen entwickelt, die von Natur aus urteilend und voreingenommen sein können. Sehen wir uns nun an, was genau Voreingenommenheit beim maschinellen Lernen ist.

Arten von Verzerrungen und wie man sie loswird

Es gibt viele Klassifizierungsmethoden, wenn es um Verzerrungen beim maschinellen Lernen geht. Der Einfachheit halber werde ich nur die beiden wichtigsten und häufigsten Arten erwähnen. Beide haben unterschiedliche Ursachen, und die Lösung, wie man die beiden Typen verhindern kann, erfordert ebenfalls unterschiedliche Maßnahmen.

TTyp Nr. 1: Der Teufel steckt in den... Daten: Vorbestehende Verzerrungen

Vorbestehende Verzerrungen (oder Datensatzverzerrungen) sind nicht das Ergebnis der Kodierung selbst; sie haben eigentlich nur wenig mit ML-Algorithmen zu tun. Der Sinn von vorbestehenden Verzerrungen ist, dass sie nicht das Ergebnis eines schlechten Systems sind, sondern dass sie unabhängig vom System existieren. Und es ist einfacher, als Sie denken. Ein gängiges Beispiel ist jede Anwendung, bei der man sein Geschlecht auswählen muss und nur männliche oder weibliche Personen zur Verfügung stehen. Ein Teil des Datensatzes fehlt, und das System ignoriert die Tatsache, dass einige Personen sich als etwas anderes als diese beiden Kategorien identifizieren. Ist dies das Ergebnis von schlechtem Code? Nicht wirklich.

Laut Packt ist es wahr, dass "so gut wie jeder Datensatz in irgendeiner Weise "verzerrt" ist", weil die Daten nur eine Darstellung von etwas sind. Was Sie dagegen tun können, ist, dafür zu sorgen, dass Ihre Daten so genau wie möglich sind und das darstellen, was Sie tatsächlich beabsichtigen, so klar wie möglich darzustellen. Außerdem müssen Sie sich des Ausmaßes der Verzerrung bewusst sein und wissen, welche Auswirkungen sie auf Ihren ML-Algorithmus haben kann.

Typ #2: Technische Verzerrungen

Laut Wikipedia schleichen sich technische Verzerrungen über die Grenzen eines "Programms, die Rechenleistung, das Design oder andere Systembeschränkungen" in das System ein. Wenn beispielsweise ein Zufallsgenerator nicht in der Lage ist, echte Zufälligkeit zu erzeugen (was immer noch eine der größten Herausforderungen der Informatik ist), dann können die Ergebnisse auch verzerrt sein. Eine Verzerrung, die auf das Design zurückzuführen ist, tritt beispielsweise bei Suchmaschinen auf, bei denen es nur eine bestimmte Anzahl von Ergebnissen auf einer Seite gibt. Auf diese Weise "bevorzugt" der Algorithmus die oberste Anzahl von Ergebnissen gegenüber den übrigen. Bei der technischen Voreingenommenheit geht es darum, wie der Algorithmus selbst entwickelt wurde oder wie das Modell trainiert wurde. Eine interessante Unterart ist die kontextuelle Verzerrung.

"Er tritt auf, wenn die programmierten Elemente eines Algorithmus den Kontext, in dem er verwendet wird, nicht richtig berücksichtigen. Ein gutes Beispiel ist der Plagiatsprüfer Turnitin - dieser verwendete einen Algorithmus, der darauf trainiert war, Textstrings zu identifizieren, was bedeutete, dass er nicht-englische Muttersprachler den englischsprachigen vorzog, die in der Lage waren, Änderungen vorzunehmen, um eine Entdeckung zu vermeiden." (Packt)

Wie man die Verzerrung beim maschinellen Lernen loswird

Wenn man an einem neuen ML-Modell arbeitet, neigt man dazu, nur an die Implementierung und die Architektur zu denken. Heutzutage ist es jedoch entscheidend, auch die ethischen Implikationen im Auge zu behalten. Die Gesellschaft und die Menschheit verändern sich rasant, und weder die Menschen noch die Technologie sollten ignorieren, wie sich diese Veränderungen auf unser Leben auswirken. Wenn Sie an einem ML-Projekt arbeiten, sollten Sie zuerst diese Punkte berücksichtigen:

Das Ziel des Algorithmus: Was möchten Sie mit Ihrem ML-Algorithmus erreichen? Setzen Sie klare Ziele. Wenn Ihre Ziele zu einfach zu definieren sind, sollten Sie sie vielleicht noch ein wenig weiter ausarbeiten.

Auswirkungen Ihres ML-Modells auf das reale Leben: Hier wird es knifflig, vor allem unter ethischen Gesichtspunkten. Behalten Sie bei der Entwicklung einer Lösung Ihr Ziel im Auge. Das heißt, wie und vor allem warum wollen Sie es einsetzen? Überlegen Sie, was Ihr Algorithmus in der realen Welt erreichen soll.

Beseitigen Sie bereits bestehende Verzerrungen so weit wie möglich: Stellen Sie sicher, dass die Methoden der Datenerfassung und die Daten selbst mit den Zielen des Algorithmus und dem, was Sie mit Ihrer ML-Lösung erreichen wollen, übereinstimmen. Sammeln Sie so viele Daten wie möglich. Überprüfen und dokumentieren Sie alles während der Datenerfassung, um Verzerrungen so weit wie möglich auszuschließen.

Ein Beispiel für eine Technik zur Beseitigung von Verzerrungen wurde in einem Papier von Google vorgestellt: Sie schlagen vor, dass ein verzerrter Datensatz als ein unvoreingenommener Datensatz betrachtet werden sollte, der von einem voreingenommenen Agenten manipuliert wurde. Die Technik hilft dabei, die Daten neu zu bewerten, um sie an einen (theoretisch) unverzerrten Datensatz anzupassen. Erst dann werden sie in den ML-Algorithmus eingespeist.

"Die Technik erzielt Spitzenergebnisse in mehreren gängigen Fairness-Tests und weist dabei relativ niedrige Fehlerquoten auf.

Maschinelles Lernen: Wer ist dafür verantwortlich?

OK, nehmen wir einmal an, dass es Ihnen gelungen ist, ein ML-System zu entwickeln, das in keiner Weise voreingenommen ist. Was nun? Sie müssen auch an die Zukunft denken. Es besteht immer noch die Möglichkeit, dass die Maschine beim "Lernen" Merkmale aufgreift, anhand derer sie beginnt, Daten (oder auch Menschen) zu unterscheiden. Chief Executive hat dafür einen schönen Begriff eingeführt: das Konzept des 13. Es beruht auf der Idee, dass nach langen Tests und Optimierungen einer ML-Lösung, wenn man das System in die Praxis umsetzt (am ersten Tag), alle zufrieden sind und der Job erledigt ist. Und genau da kann man sich gewaltig irren. Betrachten Sie stattdessen Ihre Lösung an Tag 13. Läuft sie noch? Funktioniert sie so, wie sie soll? Das sind die Fragen, auf die Sie und Ihr Team sich konzentrieren müssen, und zwar nicht nur am Tag der Veröffentlichung selbst. Der Schlüssel zu einer erfolgreichen Machine Learning-Lösung ist nicht, dass sie am ersten Tag perfekt ist. Vielmehr müssen Sie sicherstellen, dass sie auch am 13. Tag (oder am 406. Tag oder an welchem Tag auch immer - der Sinn des Konzepts ist, dass die seit der Veröffentlichung vergangene Zeit keinerlei Bedeutung hat) noch perfekt ist.

Ethik des maschinellen Lernens in der realen Welt

Wie Sie aus den genannten Beispielen ersehen können, können Sie selbst mit den besten Absichten einen Algorithmus erstellen, der in irgendeiner Weise voreingenommen sein wird. Und selbst wenn man die Voreingenommenheit von ML nicht im Keim ersticken kann, gibt es Möglichkeiten, das System kontinuierlich zu verbessern und dennoch eine ML-Lösung zu entwickeln, die Ihre Daten auf angemessene Weise darstellt und genau die richtigen Informationen im richtigen Format erhält, ohne dass es zu Problemen bei der Beurteilung kommt. Ethik in der ML ist ein hochinteressantes (und scheinbar schwer zu erfassendes) interdisziplinäres Gebiet. Aber wenn man die Grundlagen erst einmal richtig verstanden hat, braucht man keine Angst vor der Technologie zu haben. Sie wurde entwickelt, um den Menschen zu helfen - und das kann sie, und das tut sie auch. ML-Ethik wird zu einem Thema, wenn ein Algorithmus auf die "echte Welt" losgelassen wird. Erst wenn man bereit ist, mit ihm Schritt zu halten, ist die Arbeit getan.

Author

Aliz Team

Company

Subscribe to our newsletter

Subscribe

New opportunities with cloud solutions!

‍Aliz is a proud Google Cloud Partner with specializations in Infrastructure, Data Analytics, Cloud Migration and Machine Learning. We deliver data analytics, machine learning, and infrastructure solutions, off the shelf, or custom-built on GCP using an agile, holistic approach.

Let's talk!