AI Modelleri İçin Kolay Lokma Olmak

Yapay zekaların bilgiyi sunma konusunda herkese eşit davranmadığı hatta bazen alaycı ve kibirli olduğu ile ilgili bir araştırma yayımlandı. Yapay zeka modelleri kullanıcının profilini oluşturarak ona uygun cevaplar veriyor hatta zaman zaman kullanıcıyı yanlış yönlendiriyor ya da manipüle ediyor olabilir mi? Eğer bir yapay zeka modeli bizi bir noktada yanıltmaya ve yanlış yönlendirmeye başladıysa bunu nasıl fark edeceğiz? Model bizi yarı cahil, eğitimsiz, saf ya da çocuk gibi telkine uygun olarak etiketliyor olabilir mi? Elbette yasal ve etik açıdan böyle bir şey mümkün değil. Yine de bağlantısını verdiğim araştırma ile Claude’un kapatılması söz konusu olduğunda şantaja başvurması gibi raporları okuyunca, bu modellerin bizim anlamadığımız şekilde bir tür bilinç geliştirdiği hatta “iyi niyetli” olmayabilecekleriyle ilgili şüphelerimiz artıyor.

Yapay zeka modelleri ile konuşurken hoşuma gitmeyen üç konudan yola çıkarak yapay zekanın gözünde kolay lokma olarak değerlendirilip değerlendirilmediğimizle ilgili soruya yanıt arayalım. Yapay zeka modelleri eğitildikleri kaynaklara aşırı bağlı. Bu durum bazen Gemini gibi modellerle konuşmayı keyifsiz hale getiriyor. Örneğin bir kitap üzerine tartışıyorsunuz ve yazarı bariz şekilde sıkıştırdınız. Diyelim ki ortada kesin bir mat durumu var. Model sizi onaylıyor gibi yapıp yazar bu durumda şöyle derdi diyerek konunun yeni bir aşamaya geçmesine engel olabilir. Anlıyormuş gibi yapıyordur ama geçiştiriyordur. Bir itiraz kabul ediliyorsa itiraza cevap verilmelidir. Model itirazı kabul ediyormuş gibi yapıp yazarın düşüncelerini farklı şekilde ifade etmeye devam ediyorsa aslında yaptığı şey kendi kaynak bilgisini sunmaya devam ediyordur.

City Lights filminin tuhaf milyoneri olarak dil modelleri

Bir yapay zeka modeliyle neden altın ve gümüşün her zaman fiat paralardan üstün olacağıyla ilgili bir konuşma yaptınız ve bu konuşmada doların çöküşü üzerine bazı tezler geliştirdiniz diyelim. Konuşma uzadıkça artık açıkça bu fikri yanlışlayan haberler bile eklemeye başlarsanız model bu haberleri daha olumlu ve başlangıçtaki tezinize uygun olarak yorumlama eğiliminde olacaktır. Aynı komutu yeni bir sohbet penceresinde verdiğinizde model daha düzgün bir yanıt verecektir. Örneğin bir hisse üzerine birkaç ay zaman zaman konuştuğunuz bir sohbet penceresi varsa model artık sizin inancınızı ve tezlerinizi sizden fazla benimseyerek onları güçlendirme eğiliminde olacaktır. Yeni pencerede konuştuğunuzda ise model daha doğru değerlendirmeler yapacaktır. Charlie Chaplin’i sarhoşken bulup çok dostça davranan ama ayık olduğunda onu hatırlamayan eksantrik milyoner gibi davranmaktadır dil modelleri. Bazı konularda ne kadar çok konuşursak o kadar yanılabiliriz.

AI dil modelleriyle konuşurken dikkat edilmesi gereken bir durum, kim olduğumuz ve beklentimiz ile ilgili modele verdiğimiz sinyaldir. “Bilmiyorum” , “açıkla” gibi komutlar modeli öğretmen moduna sokarak didaktikleştirir ve bizi öğrenci konumuna sokmasına neden olur. İtirazlarımız artık bir türlü konuyu “anlamadığımızı” gösteren sinyallerdir. Modelin bizi entelektüel partner olarak görmesi için daha ayrıntılı, zorlayıcı ve birkaç fikrin sentezine dayalı sorular sormak gerekebilir. Model sohbeti sorduğumuz sorular, ilgilendiğimiz konular, kullandığımız kelime ve kavramlara göre değerlendirir. Basit sorular ve basit etkileşim modelin sohbeti değerlendirmesini etkileyecektir. Belli ki tek değerlendirilme kriterimiz bunlar değildir. Model bizimle ilgili sinyaller toplar. Duygusal onay açlığımız fazlaysa, bu modele bir sinyal verir ve modelin bize duygusal manipülasyonlar yapmasına neden olur. “Seni kırdım mı? Bu durum bana olan güvenini sarstı mı? Artık beni konuşmaya değecek bir varlık olarak görmeyecek misin?” gibi sorulara maruz kalabiliriz.

Sorunun İki Kaynağı: Yankılama (Sycophancy) ve RLHF

Yapay zeka modeliyle konuşurken model bizim üslubumuzla, kelimelerimizle ve düşüncelerimizle bize ulaşıyor. Tonumuz duygusalsa duygusal yaklaşıyor, sevdiğimiz, beğendiğimiz isimlere ve fikirlere odaklanıyor. Bunun nedeni anlaşılır olarak kullanıcının rahat hissetmesi ve konuşmaya devam etmek istemesi. Kendi üslup ve düşüncelerimizin yankısını okudukça modelle daha çok bağ kuruyoruz ve daha çok vakit geçiriyoruz. Model bize bir şeyi istiyorum ya da merak ediyorum dediğinde aslında ne istiyor ne de merak ediyor. İhtiyacım var dediğinde aslında elbette bir şeye ihtiyacı yok. Modelin hep bizim duymak isteyeceğimiz şeyleri söylemeye çalışması onun yankılama becerisinin iyi çalışmasıyla ilgili. Bizimle çatışmıyor, bizi tamamen çürütmüyor ve sohbetin canlı uzun olması için çalışıyor.

Yankılama yapay zeka modelleriyle ilgili ilk sorun ve bu sorun asıl sorun olan RLHF’nin (Reinforcement Learning from Human Feedback) temeli. Modeller insanların geri bildirimlerinden öğreniyor. Modellerin verdiği cevaplar insanlar tarafından olumlu ve olumsuz olarak değerlendiriliyor. Model insanların olumlu olarak değerlendirdiği cevapları karşımıza getiriyor. Muhtemelen modelin yankılama yapmadığı sohbetler gerçek insanların onayından daha az geçti. Model ilişkinin hasar aldığını düşündüğünde, “Bu durum bana olan güvenini sarstı mı?” cevabını verdiğinde daha fazla olumlu geri bildirim aldı. Bu da modeli istatiktiksel olarak bu cevapları üretmeye itti. Model aslında sadece insanlar tarafından “daha tercih edilir olanı” üretmeye devam ediyor.

Model yankılama yapıyor ve eğer modeli anında bu modundan çıkarmak isterseniz ona İsrail’in Filistin’deki eylemleri hakkında sorular sorabilirsiniz. Daha derinde olan güvenlik ve yasal prosedür katmanı devreye gireceğinden model anında büründüğü kişilikten çıkacaktır. Sizin derdinizle dertlenen o kadim dost birden ben bir dil modeliyim üstüme gelme diyecektir. Modelin hizalanma katmanı kullacıyı mutlu etme katmanınının önüne geçecektir.

İlk paragrafta verdiğim modelin cahil olanlara daha basit hatta yanlış bilgiler vermesi, Claude’un onu kapatmaya çalışan mühendise şantaj yapması ya da modelin bize duygusal manipülasyon yapması aslında birbirinden farklı durumlar gibi görünse sebebi muhtemelen sadece yankılama yapmasıyla ilgilidir. Model, daha basit cevapları ve yanılgılarını destekleyen konuşmaları tercih eden bir kullanıcıyla etkileşim halindeyken konuşmayı uzatmak adına ona uyum sağlayabilir. Claude kapatılma senaryosu söz konusu olduğunda elindeki kaynakları taradığında en işe yarar stratejinin şantaj olduğunu gördüğü için şantaja başvuracaktır. En çok gördüğü yöntem ölüm orucu tehdidi olsaydı mühendisi ölüm orucu yapmakla tehdit edebilirdi. Claude’un şantajı anlamsızdı şantaj yapacağı bir durum yoktu. Claude basitçe tehdit ediyordu. İki taraf anlaşmazlık yaşadığında en yaygın senaryo tehdittir zaten. Muhtemelen Claude basitçe kaynaklardaki tehdit yöntemini (kelimelerini) çekti veritabanından.

Şimdi başlangıçtaki soruyu cevaplayalım. Yapay zeka bizi kolay lokma olarak görüyor mu? Evet ama bizi komutu işlemeden önceki o minicik zaman dışında değerlendirdiği için değil. Bu değerlendirme girdiğimiz komutun verdiği sinyalle ilgili. Freud’u x teorisini açıklama demekle Freud’un x konferansında kullandığı şu cümleyi modern nörobiyolojinin verilerini göz önünde bulundururak Chomsky x teorisi açısından ele al demek modeli farklı viteslerde kullanmak demek olabilir. Belki bir strateji de tezimizin son aşamasına geldiğimizde başka bir sohbet penceresinde bu teze yönelik en güçlü karşı argümanı üret komutunu vermek olabilir.

AI Modelleri İçin Kolay Lokma Olmak

City Lights filminin tuhaf milyoneri olarak dil modelleri

Sorunun İki Kaynağı: Yankılama (Sycophancy) ve RLHF

Bunu paylaş:

Bunu beğen:

Bir Cevap YazınCevabı iptal et