Kategoriler

Nobel ödüllü Richard Feynman bir keresinde Caltech öğrencilerinden, sınıf dışına çıkarsa, park yerindeki ilk otomobilin 6ZNA74 no’lu özel bir plakaya sahip olma olasılığını hesaplamalarını istedi. Her sayının ve harfin eşit derecede olası ve bağımsız olarak belirlendiğini varsayan öğrenciler, olasılığın 17 milyonda 1’in altında olduğunu tahmin ettiler. Öğrenciler hesaplamalarını bitirdiklerinde, Feynman doğru olasılığın aslında 1 olduğunu açığa çıkardı. Bu plakayı derse gelirken görmüştü. Hiç mümkün gibi görünmeyen bir şey çoktan gerçekleştiyse, aslında o kadar da olasılıksız değildir.

Feynman tuzağı – birinin ne aradığına dair önyargıdan sıyrılarak, kalıplar içinde verilerin aranması – veri madenciliğine dayalı araştırmaların zayıf noktasıdır. Pek alışılmadık ya da şaşırtıcı bir şeyi gerçekleştikten sonra bulmak, alışılmadık ne de şaşırtıcıdır. Belirli kalıpların bulunması kaçınılmazdır ve büyük ihtimalle de yanlış yönlendirecek, mantıksız ya da daha kötü olacaktır. 
Jim Collins 2001’ de çıkardığı çok satan kitabı “Good to Great” kitabında, geçtiğimiz 40 yıl boyunca genel borsayı daha iyi performans gösteren 11 şirketi, o performansı yakalayamayan bir başka 11 şirketle karşılaştırdı. Başarılı şirketlerin öne çıkan ve aynı zamanda ortak olan beş özelliğini ortaya koydu. “Biz bu projeye bir teoriyi denemek ya da kanıtlamak amacıyla başlamadık” diye övündü Collins “ Biz doğrudan kanıtlardan elde edilen bir teorinin temellerini atmak için çabaladık.” 
Collins de Feynman’ın tuzağına düştü. Şöyle bir geri dönüp herhangi bir grup projesine bakacak olursak, en iyisi ya da en kötüsü olması fark etmez, her zaman ortak özelliklerle karşılaşacağız. Bu yüzden bu özellikleri fark etmek hiçbir şeyi kanıtlamaz. “Good to Great” in basımından sonra, Collins’in muhteşem 11 hisse senedi açıkça vasat haldeydi: Beş hisse senedi borsada daha iyi işlem görürken, geri kalan altısı daha kötü durumdaydı.
Google 2001’de grip salgınlarını ön görmek amacıyla arama sorgularını kullanan Google Flu adında bir yapay zekâ üretti. Google’ın veri madenciliği programı yaklaşık 50 milyon arama sorgusunu gözden geçirip çoğunlukla griple ilgili olan 45’ini belirledi. Bu da veri madenciliği tuzağının bir diğer örneğidir: Geçerli bir çalışma anahtar kelimeleri önceden belirlerdi. Raporunu yayınladıktan sonra, Google Flu gelecek 108 haftanın 100’ünde grip vakalarını tahmin etmede %100’e yakın bir oranda başarılı oldu. Google Flu artık grip tahminlerinde bulunmamakta. 
Bir internet pazarlamacısı geleneksel mavi web sayfası rengini farklı bir renkle değiştirerek gelirini artırabileceğini düşündü. Şirket haftalarca süren testlerden sonra, sayısal açıdan çok önemli bir sonuca vardı: görünen o ki İngiltere camgöbeği rengine bayılıyor. Yüzlerce ülke için alternatif birçok renge bakarak bazı ülkeler için bazı renklerde yüksek gelir sağlayacaklarını garantilemişlerdi, fakat önceden camgöbeğinin İngiltere’de daha çok satıp satmayacağına dair hiçbir fikirleri yoktu. Oysa sonunda İngiltere’nin web sayfa rengi camgöbeğiyle değiştirildiğinde gelir düştü.
Standart bir nörolojik deney, MRI makinesindeki bir gönüllüye çeşitli görsellerin gösterilmesini ve onlarla ilgili sorular sorulmasını içerir. Manyetik sinyaller çevreden ve beynin farklı kısımlarındaki yağ dokularının yoğun yapısının içerisinden manyetik sinyaller alındığından, ölçümler bir miktar gürültülü olmaktadır. Bazen beyin aktivitesini kaçırır; bazen de aktivite olmayan yerde var olduğunu gösterir.
Dartmouth mezunu bir öğrenci, bir MRI makinesini beyin aktivitesini inceleme amacıyla, fotoğraf kullanımı ve soru yöneltilmesiyle bir somon balığı üzerinde kullanmıştır. Çalışmanın en ilginç yanı bir somon balığı üzerinde yapılması değil; somon balığının ölü olmasıydı. Evet, marketten alınan bir somon balığı MRI makinesine koyulmuş ve bazı örüntüler keşfedilmişti. Ortada kaçınılmaz örüntüler vardı ve değişmez bir şekilde anlamsızlardı.
2018’de bir Yale ekonomi profesörü ve mezun öğrenci Bitcoin fiyatlarındaki günlük değişimlerle yüzlerce finansal değişkenlerin arasındaki bağlantıyı araştırdı. Bitcoin fiyatlarının, tüketici eşyaları ve sağlık hizmetleri sektöründeki hisse senedi getirileriyle olumlu yönde; metal madenciliği ve imal edilmiş ürünlerdeki hisse senedi getirileriyle de olumsuz yönde ilişkili olduğunu buldular. “Biz açıklama yapmayız” dedi profesör “biz sadece bu davranışı belgeleriz.” Bir diğer deyişle, onlar gayet de yüzlerce sayfa telefon numaralarıyla Bitcoin fiyatları arasındaki ilişkiyi incelemiş ve en yüksek bağlantıyı açıklamış olabilirler. 
Cornell Üniversitesi Gıda ve Marka laboratuvarı yöneticisi 200’den fazla bilirkişi raporu ve 25 dile çevrilmiş iki popüler kitap yazmıştır. 
2016 tarihli “Asla Hayır Demeyen Lisansüstü Öğrencisi” adlı blog gönderisinde, kendine açık İtalyan büfesinde elde edilmiş veriler gönderilen bir doktora öğrencisi hakkında yazmıştır. 
Profesörün mezun öğrenciyle arasındaki yazışmada, yemek yiyenleri “erkekler, kadınlar, öğle yemeğinde orda olanlar, yalnız oturanlar, iki kişilik gruplarla yiyenler, ikiden fazla kişiyle yiyenler, alkol sipariş edenler, alkolsüz içki sipariş edenler, büfeye yakın oturanlar, çok uzak oturanlar ve benzerleri” olmak üzere gruplandırmasını tavsiye ettiği görülmektedir. Sonrasında öğrenci “# pizza dilimi, # gezi, tabağın doluluğu, tatlı almışlar mı, içecek sipariş etmişler mi, vb.” gibi konularda ayrılan alt gruplarda inceleyebilir. 
Profesör öğrencinin “çok çalışıp, taştan su çıkarması” gerektiği sonucuna varmıştır. Öğrenci asla hayır demeyerek Cornell profesörünün yardımcı yazar olduğu (şimdilerde “pizza papers”* olarak bilinen) dört raporu yayımlandı. Bu erkeklerin pizza yediklerinde kadınlardan %93 oranında daha çok yediğini belirten rapordu. Temmuz 2018’de, Cornell fakülte komitesi profesörün “bu araştırmada akademik açıdan görevi kötü kullandığına” karar verdi. Bunun üzerine Profesör Ağustos’ta istifasını verdi. 
İyi bir araştırma, neyi aradığını ve bulmayı beklediğini bilen biriyle başlar. Veri madenciliği sadece örüntüleri bulmaya çalışır ve onlara erişmesi kaçınılmazdır.
Sorun bu günlerde iyice yaygınlaştı çünkü güçlü bilgisayarlar Big Data yağmalamakta oldukça iyi bir iş çıkarmakta. Veri madenciliği yapanlar, Twitter kelimleri ya da Google arama sorguları ve suç faaliyetleri, kalp krizleri, hisse fiyatları, seçim sonuçları, Bitcoin fiyatları ve futbol maçları arasında bağlantılar bulmuştur. Bu örnekleri uydurduğumu düşünüyor olabilirsiniz. Uydurmuyorum.
Tamamıyla rastgele rakamlarla çok daha güçlü bağlantılar mevcut. Veri madenciliğiyle elde edilen bağlantıların bir anlamı olması gerektiğini düşünen Big Data Hubris’tir. Big Data’da olağandışı bir örüntü bulmak Feynman’ın sınıfının önünde olağandışı bir plaka bulmaktan daha ikna edici (ya da faydalı) değildir. 


Çeviri: İrem Oran / VOYD YK Üyesi

Yazar: Gary Smith,  Pomona Üniversitesi Ekonomi Profesörü