Hiç bir fotoğrafa bakıp sadece “burada bir vida var” dediğiniz oldu mu ? Oysa beynimiz bundan çok daha fazlasını yapıyor. “Vida tam şurada”, “zemin buradan başlıyor” ya da “hata bu bölgede” diye sınırları belirleyebiliyoruz. İşte anlamsal segmentasyon, bilgisayarlara bu sezgiyi öğretmeye çalışan bir yöntem. Görüntüyü tek parça halinde değil, piksel piksel ele alıyor ve her noktaya bir kimlik kazandırıyor. Böylece artık yalnızca neyin var olduğunu değil, nerede ve ne kadar olduğunu da görebiliyoruz.

Bu yaklaşımın günlük hayatta karşılığı sandığınızdan çok daha fazla. Fabrikada üretilen bir parçanın üzerindeki küçücük bir çizik bile fark edilebiliyor. Bir doktor MR görüntüsüne baktığında tümörün sınırlarını piksel hassasiyetinde görebiliyor. Otonom araçlar yolu, yayaları ve trafik işaretlerini birbirinden ayırt ederek güvenli sürüş sağlayabiliyor. Çiftçiler ise tarladaki yaprağın sağlıklı ve hasta kısmını ayrı ayrı tespit edip yalnızca gerekli bölgeye müdahale edebiliyor.
Elbette bilgisayara bu beceriyi kazandırmak kolay değil. Öncelikle örnek görüntüleri tek tek işaretlenerek; her piksele bir etiket veriliyor. Mesela bir fotoğraftaki her piksel “zemin”, “ürün yüzeyi”, “vida” ya da “hata” olarak renklendiriliyor. Model de bu işaretli verilerden öğreniyor. Sonrasında yeni bir görüntü gördüğünde hangi pikselin hangi sınıfa ait olduğunu tahmin etmeye başlıyor.

Eğitim sürecinde görüntüler sadece etiketlenmiyor, aynı zamanda işleniyor. Boyutlandırılıyor, döndürülüyor, yansıtılıyor; yani çeşitlendirilerek modele daha fazla örnek sunuluyor. Pikseller normalize ediliyor, böylece model farklı ışık ve açı koşullarında da doğru tahmin yapabiliyor. Veriler üçe ayrılıyor: eğitim seti öğrenme için, doğrulama seti modeli izlemek için, test seti ise gerçek performansı görmek için kullanılıyor.
Bu noktada kullanılan mimariler devreye giriyor. U-Net, özellikle tıbbi görüntülerde öne çıkıyor çünkü az veriyle bile güçlü sonuçlar üretebiliyor. DeepLab, çok ölçekli bakış açısıyla detaylı ayrımlar yapabiliyor. FCN ve SegNet ise daha kompakt ve hızlı çözümler sunarak farklı senaryolarda tercih ediliyor.
Peki modelin başarısı nasıl ölçülüyor? Tahmin edilen bölgelerle gerçek etiketlerin ne kadar çakıştığını gösteren IoU, piksellerin genel doğruluğunu ölçen Pixel Accuracy ve tahmin ile gerçek arasındaki benzerliği değerlendiren Dice Coefficient gibi metrikler sayesinde.
Sonuçta anlamsal segmentasyon, görüntüleri en küçük parçasına kadar anlamlandırıyor ve hayatımızın birçok alanına dokunuyor. Bir fabrikanın hatalı ürünü, bir hastanenin MR görüntüsündeki tümör ya da bir tarladaki hasta yaprak… Hepsi bu yöntemle sadece “var” ya da “yok” olarak değil, “tam olarak şurada” diye işaretlenebiliyor. Görüntüler artık bize yalnızca ne olduğunu değil, aynı zamanda nerede ve ne kadar olduğunu da söylüyor.








