Sentetik verilerimizin SAS veri uzmanları tarafından harici değerlendirmesi

Sentetik verilerimiz değerlendirilen ve onaylı veri uzmanları tarafından SAS

Sentetik verilerimizin SAS veri uzmanları tarafından dış değerlendirmesine giriş

Biz ne yaptık?

Syntho tarafından oluşturulan sentetik veriler, SAS'ın veri uzmanları tarafından harici ve objektif bir bakış açısıyla değerlendirilir, doğrulanır ve onaylanır.

Sentetik verilerimiz neden SAS'ın veri uzmanları tarafından harici olarak değerlendiriliyor?

Syntho, kullanıcılarına gelişmiş bir kalite güvence raporu sunmaktan gurur duysa da, sentetik verilerimizin sektör liderlerinden harici ve objektif bir değerlendirmesini almanın önemini de anlıyoruz. Bu nedenle sentetik verilerimizi değerlendirmek için analitik alanında lider olan SAS ile işbirliği yapıyoruz.

SAS, orijinal verilerle karşılaştırmalı olarak Syntho'nun yapay zeka tarafından oluşturulan sentetik verilerinin veri doğruluğu, gizliliğin korunması ve kullanılabilirliği konusunda çeşitli kapsamlı değerlendirmeler gerçekleştirir. Sonuç olarak SAS, Syntho'nun sentetik verilerinin orijinal verilerle karşılaştırıldığında doğru, güvenli ve kullanılabilir olduğunu değerlendirdi ve onayladı.

SAS bu değerlendirme sırasında ne yaptı?

Hedef veri olarak “kaybetme” tahmini için kullanılan telekom verilerini kullandık. Değerlendirmenin amacı, çeşitli kayıp tahmin modellerini eğitmek ve her modelin performansını değerlendirmek için sentetik verileri kullanmaktı. Kayıp tahmini bir sınıflandırma görevi olduğundan SAS, tahminleri yapmak için aşağıdakiler de dahil olmak üzere popüler sınıflandırma modellerini seçti:

  1. Rastgele orman
  2. Gradyan artırma
  3. Lojistik regresyon
  4. Sinir ağı

Sentetik veriyi oluşturmadan önce, SAS telekom veri setini rastgele olarak bir tren seti (modelleri eğitmek için) ve bir bekleme seti (modelleri puanlamak için) olarak böler. Puanlama için ayrı bir bekleme grubuna sahip olmak, yeni verilere uygulandığında sınıflandırma modelinin ne kadar iyi performans gösterebileceğinin tarafsız bir değerlendirmesine olanak tanır.

Girdi olarak tren setini kullanan Syntho, sentetik bir veri seti oluşturmak için Syntho Motorunu kullandı. Kıyaslama için SAS, belirli bir eşiğe (k-anonimlik) ulaşmak için çeşitli anonimleştirme tekniklerini uyguladıktan sonra tren setinin anonimleştirilmiş bir versiyonunu da oluşturdu. Önceki adımlar dört veri kümesiyle sonuçlandı:

  1. Bir tren veri kümesi (yani orijinal veri kümesi eksi bekleme veri kümesi)
  2. Bekletme veri kümesi (yani orijinal veri kümesinin bir alt kümesi)
  3. Anonimleştirilmiş bir veri kümesi (tren veri kümesinin anonimleştirilmiş verileri, orijinal veri kümesi eksi uzatma veri kümesi)
  4. Sentetik bir veri kümesi (tren veri kümesinin sentezlenmiş verileri, orijinal veri kümesi eksi uzatma veri kümesi)

Veri kümeleri 1, 3 ve 4, her bir sınıflandırma modelini eğitmek için kullanıldı ve sonuçta 12 (3 x 4) eğitilmiş model elde edildi. SAS daha sonra müşteri kaybı tahmininde her modelin doğruluğunu ölçmek için bu uzatma veri setini kullandı.

SAS, orijinal verilerle karşılaştırmalı olarak Syntho'nun yapay zeka tarafından oluşturulan sentetik verilerinin veri doğruluğu, gizliliğin korunması ve kullanılabilirliği konusunda çeşitli kapsamlı değerlendirmeler gerçekleştirir. Sonuç olarak SAS, Syntho'nun sentetik verilerinin orijinal verilerle karşılaştırıldığında doğru, güvenli ve kullanılabilir olduğunu değerlendirdi ve onayladı.

Sormak istediğiniz bir şey var mı?

Uzmanlarımızdan biriyle konuşun

SAS tarafından yapılan veri değerlendirmesinin ilk sonuçları

Sentetik verilerle eğitilen modeller, orijinal verilerle eğitilen modellerle karşılaştırıldığında oldukça benzer puanlar alıyor

Syntho'dan elde edilen sentetik veriler yalnızca temel modeller için geçerli değildir, aynı zamanda gelişmiş analitik görevleri için gereken derin 'gizli' istatistiksel modelleri de yakalar. İkincisi, sentetik veriler üzerinde eğitilen modellerin doğruluğunun, orijinal veriler üzerinde eğitilen modellere göre benzer olduğunu gösteren çubuk grafikte gösterilmektedir. Bu nedenle modellerin gerçek eğitimi için sentetik veriler kullanılabilir. Algoritmaların sentetik veriler üzerinde seçtiği girdiler ve değişken önemleri, orijinal verilerle karşılaştırıldığında çok benzerdi. Dolayısıyla gerçek hassas verilerin kullanımına alternatif olarak modelleme işleminin sentetik veriler üzerinde yapılabileceği sonucuna varılmıştır.

Anonimleştirilmiş verilerle eğitilen modeller neden daha kötü puan alıyor?

Klasik anonimleştirme tekniklerinin ortak noktası, bireylerin geriye doğru izlenmesini engellemek amacıyla orijinal verileri manipüle etmeleridir. Verileri manipüle ederler ve böylece süreçteki verileri yok ederler. Ne kadar çok anonimleştirirseniz verileriniz o kadar iyi korunur, ancak aynı zamanda verileriniz de o kadar çok yok edilir. Bu, özellikle "tahmin gücünün" gerekli olduğu yapay zeka ve modelleme görevleri için yıkıcıdır çünkü kötü kaliteli veriler, yapay zeka modelinden kötü içgörülere yol açacaktır. SAS, 0.5'e yakın eğri altındaki alan (AUC*) ile bunu gösterdi; bu da anonimleştirilmiş veriler üzerinde eğitilen modellerin açık ara en kötü performansı gösterdiğini ortaya koydu.

SAS tarafından yapılan sentetik veri değerlendirmelerinin ek sonuçları

SAS tarafından yapılan sentetik veri değerlendirmelerinin ek sonuçları

Değişkenler arasındaki korelasyonlar ve ilişkiler, sentetik verilerde doğru bir şekilde korunmuştur.

Model performansını ölçmek için bir ölçüm olan Eğri Altındaki Alan (AUC) tutarlılığını korudu.

Ayrıca, bir modeldeki değişkenlerin öngörücü gücünü gösteren değişken önemi, sentetik verileri orijinal veri kümesiyle karşılaştırırken olduğu gibi kaldı.

SAS tarafından yapılan bu gözlemlere dayanarak ve SAS Viya'yı kullanarak, Syntho Engine tarafından oluşturulan sentetik verilerin kalite açısından gerçekten de gerçek verilerle aynı olduğu sonucuna güvenle varabiliriz. Bu, model geliştirme için sentetik verilerin kullanımını doğrulayarak sentetik verilerle ileri düzey analitiklerin önünü açıyor.

SAS veri uzmanlarının sonuçları

SAS logosu

Sentetik verilerimiz onaylı SAS veri uzmanları tarafından

Referans makaleleri

syntho kılavuz kapağı

Sentetik veri kılavuzunuzu şimdi kaydedin!