Sentetik veri nedir?

Bir hızlandırılmış kurs sentetik verileri

 

 

Giriş

Sentetik veri nedir?

Cevap nispeten basit. Gerçek kişilerle (örneğin müşteriler, hastalar, çalışanlar vb.) tüm etkileşimlerinizde ve tüm iç süreçlerinizde orijinal veriler toplanırken, sentetik veriler bir bilgisayar algoritması ile üretilir. Bu bilgisayar algoritması tamamen yeni ve yapay veri noktaları üretir.

Veri gizliliği zorluklarını çözün

Sentetik olarak üretilen veriler, orijinal verilerle bire bir ilişkisi olmayan tamamen yeni ve yapay veri noktalarından oluşur. Bu nedenle, sentetik veri noktalarından hiçbiri orijinal verilere geri izlenemez veya tersine mühendislik uygulanamaz. Sonuç olarak, sentetik veriler GDPR gibi gizlilik düzenlemelerinden muaftır ve veri gizliliği zorluklarını çözmek ve üstesinden gelmek için bir çözüm olarak hizmet eder.

Artır ve simüle et

Sentetik veri üretiminin üretken yönü, tamamen yeni verileri çoğaltmaya ve simüle etmeye izin verir. Bu, yeterli veriye sahip olmadığınızda (veri kıtlığı), uç durumları örneklemek istediğinizde veya henüz veriniz olmadığında bir çözüm olarak işlev görür.

Burada, Syntho'nun odak noktası yapılandırılmış verilerdir (bir Excel sayfalarında gördüğünüz gibi, satırlar ve sütunlar içeren tablolarda biçimlendirilmiş veriler), ancak daha çekici olduğu için sentetik veri kavramını her zaman resimlerle göstermeyi severiz.

Sentetik veri türleri

Sentetik veri şemsiyesi içinde üç tür sentetik veri mevcuttur. Bu 3 tür sentetik veri şunlardır: yapay veri, kural tabanlı oluşturulmuş sentetik veri ve yapay zeka (AI) tarafından üretilen sentetik veri. 3 farklı sentetik veri türünün ne olduğunu kısaca açıklıyoruz.

Sahte veriler / sahte veriler

Sahte veriler, rastgele oluşturulmuş verilerdir (örn. sahte veri oluşturucu tarafından).

Sonuç olarak, orijinal verilerdeki özellikler, ilişkiler ve istatistiksel modeller, oluşturulan yapay verilerde korunmaz, yakalanmaz ve yeniden üretilmez. Bu nedenle, sahte verilerin / sahte verilerin temsil edilebilirliği, orijinal verilere kıyasla minimum düzeydedir.

  • Ne zaman kullanılır: doğrudan tanımlayıcıları (PII) değiştirmek için veya (henüz) verileriniz olmadığında ve kuralları tanımlamak için zaman ve enerji harcamak istemiyorsanız.

Kural tabanlı oluşturulan sentetik veriler

Kurala dayalı üretilen sentetik veriler, önceden tanımlanmış bir dizi kural tarafından oluşturulan sentetik verilerdir. Bu önceden tanımlanmış kurallara örnek olarak, belirli bir minimum değere, maksimum değere veya ortalama değere sahip sentetik verilere sahip olmak istemeniz verilebilir. Kural tabanlı üretilen sentetik verilerde yeniden oluşturmak istediğiniz herhangi bir özellik, ilişki ve istatistiksel modelin önceden tanımlanmış olması gerekir.

Sonuç olarak, veri kalitesi önceden tanımlanmış kurallar dizisi kadar iyi olacaktır. Bu, yüksek veri kalitesinin önemli olduğu durumlarda zorluklarla sonuçlanır. İlk olarak, sentetik verilerde yakalanacak yalnızca sınırlı bir kurallar kümesi tanımlanabilir. Ek olarak, birden çok kural oluşturmak, genellikle çakışan ve çakışan kurallarla sonuçlanır. Ayrıca, ilgili tüm kuralları hiçbir zaman tam olarak kapsamayacaksınız. Ayrıca, farkında bile olmadığınız ilgili kurallar olabilir. Ve son olarak (ve unutmamak gerekir ki), bu size çok fazla zaman ve enerji harcayarak verimsiz bir çözüme yol açacaktır.

  • Ne zaman kullanılır: Elinizde veri olmadığında (henüz)

Yapay zeka (AI) tarafından üretilen sentetik veriler

Adından da anlaşılacağı gibi, yapay zeka (AI) tarafından üretilen sentetik veriler, bir yapay zeka (AI) algoritması tarafından üretilen sentetik verilerdir. AI modeli, tüm özellikleri, ilişkileri ve istatistiksel kalıpları öğrenmek için orijinal veriler üzerinde eğitilir. Bundan sonra, bu AI algoritması tamamen yeni veri noktaları oluşturabilir ve bu yeni veri noktalarını orijinal veri kümesinden özellikleri, ilişkileri ve istatistiksel kalıpları yeniden üretecek şekilde modelleyebilir. Buna sentetik veri ikizi diyoruz.

AI modeli, orijinal verilermiş gibi kullanılabilecek sentetik veri ikizleri oluşturmak için orijinal verileri taklit eder. Bu, AI tarafından oluşturulan sentetik verilerin orijinal (hassas) verilerin kullanılmasına alternatif olarak kullanılabileceği, örneğin AI tarafından oluşturulan sentetik verilerin test verileri, demo verileri veya analitik için kullanılması gibi çeşitli kullanım durumlarının kilidini açar.

Sentetik verilerin nasıl oluşturulduğuna dair bir görselleştirme

Kural tabanlı oluşturulmuş sentetik verilerle karşılaştırıldığında: ilgili kuralları incelemek ve tanımlamak yerine, AI algoritması bunu sizin için otomatik olarak yapar. Burada sadece bildiğiniz özellikler, ilişkiler ve istatistiksel örüntüler değil, aynı zamanda farkında bile olmadığınız özellikler, ilişkiler ve istatistiksel örüntüler ele alınacaktır.

  • Ne zaman kullanılır: Akıllı veri oluşturma ve büyütme özellikleri için başlangıç ​​noktası olarak kullanmak veya taklit etmek için girdi olarak (bazı) verileriniz olduğunda

Ne tür sentetik veriler kullanılacak?

Kullanım durumunuza bağlı olarak, yapay veri / sahte veri, kural tabanlı oluşturulmuş sentetik veri veya yapay zeka (AI) tarafından oluşturulan sentetik veri kombinasyonu önerilir. Bu genel bakış, hangi tür sentetik verilerin kullanılacağına ilişkin ilk göstergeyi sağlar. Syntho hepsini desteklediğinden, bizimle kullanım durumunuzu derinlemesine incelemek için uzmanlarımızla iletişime geçmekten çekinmeyin.

Bu grafik, farklı sentetik veri türleri sunar

syntho kılavuz kapağı

Sentetik veri kılavuzunuzu şimdi kaydedin!