Sentetik veri nedir?
Cevap nispeten basit. Gerçek kişilerle (örneğin müşteriler, hastalar, çalışanlar vb.) tüm etkileşimlerinizde ve tüm iç süreçlerinizde orijinal veriler toplanırken, sentetik veriler bir bilgisayar algoritması ile üretilir. Bu bilgisayar algoritması tamamen yeni ve yapay veri noktaları üretir.
Veri gizliliği zorluklarını çözün
Sentetik olarak üretilen veriler, orijinal verilerle bire bir ilişkisi olmayan tamamen yeni ve yapay veri noktalarından oluşur. Bu nedenle, sentetik veri noktalarından hiçbiri orijinal verilere geri izlenemez veya tersine mühendislik uygulanamaz. Sonuç olarak, sentetik veriler GDPR gibi gizlilik düzenlemelerinden muaftır ve veri gizliliği zorluklarını çözmek ve üstesinden gelmek için bir çözüm olarak hizmet eder.
Artır ve simüle et
Sentetik veri üretiminin üretken yönü, tamamen yeni verileri çoğaltmaya ve simüle etmeye izin verir. Bu, yeterli veriye sahip olmadığınızda (veri kıtlığı), uç durumları örneklemek istediğinizde veya henüz veriniz olmadığında bir çözüm olarak işlev görür.
Burada, Syntho'nun odak noktası yapılandırılmış verilerdir (bir Excel sayfalarında gördüğünüz gibi, satırlar ve sütunlar içeren tablolarda biçimlendirilmiş veriler), ancak daha çekici olduğu için sentetik veri kavramını her zaman resimlerle göstermeyi severiz.
Sentetik veri şemsiyesi içinde üç tür sentetik veri mevcuttur. Bu 3 tür sentetik veri şunlardır: yapay veri, kural tabanlı oluşturulmuş sentetik veri ve yapay zeka (AI) tarafından üretilen sentetik veri. 3 farklı sentetik veri türünün ne olduğunu kısaca açıklıyoruz.
Sahte veriler, rastgele oluşturulmuş verilerdir (örn. sahte veri oluşturucu tarafından).
Sonuç olarak, orijinal verilerdeki özellikler, ilişkiler ve istatistiksel modeller, oluşturulan yapay verilerde korunmaz, yakalanmaz ve yeniden üretilmez. Bu nedenle, sahte verilerin / sahte verilerin temsil edilebilirliği, orijinal verilere kıyasla minimum düzeydedir.
Kurala dayalı üretilen sentetik veriler, önceden tanımlanmış bir dizi kural tarafından oluşturulan sentetik verilerdir. Bu önceden tanımlanmış kurallara örnek olarak, belirli bir minimum değere, maksimum değere veya ortalama değere sahip sentetik verilere sahip olmak istemeniz verilebilir. Kural tabanlı üretilen sentetik verilerde yeniden oluşturmak istediğiniz herhangi bir özellik, ilişki ve istatistiksel modelin önceden tanımlanmış olması gerekir.
Sonuç olarak, veri kalitesi önceden tanımlanmış kurallar dizisi kadar iyi olacaktır. Bu, yüksek veri kalitesinin önemli olduğu durumlarda zorluklarla sonuçlanır. İlk olarak, sentetik verilerde yakalanacak yalnızca sınırlı bir kurallar kümesi tanımlanabilir. Ek olarak, birden çok kural oluşturmak, genellikle çakışan ve çakışan kurallarla sonuçlanır. Ayrıca, ilgili tüm kuralları hiçbir zaman tam olarak kapsamayacaksınız. Ayrıca, farkında bile olmadığınız ilgili kurallar olabilir. Ve son olarak (ve unutmamak gerekir ki), bu size çok fazla zaman ve enerji harcayarak verimsiz bir çözüme yol açacaktır.
Adından da anlaşılacağı gibi, yapay zeka (AI) tarafından üretilen sentetik veriler, bir yapay zeka (AI) algoritması tarafından üretilen sentetik verilerdir. AI modeli, tüm özellikleri, ilişkileri ve istatistiksel kalıpları öğrenmek için orijinal veriler üzerinde eğitilir. Bundan sonra, bu AI algoritması tamamen yeni veri noktaları oluşturabilir ve bu yeni veri noktalarını orijinal veri kümesinden özellikleri, ilişkileri ve istatistiksel kalıpları yeniden üretecek şekilde modelleyebilir. Buna sentetik veri ikizi diyoruz.
AI modeli, orijinal verilermiş gibi kullanılabilecek sentetik veri ikizleri oluşturmak için orijinal verileri taklit eder. Bu, AI tarafından oluşturulan sentetik verilerin orijinal (hassas) verilerin kullanılmasına alternatif olarak kullanılabileceği, örneğin AI tarafından oluşturulan sentetik verilerin test verileri, demo verileri veya analitik için kullanılması gibi çeşitli kullanım durumlarının kilidini açar.
Kural tabanlı oluşturulmuş sentetik verilerle karşılaştırıldığında: ilgili kuralları incelemek ve tanımlamak yerine, AI algoritması bunu sizin için otomatik olarak yapar. Burada sadece bildiğiniz özellikler, ilişkiler ve istatistiksel örüntüler değil, aynı zamanda farkında bile olmadığınız özellikler, ilişkiler ve istatistiksel örüntüler ele alınacaktır.
Kullanım durumunuza bağlı olarak, yapay veri / sahte veri, kural tabanlı oluşturulmuş sentetik veri veya yapay zeka (AI) tarafından oluşturulan sentetik veri kombinasyonu önerilir. Bu genel bakış, hangi tür sentetik verilerin kullanılacağına ilişkin ilk göstergeyi sağlar. Syntho hepsini desteklediğinden, bizimle kullanım durumunuzu derinlemesine incelemek için uzmanlarımızla iletişime geçmekten çekinmeyin.