FAQ

Pertanyaan yang Sering Diajukan tentang data sintetik

Dapat dimengerti! Untungnya, kami memiliki jawabannya dan kami siap membantu. Periksa pertanyaan umum kami.

Silakan buka pertanyaan di bawah ini dan klik tautan untuk menemukan informasi lebih lanjut. Punya pertanyaan yang lebih rumit yang tidak disebutkan di sini? Tanyakan langsung pada ahli kami!

Pertanyaan yang paling banyak ditanyakan

Data sintetik mengacu pada data yang dihasilkan secara artifisial daripada dikumpulkan dari sumber dunia nyata. Secara umum, sementara data asli dikumpulkan dalam semua interaksi Anda dengan orang (klien, pasien, dll.) dan melalui semua proses internal Anda, data sintetik dihasilkan oleh algoritme komputer.

Data sintetik juga dapat digunakan untuk menguji dan mengevaluasi model dalam lingkungan yang terkendali, atau untuk melindungi informasi sensitif dengan menghasilkan data yang serupa dengan data dunia nyata tetapi tidak mengandung informasi sensitif apa pun. Data sintetis sering digunakan sebagai alternatif untuk data sensitif privasi dan dapat digunakan sebagai data uji, untuk analitik, atau untuk melatih pembelajaran mesin.

Baca lebih lanjut

Menjamin bahwa data sintetik memiliki kualitas data yang sama dengan data asli dapat menjadi tantangan, dan seringkali bergantung pada kasus penggunaan tertentu dan metode yang digunakan untuk menghasilkan data sintetik. Beberapa metode untuk menghasilkan data sintetik, seperti model generatif, dapat menghasilkan data yang sangat mirip dengan data aslinya. Pertanyaan kunci: bagaimana mendemonstrasikannya?

Ada beberapa cara untuk memastikan kualitas data sintetik:

  • Metrik kualitas data melalui laporan kualitas data kami: Salah satu cara untuk memastikan bahwa data sintetis memiliki kualitas data yang sama dengan data asli adalah dengan menggunakan metrik kualitas data untuk membandingkan data sintetis dengan data asli. Metrik ini dapat digunakan untuk mengukur hal-hal seperti kesamaan, akurasi, dan kelengkapan data. Perangkat lunak Syntho menyertakan laporan kualitas data dengan berbagai metrik kualitas data.
  • Evaluasi eksternal: karena kualitas data dari data sintetis dibandingkan dengan data asli adalah kuncinya, kami baru-baru ini melakukan penilaian dengan pakar data SAS (pemimpin pasar dalam analitik) untuk menunjukkan kualitas data dari data sintetis oleh Syntho dibandingkan dengan data sebenarnya. Edwin van Unen, pakar analitik dari SAS, mengevaluasi kumpulan data sintetik yang dihasilkan dari Syntho melalui berbagai penilaian analitik (AI) dan membagikan hasilnya. Tonton rekap singkat video tersebut di sini.
  • Pengujian dan evaluasi sendiri: data sintetik dapat diuji dan dievaluasi dengan membandingkannya dengan data dunia nyata atau dengan menggunakannya untuk melatih model pembelajaran mesin dan membandingkan kinerjanya dengan model yang dilatih pada data dunia nyata. Mengapa tidak menguji sendiri kualitas data dari data sintetik? Tanyakan ahli kami untuk kemungkinan ini di sini

Penting untuk dicatat bahwa data sintetik tidak pernah bisa menjamin 100% mirip dengan data asli, tetapi bisa cukup dekat untuk berguna untuk kasus penggunaan tertentu. Kasus penggunaan khusus ini bahkan dapat berupa analitik lanjutan atau pelatihan model pembelajaran mesin.

'Anonimisasi' klasik tidak selalu merupakan solusi terbaik, karena:

  1. Risiko privasi - Anda akan selalu memilikinya
    risiko privasi. Menerapkan itu
    teknik anonimisasi klasik
    membuatnya hanya lebih sulit, tapi tidak
    tidak mungkin untuk mengidentifikasi individu.
  2. Menghancurkan data - semakin Anda
    anonim, semakin baik Anda melindungi
    privasi Anda, tetapi lebih Anda
    menghancurkan data Anda. Ini bukan apa
    Anda inginkan untuk analitik, karena
    data yang hancur akan berakibat buruk
    wawasan.
  3. Membuang-buang waktu - itu adalah solusi
    yang memakan banyak waktu, karena
    teknik tersebut bekerja berbeda
    per dataset dan per tipe data.

Data sintetis bertujuan untuk menyelesaikan semua kekurangan ini. Perbedaannya sangat mencolok sehingga kami membuat video tentangnya. Tonton di sini.

Tanya Jawab Umum (FAQ)

Data Sintetis

Umumnya, sebagian besar klien kami menggunakan data sintetis untuk:

  • Pengujian & pengembangan perangkat lunak
  • Data sintetis untuk analitik, pengembangan model, dan analitik lanjutan (AI & ML)
  • Demo produk

Baca lebih lanjut dan jelajahi kasus penggunaan.

Kembaran data sintetik adalah replika yang dihasilkan algoritme dari kumpulan data dan/atau basis data dunia nyata. Dengan Kembar Data Sintetis, Syntho bertujuan untuk meniru dataset atau database asli sedekat mungkin dengan data asli untuk membuat representasi realistis dari aslinya. Dengan kembaran data sintetik, kami bertujuan untuk kualitas data sintetik yang unggul dibandingkan dengan data aslinya. Kami melakukan ini dengan perangkat lunak data sintetis kami yang menggunakan model AI canggih. Model AI tersebut menghasilkan titik data yang benar-benar baru dan memodelkannya sedemikian rupa sehingga kami mempertahankan karakteristik, hubungan, dan pola statistik dari data asli sedemikian rupa sehingga Anda dapat menggunakannya seolah-olah itu adalah data asli.

Ini dapat digunakan untuk berbagai tujuan, seperti menguji dan melatih model pembelajaran mesin, mensimulasikan skenario untuk penelitian dan pengembangan, dan menciptakan lingkungan virtual untuk pelatihan dan pendidikan. Kembar data sintetik dapat digunakan untuk membuat data yang realistis dan representatif yang dapat digunakan sebagai pengganti data dunia nyata saat tidak tersedia atau saat menggunakan data dunia nyata akan menjadi tidak praktis atau tidak etis karena peraturan privasi data yang ketat.

Baca lebih lanjut.

Ya kami lakukan. Kami menawarkan berbagai fitur pengoptimalan dan augmentasi data sintetik yang menambah nilai, termasuk mocker, untuk membawa data Anda ke level selanjutnya.

Baca lebih lanjut.

Data tiruan dan data sintetik yang dihasilkan AI keduanya adalah jenis data sintetik, tetapi keduanya dihasilkan dengan cara yang berbeda dan melayani tujuan yang berbeda.

Data tiruan adalah jenis data sintetis yang dibuat secara manual dan sering digunakan untuk tujuan pengujian dan pengembangan. Ini biasanya digunakan untuk mensimulasikan perilaku data dunia nyata dalam lingkungan yang terkendali dan sering digunakan untuk menguji fungsionalitas sistem atau aplikasi. Ini seringkali sederhana, mudah dibuat, dan tidak memerlukan model atau algoritme yang rumit. Seringkali, salah satu perujuk juga mengolok-olok data sebagai “data dummy” atau “data palsu”.

Sebaliknya, data sintetik yang dihasilkan AI dihasilkan menggunakan teknik kecerdasan buatan, seperti pembelajaran mesin atau model generatif. Ini digunakan untuk membuat data yang realistis dan representatif yang dapat digunakan sebagai pengganti data dunia nyata saat menggunakan data dunia nyata akan menjadi tidak praktis atau tidak etis karena peraturan privasi yang ketat. Ini seringkali lebih kompleks dan membutuhkan lebih banyak sumber daya komputasi daripada data tiruan manual. Hasilnya, ini jauh lebih realistis dan meniru data asli sedekat mungkin.

Singkatnya, data tiruan dibuat secara manual dan biasanya digunakan untuk pengujian dan pengembangan, sedangkan data sintetik yang dihasilkan AI dibuat menggunakan teknik kecerdasan buatan dan digunakan untuk membuat data yang representatif dan realistis.

Lebih banyak pertanyaan? Tanyakan ahli kami

Kualitas Data

Menjamin bahwa data sintetik memiliki kualitas data yang sama dengan data asli dapat menjadi tantangan, dan seringkali bergantung pada kasus penggunaan tertentu dan metode yang digunakan untuk menghasilkan data sintetik. Beberapa metode untuk menghasilkan data sintetik, seperti model generatif, dapat menghasilkan data yang sangat mirip dengan data aslinya. Pertanyaan kunci: bagaimana mendemonstrasikannya?

Ada beberapa cara untuk memastikan kualitas data sintetik:

  • Metrik kualitas data melalui laporan kualitas data kami: Salah satu cara untuk memastikan bahwa data sintetis memiliki kualitas data yang sama dengan data asli adalah dengan menggunakan metrik kualitas data untuk membandingkan data sintetis dengan data asli. Metrik ini dapat digunakan untuk mengukur hal-hal seperti kesamaan, akurasi, dan kelengkapan data. Perangkat lunak Syntho menyertakan laporan kualitas data dengan berbagai metrik kualitas data.
  • Evaluasi eksternal: karena kualitas data dari data sintetis dibandingkan dengan data asli adalah kuncinya, kami baru-baru ini melakukan penilaian dengan pakar data SAS (pemimpin pasar dalam analitik) untuk menunjukkan kualitas data dari data sintetis oleh Syntho dibandingkan dengan data sebenarnya. Edwin van Unen, pakar analitik dari SAS, mengevaluasi kumpulan data sintetik yang dihasilkan dari Syntho melalui berbagai penilaian analitik (AI) dan membagikan hasilnya. Tonton rekap singkat video tersebut di sini.
  • Pengujian dan evaluasi sendiri: data sintetik dapat diuji dan dievaluasi dengan membandingkannya dengan data dunia nyata atau dengan menggunakannya untuk melatih model pembelajaran mesin dan membandingkan kinerjanya dengan model yang dilatih pada data dunia nyata. Mengapa tidak menguji sendiri kualitas data dari data sintetik? Tanyakan ahli kami untuk kemungkinan ini di sini

Penting untuk dicatat bahwa data sintetik tidak pernah bisa menjamin 100% mirip dengan data asli, tetapi bisa cukup dekat untuk berguna untuk kasus penggunaan tertentu. Kasus penggunaan khusus ini bahkan dapat berupa analitik lanjutan atau pelatihan model pembelajaran mesin.

Ya itu. Data sintetik bahkan menyimpan pola yang tidak Anda ketahui ada dalam data aslinya.

Tapi jangan hanya mengambil kata kami untuk itu. Pakar analitik SAS (pemimpin pasar global dalam analitik) melakukan penilaian (AI) terhadap data sintetis kami dan membandingkannya dengan data asli. Penasaran? Tonton seluruh acara di sini atau tonton versi pendek tentang kualitas data di sini.

Ya kami lakukan. Platform kami dioptimalkan untuk basis data dan akibatnya, pelestarian integritas referensial antara kumpulan data di basis data.

Penasaran ingin mengetahui lebih lanjut tentang ini?

Tanyakan langsung pada ahli kami.

Privasi

Tidak, kami tidak. Kami dapat dengan mudah menerapkan Mesin Syntho di tempat atau di cloud pribadi Anda melalui buruh pelabuhan.

Tidak. Kami mengoptimalkan platform kami sedemikian rupa sehingga dapat dengan mudah diterapkan di lingkungan tepercaya pelanggan. Ini memastikan bahwa data tidak akan pernah meninggalkan lingkungan tepercaya pelanggan. Opsi penerapan untuk lingkungan tepercaya pelanggan adalah "on-premise" dan di "lingkungan cloud pelanggan (cloud pribadi)".

Opsional: Syntho mendukung versi yang dihosting di “cloud Syntho”.

Tidak. Syntho Engine adalah platform swalayan. Akibatnya, menghasilkan data sintetik dengan Syntho Engine dimungkinkan dengan cara di end-to-end proses, Syntho tidak pernah bisa melihat dan tidak pernah diperlukan untuk memproses data.

Ya, kami melakukan ini melalui laporan QA kami.

 

Saat mensintesis kumpulan data, penting untuk menunjukkan bahwa seseorang tidak dapat mengidentifikasi ulang individu. Di dalam video ini, Marijn memperkenalkan langkah-langkah privasi yang ada dalam laporan kualitas kami untuk menunjukkan hal ini.

Laporan QA Syntho berisi tiga standar industri metrik untuk mengevaluasi privasi data. Gagasan di balik masing-masing metrik ini adalah sebagai berikut:

  • Data sintetik (S) harus "sedekat mungkin", tetapi "tidak terlalu dekat" dengan data target (T).
  • Data ketidakhadiran yang dipilih secara acak (H) menentukan tolok ukur untuk "terlalu dekat".
  • A solusi sempurna menghasilkan data sintetik baru yang berperilaku persis seperti data aslinya, tetapi belum pernah terlihat sebelumnya (= H).

Salah satu kasus penggunaan yang disoroti secara khusus oleh Otoritas Perlindungan Data Belanda adalah penggunaan data sintetik sebagai data uji.

Lebih banyak dapat ditemukan di artikel ini.

Mesin Syntho

Syntho Engine dikirimkan dalam wadah Docker dan dapat dengan mudah digunakan dan dicolokkan ke lingkungan pilihan Anda.

Opsi penerapan yang memungkinkan meliputi:

  • Di tempat
  • Awan (pribadi) apa saja
  • Lingkungan lainnya

Baca lebih lanjut.

Syntho memungkinkan Anda terhubung dengan mudah dengan database, aplikasi, saluran data, atau sistem file Anda. 

Kami mendukung berbagai konektor terintegrasi sehingga Anda dapat terhubung dengan lingkungan sumber (tempat data asli disimpan) dan lingkungan tujuan (tempat Anda ingin menulis data sintetik Anda) untuk end-to-end pendekatan terintegrasi.

Fitur koneksi yang kami dukung:

  • Pasang dan mainkan dengan Docker
  • 20+ konektor basis data
  • 20+ konektor sistem file

Baca lebih lanjut.

Secara alami, waktu pembuatan tergantung pada ukuran database. Rata-rata, tabel dengan kurang dari 1 juta rekaman disintesis dalam waktu kurang dari 5 menit.

Algoritme pembelajaran mesin Syntho dapat menggeneralisasi fitur dengan lebih baik dengan lebih banyak catatan entitas yang tersedia, yang mengurangi risiko privasi. Disarankan rasio kolom-ke-baris minimum 1:500. Misalnya, jika tabel sumber Anda memiliki 6 kolom, tabel tersebut harus berisi minimal 3000 baris.

Sama sekali tidak. Meskipun mungkin diperlukan upaya untuk sepenuhnya memahami keuntungan, cara kerja, dan kasus penggunaan data sintetis, proses sintesis sangat sederhana dan siapa pun yang memiliki pengetahuan komputer dasar dapat melakukannya. Untuk informasi lebih lanjut tentang proses sintesis, lihat halaman ini or meminta demo.

Mesin Syntho bekerja paling baik pada data terstruktur dan tabular (apa pun yang berisi baris dan kolom). Dalam struktur ini, kami mendukung tipe data berikut:

  • Struktur data yang diformat dalam tabel (kategorikal, numerik, dll.)
  • Pengidentifikasi langsung dan PII
  • Kumpulan data dan basis data besar
  • Data lokasi geografis (seperti GPS)
  • Data deret waktu
  • Database multi-tabel (dengan integritas referensial)
  • Buka data teks

 

Dukungan data yang kompleks
Di samping semua tipe data tabular reguler, Syntho Engine mendukung tipe data kompleks dan struktur data kompleks.

  • Seri waktu
  • Database multi-tabel
  • Buka teks

Baca lebih lanjut.

Tidak, kami mengoptimalkan platform kami untuk meminimalkan persyaratan komputasi (mis. tidak memerlukan GPU), tanpa mengorbankan akurasi data. Selain itu, kami mendukung penskalaan otomatis, sehingga seseorang dapat mensintesis basis data yang sangat besar.

Ya. Perangkat lunak Syntho dioptimalkan untuk database yang berisi banyak tabel.

Untuk ini, Syntho secara otomatis mendeteksi tipe data, skema, dan format untuk memaksimalkan akurasi data. Untuk database multi-tabel, kami mendukung inferensi dan sintesis hubungan tabel otomatis untuk mempertahankan integritas referensial.

sekelompok orang tersenyum

Data itu sintetis, tapi tim kami nyata!

Hubungi Syntho dan salah satu pakar kami akan menghubungi Anda secepat cahaya untuk menjelajahi nilai data sintetis!