Soalan Lazim

Soalan Lazim tentang data sintetik

Boleh difahami! Nasib baik, kami mempunyai jawapan dan kami di sini untuk membantu. Semak soalan lazim kami.

Sila buka soalan di bawah dan klik pautan untuk mendapatkan maklumat lanjut. Ada soalan yang lebih rumit yang tidak dinyatakan di sini? Tanya pakar kami secara langsung!

Soalan yang paling banyak ditanya

Apa itu data sintetik?

Data sintetik merujuk kepada data yang dijana secara buatan dan bukannya dikumpulkan daripada sumber dunia sebenar. Secara umum, manakala data asal dikumpulkan dalam semua interaksi anda dengan orang (pelanggan, pesakit, dll.) dan melalui semua proses dalaman anda, data sintetik dijana oleh algoritma komputer.

Data sintetik juga boleh digunakan untuk menguji dan menilai model dalam persekitaran terkawal, atau untuk melindungi maklumat sensitif dengan menjana data yang serupa dengan data dunia sebenar tetapi tidak mengandungi sebarang maklumat sensitif. Data sintetik sering digunakan sebagai alternatif untuk data sensitif privasi dan boleh digunakan sebagai data ujian, untuk analisis atau untuk melatih pembelajaran mesin.

Baca lagi

Bagaimanakah Syntho menjamin bahawa data sintetik memegang kualiti data yang sama seperti data asal?

Menjamin bahawa data sintetik memegang kualiti data yang sama seperti data asal boleh menjadi mencabar dan selalunya bergantung pada kes penggunaan khusus dan kaedah yang digunakan untuk menjana data sintetik. Sesetengah kaedah untuk menjana data sintetik, seperti model generatif, boleh menghasilkan data yang sangat serupa dengan data asal. Soalan utama: bagaimana untuk menunjukkan ini?

Terdapat beberapa cara untuk memastikan kualiti data sintetik:

Metrik kualiti data melalui laporan kualiti data kami: Satu cara untuk memastikan data sintetik memegang kualiti data yang sama seperti data asal adalah dengan menggunakan metrik kualiti data untuk membandingkan data sintetik dengan data asal. Metrik ini boleh digunakan untuk mengukur perkara seperti persamaan, ketepatan dan kesempurnaan data. Perisian Syntho menyertakan laporan kualiti data dengan pelbagai metrik kualiti data.
Penilaian luaran: memandangkan kualiti data data sintetik berbanding dengan data asal adalah penting, kami baru-baru ini melakukan penilaian dengan pakar data SAS (peneraju pasaran dalam analitik) untuk menunjukkan kualiti data data sintetik oleh Syntho berbanding dengan data sebenar. Edwin van Unen, pakar analisis dari SAS, menilai set data sintetik yang dijana daripada Syntho melalui pelbagai penilaian analitik (AI) dan berkongsi hasilnya. Tonton imbasan ringkas video itu di sini.
Ujian dan penilaian sendiri: data sintetik boleh diuji dan dinilai dengan membandingkannya dengan data dunia sebenar atau dengan menggunakannya untuk melatih model pembelajaran mesin dan membandingkan prestasinya dengan model yang dilatih pada data dunia sebenar. Mengapa tidak menguji kualiti data data sintetik sendiri? Tanya pakar kami untuk kemungkinan ini di sini.

Adalah penting untuk ambil perhatian bahawa data sintetik tidak boleh menjamin 100% serupa dengan data asal, tetapi ia boleh menjadi cukup hampir untuk digunakan untuk kes penggunaan tertentu. Kes penggunaan khusus ini juga boleh menjadi analisis lanjutan atau melatih model pembelajaran mesin.

Pada masa ini, kami menamakan data kami, mengapa kami perlu menggunakan data sintetik?

'Penanoniman' klasik bukanlah penyelesaian terbaik, kerana:

Risiko privasi – anda akan sentiasa ada
risiko privasi. Mengaplikasikan mereka
teknik anonim klasik
menjadikannya hanya lebih sukar, tetapi tidak
mustahil untuk mengenal pasti individu.
Memusnahkan data - lebih banyak anda
tanpa nama, lebih baik anda melindungi
privasi anda, tetapi lebih banyak anda
musnahkan data anda. Ini bukan apa
anda mahu untuk analisis, kerana
data yang dimusnahkan akan mengakibatkan buruk
pandangan.
Memakan masa - ia adalah penyelesaian
itu mengambil banyak masa, kerana
teknik tersebut berfungsi berbeza
setiap set data dan setiap jenis data.

Data sintetik bertujuan untuk menyelesaikan semua kekurangan ini. Perbezaannya sangat ketara sehingga kami membuat video mengenainya. Tonton di sini.

FAQ

Data Sintetik

Apakah kes penggunaan data sintetik biasa?

Secara amnya, kebanyakan pelanggan kami menggunakan data sintetik untuk:

Ujian & pembangunan perisian
Data sintetik untuk analitis, pembangunan model dan analitis lanjutan (AI & ML)
Demo produk

Baca lebih lanjut dan terokai kes penggunaan.

Apakah yang anda maksudkan dengan menjana 'kembar data sintetik'?

Kembar data sintetik ialah replika yang dihasilkan oleh algoritma bagi set data dan/atau pangkalan data dunia sebenar. Dengan Kembar Data Sintetik, Syntho menyasarkan untuk meniru set data atau pangkalan data asal sedekat mungkin dengan data asal untuk mencipta perwakilan realistik yang asal. Dengan kembar data sintetik, kami menyasarkan kualiti data sintetik yang unggul berbanding data asal. Kami melakukan ini dengan perisian data sintetik kami yang menggunakan model AI terkini. Model AI tersebut menjana titik data baharu sepenuhnya dan memodelkannya dengan cara yang kami mengekalkan ciri, perhubungan dan corak statistik data asal sehingga anda boleh menggunakannya seolah-olah ia adalah data asal.

Ini boleh digunakan untuk pelbagai tujuan, seperti menguji dan melatih model pembelajaran mesin, mensimulasikan senario untuk penyelidikan dan pembangunan, dan mewujudkan persekitaran maya untuk latihan dan pendidikan. Kembar data sintetik boleh digunakan untuk mencipta data yang realistik dan representatif yang boleh digunakan sebagai ganti data dunia sebenar apabila ia tidak tersedia atau apabila menggunakan data dunia sebenar akan menjadi tidak praktikal atau tidak beretika disebabkan oleh peraturan privasi data yang ketat.

Kualiti Data

Bagaimanakah Syntho menunjukkan kualiti data sintetik yang dihasilkan?

Terdapat beberapa cara untuk memastikan kualiti data sintetik:

Metrik kualiti data melalui laporan kualiti data kami: Satu cara untuk memastikan data sintetik memegang kualiti data yang sama seperti data asal adalah dengan menggunakan metrik kualiti data untuk membandingkan data sintetik dengan data asal. Metrik ini boleh digunakan untuk mengukur perkara seperti persamaan, ketepatan dan kesempurnaan data. Perisian Syntho menyertakan laporan kualiti data dengan pelbagai metrik kualiti data.
Penilaian luaran: memandangkan kualiti data data sintetik berbanding dengan data asal adalah penting, kami baru-baru ini melakukan penilaian dengan pakar data SAS (peneraju pasaran dalam analitik) untuk menunjukkan kualiti data data sintetik oleh Syntho berbanding dengan data sebenar. Edwin van Unen, pakar analisis dari SAS, menilai set data sintetik yang dijana daripada Syntho melalui pelbagai penilaian analitik (AI) dan berkongsi hasilnya. Tonton imbasan ringkas video itu di sini.
Ujian dan penilaian sendiri: data sintetik boleh diuji dan dinilai dengan membandingkannya dengan data dunia sebenar atau dengan menggunakannya untuk melatih model pembelajaran mesin dan membandingkan prestasinya dengan model yang dilatih pada data dunia sebenar. Mengapa tidak menguji kualiti data data sintetik sendiri? Tanya pakar kami untuk kemungkinan ini di sini.

Adakah kualiti data sintetik yang dijana AI cukup baik untuk analisis lanjutan (cth AI, ML, BI)?

Ya betul. Data sintetik malah memegang corak yang anda tidak tahu ia terdapat dalam data asal.

Tetapi jangan hanya mengambil kata-kata kami untuk itu. Pakar analitis SAS (peneraju pasaran global dalam analitik) melakukan penilaian (AI) terhadap data sintetik kami dan membandingkannya dengan data asal. Ingin tahu? Tonton keseluruhan acara di sini atau tonton versi pendek tentang kualiti data di sini.

Adakah anda mengekalkan integriti rujukan berbanding pangkalan data berbilang jadual?

Ya kita lakukan. Platform kami dioptimumkan untuk pangkalan data dan akibatnya, pemeliharaan integriti rujukan antara set data dalam pangkalan data.

Ingin tahu lebih lanjut tentang ini?

Tanya pakar kami secara langsung.

Privasi

Adakah Syntho memerlukan akses kepada data saya untuk mencipta data sintetik?

Tidak, kami tidak. Kami boleh menggunakan Enjin Syntho di premis atau dalam awan peribadi anda dengan mudah melalui docker.

Adakah saya perlu berkongsi data saya dengan Syntho untuk menjana data sintetik?

Tidak. Kami mengoptimumkan platform kami dengan cara yang boleh digunakan dengan mudah dalam persekitaran yang dipercayai pelanggan. Ini memastikan bahawa data tidak akan meninggalkan persekitaran yang dipercayai pelanggan. Pilihan penggunaan untuk persekitaran yang dipercayai pelanggan adalah "di premis" dan dalam "persekitaran awan pelanggan (awan peribadi)".

Pilihan: Syntho menyokong versi yang dihoskan dalam "awan Syntho".

Adakah Syntho melihat dan / atau memproses data saya?

Tidak. Enjin Syntho ialah platform layan diri. Hasilnya, menjana data sintetik dengan Enjin Syntho adalah mungkin dengan cara yang dalam end-to-end proses, Syntho tidak pernah dapat melihat dan tidak perlu memproses data.

Bagaimanakah anda menunjukkan privasi?

Ya, kami melakukan ini melalui laporan QA kami.

Apabila mensintesis set data, adalah penting untuk menunjukkan bahawa seseorang itu tidak dapat mengenal pasti semula individu. Dalam video ini, Marijn memperkenalkan langkah privasi yang terdapat dalam laporan kualiti kami untuk menunjukkan perkara ini.

Apakah metrik privasi dalam laporan Syntho QA?

Laporan QA Syntho mengandungi tiga piawaian industri metrik untuk menilai privasi data. Idea di sebalik setiap metrik ini adalah seperti berikut:

Data sintetik (S) hendaklah "sedekat mungkin", tetapi "tidak terlalu dekat" dengan data sasaran (T).
Data penahanan yang dipilih secara rawak (H) menentukan penanda aras untuk "terlalu dekat".
A penyelesaian yang sempurna menjana data sintetik baharu yang berkelakuan sama seperti data asal, tetapi tidak pernah dilihat sebelum ini (= H).

Apakah yang dikatakan Pihak Berkuasa Perlindungan Data Belanda tentang menggunakan data sintetik?

Salah satu kes penggunaan yang diserlahkan secara khusus oleh Pihak Berkuasa Perlindungan Data Belanda ialah menggunakan data sintetik sebagai data ujian.

Lebih banyak boleh didapati dalam artikel ini.

Enjin Syntho

Pilihan penempatan yang manakah anda sokong?

Enjin Syntho dihantar dalam bekas Docker dan boleh digunakan dengan mudah dan dipalamkan ke dalam persekitaran pilihan anda.

Pilihan penempatan yang mungkin termasuk:

Di premis
Mana-mana awan (peribadi).
Mana-mana persekitaran lain

Baca lagi.

Bagaimanakah anda menyambungkan Enjin Syntho dengan data anda?

Syntho membolehkan anda menyambung dengan mudah dengan pangkalan data, aplikasi, saluran paip data atau sistem fail anda.

Kami menyokong pelbagai penyambung bersepadu supaya anda boleh berhubung dengan persekitaran sumber (tempat data asal disimpan) dan persekitaran destinasi (tempat anda ingin menulis data sintetik anda) untuk end-to-end pendekatan bersepadu.

Ciri sambungan yang kami sokong:

Pasang dan main dengan Docker
20+ penyambung pangkalan data
20+ penyambung sistem fail

Baca lagi.

Berapa lama masa yang diambil untuk menjana data sintetik?

Sememangnya, masa penjanaan bergantung pada saiz pangkalan data. Secara purata, jadual dengan kurang daripada 1 juta rekod disintesis dalam masa kurang daripada 5 minit.

Berapa banyak rekod latihan yang saya perlukan untuk mensintesis data saya?

Algoritma pembelajaran mesin Syntho boleh menyamaratakan ciri dengan lebih baik dengan lebih banyak rekod entiti tersedia, yang mengurangkan risiko privasi. Nisbah lajur ke baris minimum 1:500 disyorkan. Sebagai contoh, jika jadual sumber anda mempunyai 6 lajur, ia harus mengandungi sekurang-kurangnya 3000 baris.

Adakah kemahiran khusus diperlukan menggunakan Enjin Syntho?

Tidak sama sekali. Walaupun mungkin memerlukan sedikit usaha untuk memahami sepenuhnya kelebihan, cara kerja dan kes penggunaan data sintetik, proses mensintesis adalah sangat mudah dan sesiapa yang mempunyai pengetahuan asas komputer boleh melakukannya. Untuk maklumat lanjut tentang proses pensintesis, lihat halaman ini or minta demo.

Jenis data manakah yang anda sokong?

Enjin Syntho berfungsi paling baik pada data berstruktur dan jadual (apa-apa sahaja yang mengandungi baris dan lajur). Dalam struktur ini, kami menyokong jenis data berikut:

Data struktur yang diformatkan dalam jadual (kategori, berangka, dll.)
Pengecam langsung dan PII
Set data dan pangkalan data yang besar
Data lokasi geografi (seperti GPS)
Data siri masa
Pangkalan data berbilang jadual (dengan integriti rujukan)
Buka data teks

Sokongan data yang kompleks
Bersebelahan dengan semua jenis data jadual biasa, Enjin Syntho menyokong jenis data yang kompleks dan struktur data yang kompleks.

Siri masa
Pangkalan data berbilang jadual
Buka teks

Baca lagi.

Adakah saya memerlukan GPU untuk menggunakan Syntho?

Tidak, kami mengoptimumkan platform kami untuk meminimumkan keperluan pengiraan (cth. tiada GPU diperlukan), tanpa menjejaskan ketepatan data. Di samping itu, kami menyokong penskalaan automatik, supaya seseorang boleh mensintesis pangkalan data yang besar.

Adakah integriti rujukan akan dipelihara apabila saya mempunyai pangkalan data?

ya. Perisian Syntho dioptimumkan untuk pangkalan data yang mengandungi berbilang jadual.

Untuk ini, Syntho secara automatik mengesan jenis data, skema dan format untuk memaksimumkan ketepatan data. Untuk pangkalan data berbilang jadual, kami menyokong inferens dan sintesis perhubungan jadual automatik untuk mengekalkan integriti rujukan.

Data adalah sintetik, tetapi pasukan kami adalah sebenar!

Hubungi Syntho dan salah seorang pakar kami akan menghubungi anda dengan kelajuan cahaya untuk meneroka nilai data sintetik!

Apa itu data sintetik?

Laporan jaminan kualiti

Penilaian luaran oleh SAS

Data sintetik siri masa

Pengimbas PII

Data Olok-olok Sintetik

Pemetaan yang konsisten

Nyahpengenalpastian dan sintesis

Data Sintetik berasaskan peraturan

Subset

Penyebaran dan penyepaduan

Penyambung

Ciri lanjutan

Data yang disokong

Dokumentasi pengguna

Jadualkan demo

Harga

Data sintetik sebagai data ujian

Data sintetik untuk analisis

Data sintetik untuk perkongsian data

Data sintetik untuk demo produk

Healthcare

Kewangan

Organisasi Awam

Dokumentasi pengguna

Kertas Putih dan Panduan

Blog

Webinars

Kajian kes

Harga

Tentang kami

Peluang Kerjaya

Soalan Lazim

Soalan Lazim tentang data sintetik

Soalan yang paling banyak ditanya

FAQ

Data Sintetik

Kualiti Data

Privasi

Enjin Syntho

Data adalah sintetik, tetapi pasukan kami adalah sebenar!

Menu utama