Câu Hỏi Thường Gặp

Câu hỏi thường gặp về dữ liệu tổng hợp

Có thể hiểu được! May mắn thay, chúng tôi có câu trả lời và chúng tôi ở đây để giúp đỡ. Kiểm tra các câu hỏi thường gặp của chúng tôi.

Vui lòng mở câu hỏi bên dưới và nhấp vào liên kết để tìm thêm thông tin. Có một câu hỏi phức tạp hơn mà không được nêu ở đây? Hãy hỏi trực tiếp các chuyên gia của chúng tôi!

Những câu hỏi được hỏi nhiều nhất

Dữ liệu tổng hợp đề cập đến dữ liệu được tạo ra một cách giả tạo thay vì được thu thập từ các nguồn trong thế giới thực. Nói chung, trong khi dữ liệu gốc được thu thập trong tất cả các tương tác của bạn với mọi người (khách hàng, bệnh nhân, v.v.) và thông qua tất cả các quy trình nội bộ của bạn, dữ liệu tổng hợp được tạo bởi thuật toán máy tính.

Dữ liệu tổng hợp cũng có thể được sử dụng để kiểm tra và đánh giá các mô hình trong môi trường được kiểm soát hoặc để bảo vệ thông tin nhạy cảm bằng cách tạo dữ liệu tương tự như dữ liệu trong thế giới thực nhưng không chứa bất kỳ thông tin nhạy cảm nào. Dữ liệu tổng hợp thường được sử dụng thay thế cho dữ liệu nhạy cảm về quyền riêng tư và có thể được sử dụng làm dữ liệu thử nghiệm, để phân tích hoặc để đào tạo máy học.

Tìm hiểu thêm

Việc đảm bảo rằng dữ liệu tổng hợp giữ chất lượng dữ liệu giống như dữ liệu gốc có thể là một thách thức và thường phụ thuộc vào trường hợp sử dụng cụ thể và các phương pháp được sử dụng để tạo dữ liệu tổng hợp. Một số phương pháp tạo dữ liệu tổng hợp, chẳng hạn như mô hình tổng hợp, có thể tạo ra dữ liệu rất giống với dữ liệu gốc. Câu hỏi chính: làm thế nào để chứng minh điều này?

Có một số cách để đảm bảo chất lượng của dữ liệu tổng hợp:

  • Số liệu chất lượng dữ liệu thông qua báo cáo chất lượng dữ liệu của chúng tôi: Một cách để đảm bảo rằng dữ liệu tổng hợp giữ chất lượng dữ liệu giống như dữ liệu gốc là sử dụng chỉ số chất lượng dữ liệu để so sánh dữ liệu tổng hợp với dữ liệu gốc. Các số liệu này có thể được sử dụng để đo lường những thứ như độ tương tự, độ chính xác và tính đầy đủ của dữ liệu. Phần mềm Syntho bao gồm một báo cáo chất lượng dữ liệu với các số liệu chất lượng dữ liệu khác nhau.
  • Đánh giá bên ngoài: vì chất lượng dữ liệu của dữ liệu tổng hợp so với dữ liệu gốc là yếu tố then chốt nên gần đây chúng tôi đã thực hiện đánh giá với các chuyên gia dữ liệu của SAS (dẫn đầu thị trường về phân tích) để chứng minh chất lượng dữ liệu của dữ liệu tổng hợp của Syntho so với dữ liệu thực. Edwin van Unen, chuyên gia phân tích từ SAS, đã đánh giá các bộ dữ liệu tổng hợp được tạo từ Syntho thông qua các đánh giá phân tích (AI) khác nhau và chia sẻ kết quả. Xem một đoạn tóm tắt ngắn về video đó tại đây.
  • Tự kiểm tra và đánh giá: dữ liệu tổng hợp có thể được kiểm tra và đánh giá bằng cách so sánh dữ liệu đó với dữ liệu trong thế giới thực hoặc bằng cách sử dụng dữ liệu đó để đào tạo các mô hình máy học và so sánh hiệu suất của chúng với các mô hình được đào tạo trên dữ liệu trong thế giới thực. Tại sao không tự mình kiểm tra chất lượng dữ liệu của dữ liệu tổng hợp? Hãy hỏi các chuyên gia của chúng tôi về các khả năng của việc này tại đây

Điều quan trọng cần lưu ý là dữ liệu tổng hợp không bao giờ có thể đảm bảo giống 100% với dữ liệu gốc, nhưng nó có thể đủ gần để hữu ích cho một trường hợp sử dụng cụ thể. Trường hợp sử dụng cụ thể này thậm chí có thể là các mô hình học máy hoặc phân tích nâng cao.

'Ẩn danh' cổ điển không phải lúc nào cũng là giải pháp tốt nhất, bởi vì:

  1. Rủi ro về quyền riêng tư - bạn sẽ luôn có
    một rủi ro riêng tư. Áp dụng những
    kỹ thuật ẩn danh cổ điển
    làm cho nó chỉ khó khăn hơn, nhưng không
    không thể xác định cá nhân.
  2. Phá hủy dữ liệu – bạn càng nhiều
    ẩn danh, bạn càng bảo vệ tốt hơn
    quyền riêng tư của bạn, nhưng bạn càng
    phá hủy dữ liệu của bạn. Đây không phải là những gì
    bạn muốn phân tích, bởi vì
    dữ liệu bị phá hủy sẽ dẫn đến xấu
    những hiểu biết sâu sắc.
  3. Mất thời gian - đó là một giải pháp
    mất rất nhiều thời gian, bởi vì
    những kỹ thuật đó hoạt động khác nhau
    mỗi tập dữ liệu và mỗi kiểu dữ liệu.

Dữ liệu tổng hợp nhằm mục đích giải quyết tất cả những bất cập này. Sự khác biệt nổi bật đến mức chúng tôi đã làm một video về nó. Xem nó ở đây.

Những câu hỏi thường gặp

Dữ liệu tổng hợp

Nói chung, hầu hết khách hàng của chúng tôi sử dụng dữ liệu tổng hợp để:

  • Kiểm thử và phát triển phần mềm
  • Dữ liệu tổng hợp để phân tích, phát triển mô hình và phân tích nâng cao (AI & ML)
  • Trình diễn sản phẩm

Đọc thêm và khám phá các trường hợp sử dụng.

Bản sao dữ liệu tổng hợp là bản sao do thuật toán tạo ra của bộ dữ liệu và/hoặc cơ sở dữ liệu trong thế giới thực. Với Bản sao dữ liệu tổng hợp, Syntho nhằm mục đích bắt chước một tập dữ liệu hoặc cơ sở dữ liệu gốc càng gần với dữ liệu gốc càng tốt để tạo ra một đại diện thực tế của bản gốc. Với bản sao dữ liệu tổng hợp, chúng tôi hướng đến chất lượng dữ liệu tổng hợp vượt trội so với dữ liệu gốc. Chúng tôi làm điều này với phần mềm dữ liệu tổng hợp sử dụng các mô hình AI tiên tiến nhất. Các mô hình AI đó tạo ra các điểm dữ liệu hoàn toàn mới và lập mô hình chúng theo cách mà chúng tôi bảo tồn các đặc điểm, mối quan hệ và mẫu thống kê của dữ liệu gốc đến mức bạn có thể sử dụng nó như thể đó là dữ liệu gốc.

Điều này có thể được sử dụng cho nhiều mục đích khác nhau, chẳng hạn như thử nghiệm và đào tạo các mô hình máy học, mô phỏng các kịch bản cho nghiên cứu và phát triển cũng như tạo môi trường ảo cho đào tạo và giáo dục. Cặp song sinh dữ liệu tổng hợp có thể được sử dụng để tạo dữ liệu thực tế và đại diện có thể được sử dụng thay cho dữ liệu trong thế giới thực khi không có sẵn hoặc khi việc sử dụng dữ liệu trong thế giới thực sẽ không thực tế hoặc phi đạo đức do các quy định nghiêm ngặt về quyền riêng tư dữ liệu.

Đọc thêm.

Vâng, chúng tôi làm. Chúng tôi cung cấp nhiều tính năng tăng cường và tối ưu hóa dữ liệu tổng hợp có giá trị gia tăng khác nhau, bao gồm cả tính năng mô phỏng, để đưa dữ liệu của bạn lên một tầm cao mới.

Đọc thêm.

Dữ liệu giả và dữ liệu tổng hợp do AI tạo ra đều là các loại dữ liệu tổng hợp, nhưng chúng được tạo theo những cách khác nhau và phục vụ các mục đích khác nhau.

Dữ liệu giả là một loại dữ liệu tổng hợp được tạo thủ công và thường được sử dụng cho mục đích thử nghiệm và phát triển. Nó thường được sử dụng để mô phỏng hành vi của dữ liệu trong thế giới thực trong môi trường được kiểm soát và thường được sử dụng để kiểm tra chức năng của hệ thống hoặc ứng dụng. Nó thường đơn giản, dễ tạo và không yêu cầu các mô hình hoặc thuật toán phức tạp. Thông thường, một người giới thiệu cũng giả định dữ liệu là “dữ liệu giả” hoặc “dữ liệu giả”.

Mặt khác, dữ liệu tổng hợp do AI tạo ra được tạo bằng các kỹ thuật trí tuệ nhân tạo, chẳng hạn như học máy hoặc mô hình tổng quát. Nó được sử dụng để tạo dữ liệu thực tế và đại diện có thể được sử dụng thay cho dữ liệu trong thế giới thực khi việc sử dụng dữ liệu trong thế giới thực sẽ không thực tế hoặc phi đạo đức do các quy định nghiêm ngặt về quyền riêng tư. Nó thường phức tạp hơn và đòi hỏi nhiều tài nguyên tính toán hơn so với dữ liệu giả thủ công. Do đó, nó thực tế hơn nhiều và bắt chước dữ liệu gốc càng gần càng tốt.

Tóm lại, dữ liệu giả được tạo thủ công và thường được sử dụng để thử nghiệm và phát triển, trong khi dữ liệu tổng hợp do AI tạo được tạo bằng kỹ thuật trí tuệ nhân tạo và được sử dụng để tạo dữ liệu đại diện và thực tế.

Thêm câu hỏi? Hỏi chuyên gia của chúng tôi

Chất lượng dữ liệu

Việc đảm bảo rằng dữ liệu tổng hợp giữ chất lượng dữ liệu giống như dữ liệu gốc có thể là một thách thức và thường phụ thuộc vào trường hợp sử dụng cụ thể và các phương pháp được sử dụng để tạo dữ liệu tổng hợp. Một số phương pháp tạo dữ liệu tổng hợp, chẳng hạn như mô hình tổng hợp, có thể tạo ra dữ liệu rất giống với dữ liệu gốc. Câu hỏi chính: làm thế nào để chứng minh điều này?

Có một số cách để đảm bảo chất lượng của dữ liệu tổng hợp:

  • Số liệu chất lượng dữ liệu thông qua báo cáo chất lượng dữ liệu của chúng tôi: Một cách để đảm bảo rằng dữ liệu tổng hợp giữ chất lượng dữ liệu giống như dữ liệu gốc là sử dụng chỉ số chất lượng dữ liệu để so sánh dữ liệu tổng hợp với dữ liệu gốc. Các số liệu này có thể được sử dụng để đo lường những thứ như độ tương tự, độ chính xác và tính đầy đủ của dữ liệu. Phần mềm Syntho bao gồm một báo cáo chất lượng dữ liệu với các số liệu chất lượng dữ liệu khác nhau.
  • Đánh giá bên ngoài: vì chất lượng dữ liệu của dữ liệu tổng hợp so với dữ liệu gốc là yếu tố then chốt nên gần đây chúng tôi đã thực hiện đánh giá với các chuyên gia dữ liệu của SAS (dẫn đầu thị trường về phân tích) để chứng minh chất lượng dữ liệu của dữ liệu tổng hợp của Syntho so với dữ liệu thực. Edwin van Unen, chuyên gia phân tích từ SAS, đã đánh giá các bộ dữ liệu tổng hợp được tạo từ Syntho thông qua các đánh giá phân tích (AI) khác nhau và chia sẻ kết quả. Xem một đoạn tóm tắt ngắn về video đó tại đây.
  • Tự kiểm tra và đánh giá: dữ liệu tổng hợp có thể được kiểm tra và đánh giá bằng cách so sánh dữ liệu đó với dữ liệu trong thế giới thực hoặc bằng cách sử dụng dữ liệu đó để đào tạo các mô hình máy học và so sánh hiệu suất của chúng với các mô hình được đào tạo trên dữ liệu trong thế giới thực. Tại sao không tự mình kiểm tra chất lượng dữ liệu của dữ liệu tổng hợp? Hãy hỏi các chuyên gia của chúng tôi về các khả năng của việc này tại đây

Điều quan trọng cần lưu ý là dữ liệu tổng hợp không bao giờ có thể đảm bảo giống 100% với dữ liệu gốc, nhưng nó có thể đủ gần để hữu ích cho một trường hợp sử dụng cụ thể. Trường hợp sử dụng cụ thể này thậm chí có thể là các mô hình học máy hoặc phân tích nâng cao.

Vâng, đúng vậy. Dữ liệu tổng hợp thậm chí còn lưu giữ các mẫu mà bạn không biết chúng có trong dữ liệu gốc.

Nhưng đừng chỉ lấy lời của chúng tôi cho nó. Các chuyên gia phân tích của SAS (công ty dẫn đầu thị trường toàn cầu về phân tích) đã thực hiện đánh giá (AI) về dữ liệu tổng hợp của chúng tôi và so sánh với dữ liệu gốc. Tò mò? Xem toàn bộ sự kiện ở đây hoặc xem phiên bản ngắn về chất lượng dữ liệu ở đây.

Vâng, chúng tôi làm. Nền tảng của chúng tôi được tối ưu hóa cho cơ sở dữ liệu và do đó, duy trì tính toàn vẹn tham chiếu giữa các bộ dữ liệu trong cơ sở dữ liệu.

Bạn muốn tìm hiểu thêm về điều này?

Hỏi các chuyên gia của chúng tôi trực tiếp.

Quyền riêng tư

Không, chúng tôi không. Chúng tôi có thể dễ dàng triển khai Syntho Engine tại chỗ hoặc trên đám mây riêng của bạn thông qua docker.

Không. Chúng tôi đã tối ưu hóa nền tảng của mình theo cách có thể dễ dàng triển khai nền tảng này trong môi trường đáng tin cậy của khách hàng. Điều này đảm bảo rằng dữ liệu sẽ không bao giờ rời khỏi môi trường đáng tin cậy của khách hàng. Các tùy chọn triển khai cho môi trường đáng tin cậy của khách hàng là “tại chỗ” và trong “môi trường đám mây của khách hàng (đám mây riêng)”.

Tùy chọn: Syntho hỗ trợ phiên bản được lưu trữ trong “đám mây Syntho”.

Không. Syntho Engine là một nền tảng tự phục vụ. Kết quả là, có thể tạo dữ liệu tổng hợp bằng Công cụ Syntho theo cách mà trong end-to-end xử lý, Syntho không bao giờ có thể nhìn thấy và không bao giờ được yêu cầu xử lý dữ liệu.

Có, chúng tôi làm điều này thông qua báo cáo QA của chúng tôi.

 

Khi tổng hợp một tập dữ liệu, điều cần thiết là phải chứng minh rằng người ta không thể xác định lại các cá nhân. Trong video này, Marijn giới thiệu các biện pháp bảo mật có trong báo cáo chất lượng của chúng tôi để chứng minh điều này.

Báo cáo QA của Syntho chứa ba tiêu chuẩn công nghiệp thước đo để đánh giá quyền riêng tư dữ liệu. Ý tưởng đằng sau mỗi số liệu này như sau:

  • Dữ liệu tổng hợp (S) phải “càng gần càng tốt”, nhưng “không quá gần” với dữ liệu đích (T).
  • Dữ liệu giữ lại được chọn ngẫu nhiên (H) xác định điểm chuẩn cho “quá gần”.
  • A Giải pháp hoàn hảo tạo dữ liệu tổng hợp mới hoạt động chính xác như dữ liệu gốc, nhưng chưa từng thấy trước đây (= H).

Một trong những trường hợp sử dụng được Cơ quan bảo vệ dữ liệu Hà Lan nêu bật cụ thể là sử dụng dữ liệu tổng hợp làm dữ liệu thử nghiệm.

Nhiều hơn có thể được tìm thấy trong bài viết này.

Công cụ Syntho

Công cụ Syntho được vận chuyển trong một thùng chứa Docker và có thể dễ dàng triển khai và cắm vào môi trường bạn chọn.

Các tùy chọn triển khai có thể có bao gồm:

  • On-tiền đề
  • Mọi đám mây (riêng tư)
  • Bất kỳ môi trường nào khác

Tìm hiểu thêm.

Syntho cho phép bạn dễ dàng kết nối với cơ sở dữ liệu, ứng dụng, đường ống dẫn dữ liệu hoặc hệ thống tệp của mình. 

Chúng tôi hỗ trợ các trình kết nối tích hợp khác nhau để bạn có thể kết nối với môi trường nguồn (nơi lưu trữ dữ liệu gốc) và môi trường đích (nơi bạn muốn ghi dữ liệu tổng hợp của mình vào) để end-to-end cách tiếp cận tích hợp.

Các tính năng kết nối mà chúng tôi hỗ trợ:

  • Plug-and-play với Docker
  • 20+ trình kết nối cơ sở dữ liệu
  • Hơn 20 trình kết nối hệ thống tập tin

Tìm hiểu thêm.

Đương nhiên, thời gian tạo phụ thuộc vào kích thước của cơ sở dữ liệu. Trung bình, một bảng có dưới 1 triệu bản ghi được tổng hợp trong vòng chưa đầy 5 phút.

Các thuật toán máy học của Syntho có thể khái quát hóa tốt hơn các tính năng với nhiều bản ghi thực thể hơn, giúp giảm rủi ro về quyền riêng tư. Nên sử dụng tỷ lệ cột trên hàng tối thiểu là 1:500. Ví dụ: nếu bảng nguồn của bạn có 6 cột, thì bảng đó phải chứa tối thiểu 3000 hàng.

Không có gì. Mặc dù có thể mất một chút công sức để hiểu hết các ưu điểm, cách hoạt động và các trường hợp sử dụng của dữ liệu tổng hợp, quá trình tổng hợp rất đơn giản và bất kỳ ai có kiến ​​thức máy tính cơ bản đều có thể làm được. Để biết thêm thông tin về quá trình tổng hợp, hãy xem trang này or yêu cầu bản demo.

Công cụ Syntho hoạt động tốt nhất trên dữ liệu dạng bảng, có cấu trúc (bất kỳ thứ gì có chứa hàng và cột). Trong các cấu trúc này, chúng tôi hỗ trợ các loại dữ liệu sau:

  • Dữ liệu cấu trúc được định dạng trong bảng (phân loại, số, v.v.)
  • Định danh trực tiếp và PII
  • Bộ dữ liệu và cơ sở dữ liệu lớn
  • Dữ liệu vị trí địa lý (như GPS)
  • Dữ liệu chuỗi thời gian
  • Cơ sở dữ liệu nhiều bảng (với tính toàn vẹn tham chiếu)
  • Mở dữ liệu văn bản

 

Hỗ trợ dữ liệu phức tạp
Bên cạnh tất cả các loại dữ liệu dạng bảng thông thường, Syntho Engine hỗ trợ các loại dữ liệu phức tạp và cấu trúc dữ liệu phức tạp.

  • Chuỗi thời gian
  • Cơ sở dữ liệu nhiều bảng
  • Mở văn bản

Tìm hiểu thêm.

Không, chúng tôi đã tối ưu hóa nền tảng của mình để giảm thiểu các yêu cầu tính toán (ví dụ: không yêu cầu GPU) mà không ảnh hưởng đến độ chính xác của dữ liệu. Ngoài ra, chúng tôi hỗ trợ tự động mở rộng quy mô để người ta có thể tổng hợp cơ sở dữ liệu khổng lồ.

Đúng. Phần mềm Syntho được tối ưu hóa cho cơ sở dữ liệu chứa nhiều bảng.

Đối với điều này, Syntho tự động phát hiện các loại dữ liệu, lược đồ và định dạng để tối đa hóa độ chính xác của dữ liệu. Đối với cơ sở dữ liệu nhiều bảng, chúng tôi hỗ trợ suy luận và tổng hợp mối quan hệ bảng tự động để duy trì tính toàn vẹn của tham chiếu.

nhóm người mỉm cười

Dữ liệu là tổng hợp, nhưng nhóm của chúng tôi là có thật!

Liên hệ với Syntho và một trong những chuyên gia của chúng tôi sẽ liên hệ với bạn với tốc độ ánh sáng để khám phá giá trị của dữ liệu tổng hợp!