ಅನಾಮಧೇಯ ಡೇಟಾ ವಿರುದ್ಧ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ

ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯ ಡೇಟಾ ಪರೀಕ್ಷೆಯನ್ನು ನಡೆಸುವ ಮೊದಲು ನಿಮ್ಮ ಡೇಟಾವನ್ನು ನೀವು ಅನಾಮಧೇಯಗೊಳಿಸಿದರೆ, ಆಟದಲ್ಲಿ ಹಲವಾರು ಅಂಶಗಳಿವೆ:

  1. ಬಹುತೇಕ ಎಲ್ಲಾ ಸಂದರ್ಭಗಳಲ್ಲಿ, ನಿರ್ದಿಷ್ಟ ಮತ್ತು ಅನನ್ಯ ಸಾಲುಗಳ ಕಾರಣದಿಂದಾಗಿ ಅನಾಮಧೇಯ ಡೇಟಾವನ್ನು ಇನ್ನೂ ವ್ಯಕ್ತಿಗಳಿಗೆ ಹಿಂತಿರುಗಿಸಬಹುದು (ಉದಾ ವೈದ್ಯಕೀಯ ದಾಖಲೆಗಳು)
  2. ನೀವು ಹೆಚ್ಚು ಅನಾಮಧೇಯ ಅಥವಾ ಸಾಮಾನ್ಯೀಕರಣಗೊಳಿಸಿದರೆ, ನೀವು ಹೆಚ್ಚು ಡೇಟಾವನ್ನು ನಾಶಪಡಿಸುತ್ತೀರಿ. ಇದು ನಿಮ್ಮ ಡೇಟಾದ ಗುಣಮಟ್ಟವನ್ನು ಮತ್ತು ನಿಮ್ಮ ಒಳನೋಟಗಳನ್ನು ಕಡಿಮೆ ಮಾಡುತ್ತದೆ
  3. ವಿಭಿನ್ನ ಡೇಟಾ ಸ್ವರೂಪಗಳಿಗೆ ಅನಾಮಧೇಯತೆಯು ವಿಭಿನ್ನವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ. ಇದರರ್ಥ ಇದು ಸ್ಕೇಲೆಬಲ್ ಅಲ್ಲ ಮತ್ತು ಹೆಚ್ಚು ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ

ಸಂಶ್ಲೇಷಿತ ಡೇಟಾವು ಈ ಎಲ್ಲಾ ನ್ಯೂನತೆಗಳನ್ನು ಮತ್ತು ಹೆಚ್ಚಿನದನ್ನು ಪರಿಹರಿಸುತ್ತದೆ. ಮೂಲ ಡೇಟಾ, ಅನಾಮಧೇಯ ಡೇಟಾ ಮತ್ತು ಸಿಂಥೋ ರಚಿಸಿದ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ನಡುವಿನ ಗುಣಮಟ್ಟದಲ್ಲಿನ ವ್ಯತ್ಯಾಸದ ಕುರಿತು SAS (ಅನಾಲಿಟಿಕ್ಸ್‌ನಲ್ಲಿ ಜಾಗತಿಕ ಮಾರುಕಟ್ಟೆಯ ನಾಯಕ) ವಿಶ್ಲೇಷಣಾ ತಜ್ಞರು ವಿವರಿಸುವುದನ್ನು ನೋಡಲು ಕೆಳಗಿನ ವೀಡಿಯೊವನ್ನು ವೀಕ್ಷಿಸಿ.

ಈ ವೀಡಿಯೊವನ್ನು ಸಿಂಥೋ x SAS D[N]A ಕೆಫೆಯಿಂದ AI ರಚಿತ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ಕುರಿತು ಸೆರೆಹಿಡಿಯಲಾಗಿದೆ. ಪೂರ್ಣ ವೀಡಿಯೊವನ್ನು ಇಲ್ಲಿ ಹುಡುಕಿ.

ಎಡ್ವಿನ್ ವ್ಯಾನ್ ಯುನೆನ್ ಅವರು ಸಿಂಥೋಗೆ ಮೂಲ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಕಳುಹಿಸಿದ್ದಾರೆ ಮತ್ತು ನಾವು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಂಶ್ಲೇಷಿಸಿದ್ದೇವೆ. ಆದರೆ ಪ್ರಶ್ನೆ ಹೀಗಿತ್ತು: "ನಾವು ಸಂಶ್ಲೇಷಿತ ಡೇಟಾವನ್ನು ಅನಾಮಧೇಯ ಡೇಟಾಗೆ ಹೋಲಿಸಿದರೆ ಏನಾಗುತ್ತದೆ?" ಅನಾಮಧೇಯ ಡೇಟಾದಲ್ಲಿ ನೀವು ಬಹಳಷ್ಟು ಮಾಹಿತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುವ ಕಾರಣ, ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಂಶ್ಲೇಷಿಸುವಾಗ ಇದು ಸಂಭವಿಸುತ್ತದೆಯೇ? ನಾವು 56.000 ಸಾಲುಗಳು ಮತ್ತು 128 ಕಾಲಮ್‌ಗಳ ಕಂಪನಿ ಚರ್ನ್-ಮಾಹಿತಿಗಳೊಂದಿಗೆ ದೂರಸಂಪರ್ಕ ಉದ್ಯಮದಿಂದ ಡೇಟಾಸೆಟ್‌ನೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ. ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಂಶ್ಲೇಷಿಸಲಾಗಿದೆ ಮತ್ತು ಅನಾಮಧೇಯಗೊಳಿಸಲಾಗಿದೆ ಆದ್ದರಿಂದ ಎಡ್ವಿನ್ ಸಂಶ್ಲೇಷಣೆಯನ್ನು ಅನಾಮಧೇಯಗೊಳಿಸುವಿಕೆಯೊಂದಿಗೆ ಹೋಲಿಸಬಹುದು. ನಂತರ, ಎಡ್ವಿನ್ SAS Viya ಬಳಸಿ ಮಾಡೆಲಿಂಗ್ ಪ್ರಾರಂಭಿಸಿದರು. ಅವರು ಮೂಲ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಕ್ಲಾಸಿಕಲ್ ರಿಗ್ರೆಶನ್ ತಂತ್ರಗಳು ಮತ್ತು ನಿರ್ಧಾರ ಟ್ರೀಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಒಂದೆರಡು ಚರ್ನ್ ಮಾಡೆಲ್‌ಗಳನ್ನು ನಿರ್ಮಿಸಿದರು, ಆದರೆ ನರಮಂಡಲಗಳು, ಗ್ರೇಡಿಯಂಟ್ ಬೂಸ್ಟಿಂಗ್, ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯದಂತಹ ಹೆಚ್ಚು ಅತ್ಯಾಧುನಿಕ ತಂತ್ರಗಳನ್ನು ಬಳಸಿದರು - ಈ ರೀತಿಯ ತಂತ್ರಗಳು. ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸುವಾಗ ಪ್ರಮಾಣಿತ SAS Viya ಆಯ್ಕೆಗಳನ್ನು ಬಳಸುವುದು.

ನಂತರ, ಫಲಿತಾಂಶಗಳನ್ನು ನೋಡುವ ಸಮಯ. ಫಲಿತಾಂಶಗಳು ಸಂಶ್ಲೇಷಿತ ದತ್ತಾಂಶಕ್ಕೆ ಬಹಳ ಭರವಸೆ ನೀಡುತ್ತವೆ ಮತ್ತು ಅನಾಮಧೇಯತೆಗೆ ಅಲ್ಲ. ಪ್ರೇಕ್ಷಕರಲ್ಲಿ ಯಂತ್ರ-ಕಲಿಕೆ ತಜ್ಞರಲ್ಲದವರಿಗೆ, ನಾವು ROC-ಕರ್ವ್ ಅಡಿಯಲ್ಲಿ ಪ್ರದೇಶವನ್ನು ನೋಡುತ್ತೇವೆ ಅದು ಮಾದರಿಯ ನಿಖರತೆಯ ಬಗ್ಗೆ ಏನನ್ನಾದರೂ ಹೇಳುತ್ತದೆ. ಮೂಲ ಡೇಟಾವನ್ನು ಅನಾಮಧೇಯ ಡೇಟಾಗೆ ಹೋಲಿಸಿದಾಗ, ಮೂಲ ಡೇಟಾ ಮಾದರಿಯು .8 ರ ROC-ಕರ್ವ್ ಅಡಿಯಲ್ಲಿ ಒಂದು ಪ್ರದೇಶವನ್ನು ಹೊಂದಿದೆ ಎಂದು ನಾವು ನೋಡುತ್ತೇವೆ, ಇದು ಬಹಳ ಒಳ್ಳೆಯದು, ಆದಾಗ್ಯೂ, ಅನಾಮಧೇಯ ಡೇಟಾವು .6 ರ ROC-ಕರ್ವ್ ಅಡಿಯಲ್ಲಿ ಪ್ರದೇಶವನ್ನು ಹೊಂದಿದೆ. ಇದರರ್ಥ ನಾವು ಅನಾಮಧೇಯ ಮಾಡೆಲ್‌ನೊಂದಿಗೆ ಸಾಕಷ್ಟು ಮಾಹಿತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತೇವೆ ಆದ್ದರಿಂದ ನೀವು ಸಾಕಷ್ಟು ಮುನ್ಸೂಚಕ ಶಕ್ತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತೀರಿ.

ಆದರೆ ನಂತರ, ಪ್ರಶ್ನೆ ಸಿಂಥೆಟಿಕ್ಸ್ ಡೇಟಾ ಬಗ್ಗೆ ಏನು? ಇಲ್ಲಿ, ನಾವು ನಿಖರವಾಗಿ ಅದೇ ಮಾಡಿದ್ದೇವೆ ಆದರೆ ಡೇಟಾವನ್ನು ಅನಾಮಧೇಯಗೊಳಿಸುವ ಬದಲು, ಸಿಂಥೋ ಡೇಟಾವನ್ನು ಸಂಶ್ಲೇಷಿಸಿದೆ. ಈಗ, ನಾವು ಮೂಲ ಡೇಟಾ ಮತ್ತು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಎರಡನ್ನೂ ROC-ಕರ್ವ್ .8 ಅಡಿಯಲ್ಲಿ ಒಂದು ಪ್ರದೇಶವನ್ನು ಹೊಂದಿದ್ದೇವೆ, ಅದು ತುಂಬಾ ಹೋಲುತ್ತದೆ. ವ್ಯತ್ಯಾಸದಿಂದಾಗಿ ನಿಖರವಾಗಿ ಒಂದೇ ಅಲ್ಲ, ಆದರೆ ತುಂಬಾ ಹೋಲುತ್ತದೆ. ಇದರರ್ಥ, ಸಂಶ್ಲೇಷಿತ ದತ್ತಾಂಶದ ಸಾಮರ್ಥ್ಯವು ಬಹಳ ಭರವಸೆಯಿದೆ - ಎಡ್ವಿನ್ ಈ ಬಗ್ಗೆ ತುಂಬಾ ಸಂತೋಷವಾಗಿದೆ.

ನಗುತ್ತಿರುವ ಜನರ ಗುಂಪು

ಡೇಟಾ ಸಿಂಥೆಟಿಕ್ ಆಗಿದೆ, ಆದರೆ ನಮ್ಮ ತಂಡವು ನಿಜವಾಗಿದೆ!

ಸಿಂಥೋ ಅವರನ್ನು ಸಂಪರ್ಕಿಸಿ ಮತ್ತು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ಮೌಲ್ಯವನ್ನು ಅನ್ವೇಷಿಸಲು ನಮ್ಮ ತಜ್ಞರಲ್ಲಿ ಒಬ್ಬರು ಬೆಳಕಿನ ವೇಗದಲ್ಲಿ ನಿಮ್ಮೊಂದಿಗೆ ಸಂಪರ್ಕದಲ್ಲಿರುತ್ತಾರೆ!