ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯ ಡೇಟಾ ಪರೀಕ್ಷೆಯನ್ನು ನಡೆಸುವ ಮೊದಲು ನಿಮ್ಮ ಡೇಟಾವನ್ನು ನೀವು ಅನಾಮಧೇಯಗೊಳಿಸಿದರೆ, ಆಟದಲ್ಲಿ ಹಲವಾರು ಅಂಶಗಳಿವೆ:
ಸಂಶ್ಲೇಷಿತ ಡೇಟಾವು ಈ ಎಲ್ಲಾ ನ್ಯೂನತೆಗಳನ್ನು ಮತ್ತು ಹೆಚ್ಚಿನದನ್ನು ಪರಿಹರಿಸುತ್ತದೆ. ಮೂಲ ಡೇಟಾ, ಅನಾಮಧೇಯ ಡೇಟಾ ಮತ್ತು ಸಿಂಥೋ ರಚಿಸಿದ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ನಡುವಿನ ಗುಣಮಟ್ಟದಲ್ಲಿನ ವ್ಯತ್ಯಾಸದ ಕುರಿತು SAS (ಅನಾಲಿಟಿಕ್ಸ್ನಲ್ಲಿ ಜಾಗತಿಕ ಮಾರುಕಟ್ಟೆಯ ನಾಯಕ) ವಿಶ್ಲೇಷಣಾ ತಜ್ಞರು ವಿವರಿಸುವುದನ್ನು ನೋಡಲು ಕೆಳಗಿನ ವೀಡಿಯೊವನ್ನು ವೀಕ್ಷಿಸಿ.
ಈ ವೀಡಿಯೊವನ್ನು ಸಿಂಥೋ x SAS D[N]A ಕೆಫೆಯಿಂದ AI ರಚಿತ ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ಕುರಿತು ಸೆರೆಹಿಡಿಯಲಾಗಿದೆ. ಪೂರ್ಣ ವೀಡಿಯೊವನ್ನು ಇಲ್ಲಿ ಹುಡುಕಿ.
ಎಡ್ವಿನ್ ವ್ಯಾನ್ ಯುನೆನ್ ಅವರು ಸಿಂಥೋಗೆ ಮೂಲ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಕಳುಹಿಸಿದ್ದಾರೆ ಮತ್ತು ನಾವು ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಂಶ್ಲೇಷಿಸಿದ್ದೇವೆ. ಆದರೆ ಪ್ರಶ್ನೆ ಹೀಗಿತ್ತು: "ನಾವು ಸಂಶ್ಲೇಷಿತ ಡೇಟಾವನ್ನು ಅನಾಮಧೇಯ ಡೇಟಾಗೆ ಹೋಲಿಸಿದರೆ ಏನಾಗುತ್ತದೆ?" ಅನಾಮಧೇಯ ಡೇಟಾದಲ್ಲಿ ನೀವು ಬಹಳಷ್ಟು ಮಾಹಿತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುವ ಕಾರಣ, ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಂಶ್ಲೇಷಿಸುವಾಗ ಇದು ಸಂಭವಿಸುತ್ತದೆಯೇ? ನಾವು 56.000 ಸಾಲುಗಳು ಮತ್ತು 128 ಕಾಲಮ್ಗಳ ಕಂಪನಿ ಚರ್ನ್-ಮಾಹಿತಿಗಳೊಂದಿಗೆ ದೂರಸಂಪರ್ಕ ಉದ್ಯಮದಿಂದ ಡೇಟಾಸೆಟ್ನೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಿದ್ದೇವೆ. ಈ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಸಂಶ್ಲೇಷಿಸಲಾಗಿದೆ ಮತ್ತು ಅನಾಮಧೇಯಗೊಳಿಸಲಾಗಿದೆ ಆದ್ದರಿಂದ ಎಡ್ವಿನ್ ಸಂಶ್ಲೇಷಣೆಯನ್ನು ಅನಾಮಧೇಯಗೊಳಿಸುವಿಕೆಯೊಂದಿಗೆ ಹೋಲಿಸಬಹುದು. ನಂತರ, ಎಡ್ವಿನ್ SAS Viya ಬಳಸಿ ಮಾಡೆಲಿಂಗ್ ಪ್ರಾರಂಭಿಸಿದರು. ಅವರು ಮೂಲ ಡೇಟಾಸೆಟ್ನಲ್ಲಿ ಕ್ಲಾಸಿಕಲ್ ರಿಗ್ರೆಶನ್ ತಂತ್ರಗಳು ಮತ್ತು ನಿರ್ಧಾರ ಟ್ರೀಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಒಂದೆರಡು ಚರ್ನ್ ಮಾಡೆಲ್ಗಳನ್ನು ನಿರ್ಮಿಸಿದರು, ಆದರೆ ನರಮಂಡಲಗಳು, ಗ್ರೇಡಿಯಂಟ್ ಬೂಸ್ಟಿಂಗ್, ಯಾದೃಚ್ಛಿಕ ಅರಣ್ಯದಂತಹ ಹೆಚ್ಚು ಅತ್ಯಾಧುನಿಕ ತಂತ್ರಗಳನ್ನು ಬಳಸಿದರು - ಈ ರೀತಿಯ ತಂತ್ರಗಳು. ಮಾದರಿಗಳನ್ನು ನಿರ್ಮಿಸುವಾಗ ಪ್ರಮಾಣಿತ SAS Viya ಆಯ್ಕೆಗಳನ್ನು ಬಳಸುವುದು.
ನಂತರ, ಫಲಿತಾಂಶಗಳನ್ನು ನೋಡುವ ಸಮಯ. ಫಲಿತಾಂಶಗಳು ಸಂಶ್ಲೇಷಿತ ದತ್ತಾಂಶಕ್ಕೆ ಬಹಳ ಭರವಸೆ ನೀಡುತ್ತವೆ ಮತ್ತು ಅನಾಮಧೇಯತೆಗೆ ಅಲ್ಲ. ಪ್ರೇಕ್ಷಕರಲ್ಲಿ ಯಂತ್ರ-ಕಲಿಕೆ ತಜ್ಞರಲ್ಲದವರಿಗೆ, ನಾವು ROC-ಕರ್ವ್ ಅಡಿಯಲ್ಲಿ ಪ್ರದೇಶವನ್ನು ನೋಡುತ್ತೇವೆ ಅದು ಮಾದರಿಯ ನಿಖರತೆಯ ಬಗ್ಗೆ ಏನನ್ನಾದರೂ ಹೇಳುತ್ತದೆ. ಮೂಲ ಡೇಟಾವನ್ನು ಅನಾಮಧೇಯ ಡೇಟಾಗೆ ಹೋಲಿಸಿದಾಗ, ಮೂಲ ಡೇಟಾ ಮಾದರಿಯು .8 ರ ROC-ಕರ್ವ್ ಅಡಿಯಲ್ಲಿ ಒಂದು ಪ್ರದೇಶವನ್ನು ಹೊಂದಿದೆ ಎಂದು ನಾವು ನೋಡುತ್ತೇವೆ, ಇದು ಬಹಳ ಒಳ್ಳೆಯದು, ಆದಾಗ್ಯೂ, ಅನಾಮಧೇಯ ಡೇಟಾವು .6 ರ ROC-ಕರ್ವ್ ಅಡಿಯಲ್ಲಿ ಪ್ರದೇಶವನ್ನು ಹೊಂದಿದೆ. ಇದರರ್ಥ ನಾವು ಅನಾಮಧೇಯ ಮಾಡೆಲ್ನೊಂದಿಗೆ ಸಾಕಷ್ಟು ಮಾಹಿತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತೇವೆ ಆದ್ದರಿಂದ ನೀವು ಸಾಕಷ್ಟು ಮುನ್ಸೂಚಕ ಶಕ್ತಿಯನ್ನು ಕಳೆದುಕೊಳ್ಳುತ್ತೀರಿ.
ಆದರೆ ನಂತರ, ಪ್ರಶ್ನೆ ಸಿಂಥೆಟಿಕ್ಸ್ ಡೇಟಾ ಬಗ್ಗೆ ಏನು? ಇಲ್ಲಿ, ನಾವು ನಿಖರವಾಗಿ ಅದೇ ಮಾಡಿದ್ದೇವೆ ಆದರೆ ಡೇಟಾವನ್ನು ಅನಾಮಧೇಯಗೊಳಿಸುವ ಬದಲು, ಸಿಂಥೋ ಡೇಟಾವನ್ನು ಸಂಶ್ಲೇಷಿಸಿದೆ. ಈಗ, ನಾವು ಮೂಲ ಡೇಟಾ ಮತ್ತು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾ ಎರಡನ್ನೂ ROC-ಕರ್ವ್ .8 ಅಡಿಯಲ್ಲಿ ಒಂದು ಪ್ರದೇಶವನ್ನು ಹೊಂದಿದ್ದೇವೆ, ಅದು ತುಂಬಾ ಹೋಲುತ್ತದೆ. ವ್ಯತ್ಯಾಸದಿಂದಾಗಿ ನಿಖರವಾಗಿ ಒಂದೇ ಅಲ್ಲ, ಆದರೆ ತುಂಬಾ ಹೋಲುತ್ತದೆ. ಇದರರ್ಥ, ಸಂಶ್ಲೇಷಿತ ದತ್ತಾಂಶದ ಸಾಮರ್ಥ್ಯವು ಬಹಳ ಭರವಸೆಯಿದೆ - ಎಡ್ವಿನ್ ಈ ಬಗ್ಗೆ ತುಂಬಾ ಸಂತೋಷವಾಗಿದೆ.
ಸಿಂಥೋ ಅವರನ್ನು ಸಂಪರ್ಕಿಸಿ ಮತ್ತು ಸಿಂಥೆಟಿಕ್ ಡೇಟಾದ ಮೌಲ್ಯವನ್ನು ಅನ್ವೇಷಿಸಲು ನಮ್ಮ ತಜ್ಞರಲ್ಲಿ ಒಬ್ಬರು ಬೆಳಕಿನ ವೇಗದಲ್ಲಿ ನಿಮ್ಮೊಂದಿಗೆ ಸಂಪರ್ಕದಲ್ಲಿರುತ್ತಾರೆ!