איך מפחיתים הטיה ב-Teradata?
איך מפחיתים הטיה ב-Teradata?

וִידֵאוֹ: איך מפחיתים הטיה ב-Teradata?

וִידֵאוֹ: איך מפחיתים הטיה ב-Teradata?
וִידֵאוֹ: Stephen Brobst (Teradata) - Eliminating Bias in the Deployment of Machine Learning 2024, נוֹבֶמבֶּר
Anonim

ל להימנע מעקמת , נסה לבחור אינדקס ראשי שיש לו כמה שיותר ערכים ייחודיים. לעמודות PI כמו חודש, יום וכו' יהיו מעט מאוד ערכים ייחודיים. אז במהלך הפצת הנתונים רק כמה אמפר יחזיקו את כל הנתונים שיתקבלו לְסַלֵף.

בהתאם, מה זה הטיה ב-Teradata?

עיוות פנימה Teradata . הַגדָרָה. עקמת הוא המונח הסטטיסטי, המתייחס להתפלגות השורות ב-AMPs. אם הנתונים מוטים מאוד, זה אומר שלחלק מה-AMPs יש יותר שורות ולחלקם פחות, כלומר הנתונים אינם מופצים נכון/שווה. זה משפיע על הביצועים/ של Teradata מַקבִּילוּת.

כמו כן, מהו הטיית טבלה? ה הטיית שולחן תיבת הדו-שיח מחפשת מסדי נתונים במערכת שיש להם הפצת נתונים לא אחידה (או לְסַלֵף ) מבוסס על סף התפשטות. פרוסות הנתונים הללו וה-SPUs שמנהלים אותם הופכים לצוואר בקבוק ביצועים עבור השאילתות שלך. חלוקה לא אחידה של נתונים נקראת לְסַלֵף . אופטימלי שולחן להפצה אין לְסַלֵף.

בהתאם, מהו הטיית מעבד ב-Teradata?

הטיית מעבד מתרחש כאשר העבודה לביצוע שאילתה אינה מתחלקת באופן שווה בין הפלחים. ה מעבד מדד הוא הממוצע של ה מעבד אחוזים המשמשים את כל תהליך המבצע את השאילתה.

מה זה AMP ב-Teradata?

הַגדָרָה. AMP , ראשי תיבות של "Access Module Processor", הוא סוג ה-vproc (מעבד וירטואלי) המשמש לניהול מסד הנתונים, טיפול במשימות קבצים ותפעול של תת-מערכת הדיסק בסביבת ריבוי משימות ואולי גם מקבילי עיבוד של Teradata מאגר מידע.

מוּמלָץ: