תוכן עניינים:

כיצד אוכל לשפר את ביצועי ה-sqoop שלי?
כיצד אוכל לשפר את ביצועי ה-sqoop שלי?

וִידֵאוֹ: כיצד אוכל לשפר את ביצועי ה-sqoop שלי?

וִידֵאוֹ: כיצד אוכל לשפר את ביצועי ה-sqoop שלי?
וִידֵאוֹ: Apache Sqoop Tutorial | Sqoop: Import & Export Data From MySQL To HDFS | Hadoop Training | Edureka 2024, נוֹבֶמבֶּר
Anonim

כדי לייעל ביצועים , סט ה מספר משימות המפה לערך נמוך מ ה מספר מקסימלי של חיבורים ה מסד נתונים תומך. שליטה ה כמות ההקבלה ש סקופ ישתמש להעברת נתונים הוא ה הדרך העיקרית לשלוט ה להעמיס על שֶׁלְךָ מאגר מידע.

בהתאם, מה קורה אם sqoop נכשל בין תהליך?

טיפוסי סקופ עבודה שמכניסה נתונים ממסד נתונים מקור לתוך HDFS תעתיק את הנתונים לספריית יעד. הקובץ שהועתק עומד להימחק אם sqoop נכשל מבלי להשלים.

אפשר גם לשאול, איך משיגים מקביליות ב-sqoop? שליטה מַקבִּילוּת . סקופ מייבא נתונים במקביל מרוב מקורות מסדי הנתונים. ניתן לציין את מספר משימות המפה (תהליכים מקבילים) לשימוש כדי לבצע את הייבוא באמצעות הארגומנט -m או --num-mappers. כל אחד מהארגומנטים הללו לוקח ערך שלם התואם לדרגת מַקבִּילוּת להעסיק

כתוצאה מכך, כיצד אוכל לשפר את ביצועי שאילתת Hive?

להלן רשימת השיטות שאנו יכולים לבצע כדי לייעל שאילתות כוורת

  1. אפשר דחיסה בכוורת.
  2. אופטימיזציה של הצטרפות.
  3. הימנע ממיון גלובלי בכוורת.
  4. אפשר Tez Execution Engine.
  5. אופרטור אופטימיזציה LIMIT.
  6. אפשר ביצוע מקביל.
  7. אפשר Mapreduce Strict Mode.
  8. הפחתה בודדת עבור Multi Group BY.

איך sqoop split עובד?

ניתן להשתמש בו כדי לשפר את ביצועי הייבוא על ידי השגת מקביליות רבה יותר. סקופ יוצר פיצולים מבוסס על ערכים בעמודה מסוימת של הטבלה, המצוין על ידי -- לְפַצֵל -על ידי המשתמש באמצעות פקודת הייבוא. אם הוא אינו זמין, המפתח הראשי של טבלת הקלט משמש ליצירת ה- פיצולים.

מוּמלָץ: