מה זה DistCp ב-Hadoop?
מה זה DistCp ב-Hadoop?

וִידֵאוֹ: מה זה DistCp ב-Hadoop?

וִידֵאוֹ: מה זה DistCp ב-Hadoop?
וִידֵאוֹ: מה זה?! 2024, מאי
Anonim

DistCp (עותק מבוזר) הוא כלי המשמש להעתקה גדולה בין/תוך אשכולית. זה משתמש MapReduce לבצע הפצה, טיפול בשגיאות ושחזור ודיווח שלה. זה מרחיב רשימה של קבצים וספריות למשימות קלט למיפוי, שכל אחת מהן תעתיק מחיצה של הקבצים שצוינו ברשימת המקורות.

באופן דומה אפשר לשאול, האם Distcp מחליף?

אני צריך גם לפרט קצת ולהסביר את זה discp - להחליף רָצוֹן להחליף הקובץ לא משנה אם הגודל מתאים או לא. פעולה זו תעדכן את כל הקבצים ב-hdfs-nn2 שאינם תואמים בגודלם מ-hdfs-nn1, וכן תמחק כל קבצים זרים.

באופן דומה, מהי פקודת Hadoop FS? מערכת הקבצים ( FS ) מעטפת כוללת קונכיות שונות פקודות שמתקשרים ישירות עם Hadoop מערכת קבצים מבוזרת ( HDFS ) כמו גם מערכות קבצים אחרות ש Hadoop תומך, כגון Local FS , HFTP FS , S3 FS , ואחרים.

בדרך זו, כיצד אוכל להעביר נתונים מ-Hdfs אחד ל-Hdfs אחר?

Hadoop fs cp - הכי קל דרך להעתיק נתונים מאחד ספריית מקור ל אַחֵר . להשתמש ב hadoop fs -cp [מקור] [יעד]. Hadoop fs copyFromLocal - צריך להעתיק נתונים ממערכת הקבצים המקומית לתוך HDFS ? להשתמש ב hadoop fs -copyFromLocal [מקור] [יעד].

איך אני מעתיק אשכול מאשכול אחד למשנהו?

העתקת קבצים בֵּין אשכולות . אתה יכול להעתיק קבצים או ספריות בין שונים אשכולות באמצעות פקודת hadoop distcp. עליך לכלול אישורים קוֹבֶץ אצלך עותק לבקש כך המקור אֶשׁכּוֹל יכול לאמת שאתה מאומת למקור אֶשׁכּוֹל והמטרה אֶשׁכּוֹל.