מה הבעיה עם קבצים קטנים ב-hadoop?
מה הבעיה עם קבצים קטנים ב-hadoop?

וִידֵאוֹ: מה הבעיה עם קבצים קטנים ב-hadoop?

וִידֵאוֹ: מה הבעיה עם קבצים קטנים ב-hadoop?
וִידֵאוֹ: hadoop yarn architecture 2024, נוֹבֶמבֶּר
Anonim

1) בעיה בקובץ קטן ב HDFS : אחסון הרבה קבצים קטנים שהם בצורה קיצונית קטן יותר מאשר לא ניתן לטפל ביעילות בגודל הבלוק HDFS . קורא דרך קבצים קטנים כרוך בהרבה חיפושים והמון דילוגים בין צומת נתונים לצומת נתונים, מה שהופך עיבוד נתונים לא יעיל.

מלבד זה, אילו קבצים מטפלים בבעיות קבצים קטנות ב-Hadoop?

1) HAR ( Hadoop ארכיון) קבצים הוצג בפני להתמודד עם בעיית קבצים קטנים . HAR הציגה שכבה על גבי HDFS , המספקים ממשק עבור קוֹבֶץ גישה. באמצעות Hadoop פקודת ארכיון, HAR קבצים נוצרים, אשר פועל א MapReduce עבודה לארוז את קבצים נשלח לארכיון קטן יותר מספר של קבצי HDFS.

יתר על כן, האם אני יכול להשתמש בכמה קבצים ב-HDFS בגדלים שונים של בלוק? בְּרִירַת מֶחדָל גודל שֶׁל לַחסוֹם הוא 64 מגה-בייט. אתה פחית שנה אותו בהתאם לדרישה שלך. מגיע לשאלתך כן אתה יכול ליצור מספר קבצים על ידי שינוי גדלי בלוקים אבל בזמן אמת זה רָצוֹן לא מעדיף את ההפקה.

יתרה מכך, מדוע HDFS אינו מטפל בקבצים קטנים בצורה אופטימלית?

בעיות עם קבצים קטנים ו HDFS כֹּל קוֹבֶץ , ספריה וחסום HDFS הוא מיוצג כאובייקט בזיכרון של ה-namenode, שכל אחד מהם תופס 150 בתים, ככלל אצבע. יתר על כן, HDFS לא מוכנים לגישה יעילה קבצים קטנים : זה הוא מיועד בעיקר לגישה לסטרימינג של גדולים קבצים.

למה Hadoop איטי?

לְהַאֵט מהירות עיבוד חיפוש דיסק זה לוקח זמן ובכך עושה את כל התהליך מאוד לְהַאֵט . אם Hadoop מעבד נתונים בנפח קטן, זה מאוד לְהַאֵט יַחֲסִית. זה אידיאלי עבור מערכי נתונים גדולים. כפי ש Hadoop יש מנוע עיבוד אצווה בליבה המהירות שלו לעיבוד בזמן אמת נמוכה יותר.

מוּמלָץ: