כיצד מושגת לוקליזציה של נתונים ב-Hadoop?

👤 מְחַבֵּר Lynn Donovan 📧 donovan@answers-technology.com.
⏱ Public 2023-12-15 23:47.
🖍 שונה לאחרונה 2025-01-22 17:25.

לוקליזציה של נתונים ב Hadoop . קח את הדוגמה לדוגמה של ספירת מילים, שבה רוב המילים חזרו על עצמן במשך 5 Lacs או יותר פעמים. במקרה זה לאחר שלב המאפר, לכל פלט ממפה יהיו מילים בטווח של 5 Lacs. תהליך שלם זה של אחסון פלט Mapper ל-LFS נקרא בשם לוקליזציה של נתונים.

בהתחשב בכך, מהי לוקליזציה של נתונים ב-Hadoop?

הקונספט של נתונים יישוב ב Hadoop Data יישוב ב MapReduce מתייחס ליכולת להעביר את החישוב קרוב למקום הממשי נתונים שוכן על הצומת, במקום לנוע בגדול נתונים לחישוב. זה ממזער את העומס ברשת ומגדיל את התפוקה הכוללת של המערכת.

כמו כן, כיצד מאוחסנים נתונים גדולים? רוב האנשים מקשרים אוטומטית את HDFS, או Hadoop Distributed File System, עם Hadoop נתונים מחסנים. HDFS מאחסן מידע באשכולות המורכבים מגושים קטנים יותר. בלוקים אלה הם מְאוּחסָן בפיזי באתר אִחסוּן יחידות, כגון כונני דיסקים פנימיים.

רק אז, איך מאוחסנים נתונים ב-Hadoop?

על Hadoop אשכול, ה נתונים בתוך HDFS ומערכת MapReduce נמצאים בכל מחשב באשכול. נתונים הוא מְאוּחסָן ב נתונים בלוקים ב-DataNodes. HDFS משכפל את אלה נתונים בלוקים, בדרך כלל בגודל 128MB, ומפיץ אותם כך שהם משוכפלים בתוך מספר צמתים על פני האשכול.

איך קבצים מאוחסנים ב-HDFS?

HDFS חושף א קוֹבֶץ מרחב שמות המערכת ומאפשר לנתוני משתמש להיות מְאוּחסָן ב קבצים . פנימית, א קוֹבֶץ מפוצל לבלוק אחד או יותר והבלוקים האלה כן מְאוּחסָן בקבוצה של DataNodes. ה-NameNode מופעל קוֹבֶץ פעולות של מרחב השמות של המערכת כמו פתיחה, סגירה ושינוי שם קבצים וספריות.