מה זה RDD בסקאלה?
מה זה RDD בסקאלה?

וִידֵאוֹ: מה זה RDD בסקאלה?

וִידֵאוֹ: מה זה RDD בסקאלה?
וִידֵאוֹ: RDD in Spark 2024, מאי
Anonim

ערכות נתונים מבוזרות גמישות ( RDD ) הוא מבנה נתונים בסיסי של Spark. זהו אוסף מבוזר בלתי ניתן לשינוי של חפצים. RDDs יכול להכיל כל סוג של Python, Java או סקאלה אובייקטים, כולל מחלקות מוגדרות על ידי משתמש. פורמלית, א RDD הוא אוסף רשומות לקריאה בלבד, מחולקת.

השאלה היא גם מה ההבדל בין RDD ל-DataFrame?

RDD – RDD הוא אוסף מבוזר של רכיבי נתונים המפוזרים על פני מכונות רבות בתוך ה אֶשׁכּוֹל. RDDs הם קבוצה של אובייקטי Java או Scala המייצגים נתונים. DataFrame – א DataFrame הוא אוסף מבוזר של נתונים המאורגנים בעמודות עם שם. זה שווה קונספטואלית לטבלה ב מאגר נתונים יחסי.

יתר על כן, כיצד מופץ RDD? מִתאוֹשֵׁשׁ מַהֵר מופץ מערכי נתונים ( RDDs ) הם א מופץ אוסף של אובייקטים, המאוחסנים בזיכרון או על דיסקים של מכונות שונות של אשכול. בודד RDD ניתן לחלק למחיצות לוגיות מרובות כך שניתן לאחסן ולעבד את המחיצות הללו במכונות שונות של אשכול.

איך spark RDD עובד?

RDDs ב לְעוֹרֵר יש אוסף של רשומות המכילות מחיצות. RDDs ב לְעוֹרֵר מחולקים לגושים לוגיים קטנים של נתונים - המכונה מחיצות, כאשר פעולה מבוצעת, תושק משימה לכל מחיצה. מחיצות ב RDDs הן היחידות הבסיסיות של מקביליות.

מה מהר יותר RDD או DataFrame?

RDD - תוך ביצוע פעולות קיבוץ וצבירה פשוטות RDD ה-API איטי יותר. DataFrame - בביצוע ניתוח חקרני, יצירת נתונים סטטיסטיים מצטברים על נתונים, מסגרות נתונים הם מהר יותר . RDD - כאשר אתה רוצה טרנספורמציה ופעולות ברמה נמוכה, אנו משתמשים RDDs . כמו כן, כאשר אנו זקוקים להפשטות ברמה גבוהה אנו משתמשים RDDs.

מוּמלָץ: