מה זה צמצום לפי מפתח?

👤 מְחַבֵּר Lynn Donovan 📧 donovan@answers-technology.com.
⏱ Public 2023-12-15 23:47.
🖍 שונה לאחרונה 2025-01-22 17:25.

הפונקציה Spark RDD reduceByKey ממזגת את הערכים עבור כל אחד מהם מַפְתֵחַ באמצעות אסוציאטיבי לְהַפחִית פוּנקצִיָה. זה אומר באופן אינטואיטיבי, פונקציה זו מפיקה את אותה תוצאה כאשר היא מיושמת שוב ושוב על אותה קבוצה של נתוני RDD עם מספר מחיצות ללא קשר לסדר האלמנט.

ואז, מה ההבדל בין groupByKey ל-reduceByKey?

groupByKey () הוא רק לקבץ את מערך הנתונים שלך על סמך מפתח. reduceByKey () הוא משהו כמו קיבוץ + צבירה. reduceByKey ניתן להשתמש כאשר אנו פועלים על מערך נתונים גדול. aggregateByKey() זהה מבחינה לוגית ל reduceByKey () אבל זה מאפשר לך להחזיר תוצאה פנימה שונה סוּג.

דע גם, מדוע הפחת היא פעולה בניצוץ? הפחת ניצוץ הפעולה היא פעולה סוג של פעולה והיא מפעילה ביצוע DAG מלא עבור כל ההוראות העצלות בשורה. לְעוֹרֵר RDD לְהַפחִית הפונקציה מפחיתה את הרכיבים של RDD זה באמצעות האופרטור הבינארי הקומוטטיבי והאסוציאטיבי שצוין. הפחת ניצוץ הפעולה כמעט דומה ל לְהַפחִית שיטה בסקאלה.

מלבד למעלה, מה זה Pairrdd?

Spark מספק פעולות מיוחדות על RDDs המכילים צמדי מפתח/ערך. RDDs אלה נקראים RDDs זוגיים. צמדי RDD הם אבן בניין שימושית בתוכניות רבות, מכיוון שהם חושפים פעולות המאפשרות לך לפעול על כל מפתח במקביל או לקבץ מחדש נתונים ברחבי הרשת. PairRDDs הם זוגות KEY/VALUE.

האם reduceByKey היא פעולה?

reduce() מפלט אוסף שאינו מוסיף לגרף האציקלי המכוון (DAG) ולכן מיושם כ פעולה . למרות זאת, reduceByKey () מחזיר RDD שהוא רק עוד רמה/מצב ב-DAG, ולכן הוא טרנספורמציה.