תוכן עניינים:

מה זה collect PySpark?
מה זה collect PySpark?

וִידֵאוֹ: מה זה collect PySpark?

וִידֵאוֹ: מה זה collect PySpark?
וִידֵאוֹ: Add Arguments Easily with ARGPARSE 2024, נוֹבֶמבֶּר
Anonim

לאסוף (פעולה) - החזר את כל הרכיבים של מערך הנתונים כמערך בתוכנית מנהל ההתקן. זה בדרך כלל שימושי לאחר מסנן או פעולה אחרת שמחזירה תת-קבוצה קטנה מספיק של הנתונים.

בדרך זו, מה זה PySpark?

PySpark תִכנוּת. PySpark הוא שיתוף הפעולה של Apache Spark ו-Python. Apache Spark היא מסגרת מחשוב אשכולות בקוד פתוח, הבנויה סביב מהירות, קלות שימוש וניתוח סטרימינג בעוד ש-Python היא שפת תכנות למטרות כלליות ברמה גבוהה.

כמו כן, מהי מפה ב-PySpark? לְעוֹרֵר מַפָּה טרנספורמציה. א מַפָּה היא פעולת טרנספורמציה ב- Apache Spark. זה חל על כל רכיב של RDD והוא מחזיר את התוצאה כ-RDD חדש. מַפָּה הופך RDD באורך N ל-RDD אחר באורך N. RDDs הקלט והפלט יהיו בדרך כלל בעלי אותו מספר של רשומות.

בדרך זו, מהו SparkContext ב-PySpark?

PySpark - SparkContext . פרסומות. SparkContext היא נקודת הכניסה לכל לְעוֹרֵר פונקציונליות. כשאנחנו מפעילים כל לְעוֹרֵר יישום, תוכנית מנהל התקן מתחיל, אשר יש את הפונקציה העיקרית שלך SparkContext מתחילים כאן. לאחר מכן, תוכנית מנהל ההתקן מפעילה את הפעולות בתוך המבצעים בצמתי עובדים.

איך אני בודק את גרסת PySpark?

2 תשובות

  1. פתח את Spark shell Terminal והזן פקודה.
  2. sc.version או spark-submit --version.
  3. הדרך הקלה ביותר היא פשוט להפעיל "spark-shell" בשורת הפקודה. זה יציג את ה.
  4. הגרסה הפעילה הנוכחית של Spark.

מוּמלָץ: