האם Spark יכול לקרוא קבצים מקומיים?
האם Spark יכול לקרוא קבצים מקומיים?

וִידֵאוֹ: האם Spark יכול לקרוא קבצים מקומיים?

וִידֵאוֹ: האם Spark יכול לקרוא קבצים מקומיים?
וִידֵאוֹ: Reading local files using Spark Data Frame APIs in Cluster Mode 2024, נוֹבֶמבֶּר
Anonim

בזמן לְעוֹרֵר תומך בטעינה קבצים מ ה מְקוֹמִי מערכת הקבצים, היא מחייבת את קבצים זמינים באותו נתיב בכל הצמתים באשכול שלך. חלק ממערכות הקבצים ברשת, כמו NFS, AFS ושכבת NFS של MapR, נחשפות למשתמש כמערכת קבצים רגילה.

לאחר מכן, אפשר גם לשאול, איך אני מפעיל את Spark במצב מקומי?

ב מצב מקומי , לְעוֹרֵר מקומות תעסוקה לָרוּץ על מכונה בודדת, ומבוצעות במקביל באמצעות ריבוי השחלות: זה מגביל את ההקבלה למספר הליבות במכונה שלך (לכל היותר). ל לָרוּץ משרות ב מצב מקומי , תחילה עליך להזמין מכונה דרך SLURM באינטראקטיבי מצב ולהיכנס אליו.

מלבד למעלה, מהו SC textFile? textFile היא שיטה של ארגון. אפאצ'י. SparkContext כיתה שקוראת א קובץ טקסט מ-HDFS, מערכת קבצים מקומית (זמינה בכל הצמתים), או כל URI של מערכת קבצים הנתמכת ב-Hadoop, ולהחזיר אותו כ-RDD של מחרוזות.

בהקשר זה, מהו קובץ ניצוץ?

ה קובץ ניצוץ הוא מסמך שבו אתה שומר את כל הטוב היצירתי שלך. זה הוגדר על ידי הסופר סטיבן ג'ונסון. אז במקום לגרד הערות על Post-it® באמצע הלילה או להקדיש יומנים שונים לרעיונות, אתה שם את כל המושגים שלך באחד קוֹבֶץ.

מהו ניצוץ איסוף מקביל?

אנו מתארים פעולות על מערכי נתונים מבוזרים בהמשך. אוספים מקבילים נוצרים על ידי קריאת JavaSparkContext של מקבילים שיטה על קיים אוסף בתוכנית מנהל ההתקן שלך. האלמנטים של אוסף מועתקים ליצירת מערך נתונים מבוזר שניתן להפעיל עליו במקביל.

מוּמלָץ: