תוכן עניינים:

איך משתמשים במרק יפה בפייתון?
איך משתמשים במרק יפה בפייתון?

וִידֵאוֹ: איך משתמשים במרק יפה בפייתון?

וִידֵאוֹ: איך משתמשים במרק יפה בפייתון?
וִידֵאוֹ: ללמוד פייתון בשעה - מדריך מקיף 2024, מרץ
Anonim

אם אתה משתמש בגרסה עדכנית של Debian או Ubuntu Linux, אתה יכול להתקין Beautiful Soup עם מנהל חבילות המערכת:

  1. $ apt-get install פִּיתוֹן -bs4 (עבור פִּיתוֹן 2)
  2. $ apt-get התקנת python3-bs4 (עבור פִּיתוֹן 3)
  3. $ easy_install beautifulsoup4.
  4. $ pip להתקין beautifulsoup4.
  5. $ פִּיתוֹן setup.py להתקין.

כמו כן, אנשים שואלים, איך מכינים מרק יפה בפייתון?

להשתמש מרק יפה , אתה צריך להתקין את זה: $ pip install beautifulsoup4. מרק יפה מסתמך גם על מנתח, ברירת המחדל היא lxml. אולי כבר יש זה, אבל עליך לבדוק (פתח את IDLE ונסה לייבא lxml). אם לא, בצע: $ pip התקנת lxml או $ apt- לקבל להתקין פִּיתוֹן -lxml.

כמו כן, איך מייבאים מרק יפה? להתחיל, יְבוּא ה מרק יפה ספרייה, פתח את קובץ ה-HTML והעביר אותו אל מרק יפה , ולאחר מכן הדפס את יפה גרסה בטרמינל. אתה אמור לראות את חלון הטרמינל שלך מתמלא בגרסה מפוצלת יפה של טקסט ה-html המקורי (ראה איור 3).

באופן דומה, נשאל, למה משמש מרק יפה?

מרק יפה היא חבילת Python לניתוח מסמכי HTML ו-XML (כולל סימון פגום, כלומר תגים לא סגורים, הנקראים כך על שם התג מרק ). זה יוצר עץ ניתוח עבור דפים מנותחים שיכולים להיות בשימוש כדי לחלץ נתונים מ-HTML, שהוא שימושי עבור גירוד אינטרנט.

איך מגרדים אתר עם Python ו- BeautifulSoup?

ראשית, עלינו לייבא את כל הספריות שבהן אנו הולכים להשתמש. לאחר מכן, הכריז על משתנה עבור כתובת האתר של הדף. לאחר מכן, השתמש ב- פִּיתוֹן urllib2 כדי לקבל את דף ה-HTML של כתובת האתר המוצהרת. לבסוף, נתח את הדף לתוך מרק יפה פורמט כדי שנוכל להשתמש מרק יפה לעבוד על זה.

מוּמלָץ: