Scraping faqet e internetit me Python dhe BeautifulSoup - Këshillë për Semalt

Ekzistojnë më shumë se sa informacion të mjaftueshëm në internet se si të shkruajnë faqet e internetit dhe bloget siç duhet. Ajo që na duhet nuk është vetëm hyrja në ato të dhëna, por mënyrat e shkallëzueshme për të mbledhur, analizuar dhe organizuar ato. Python dhe BeautifulSoup janë dy mjete të mrekullueshme për të fshirë faqet e internetit dhe për të nxjerrë të dhëna. Në scraping në internet, të dhënat mund të ekstraktohen dhe paraqiten lehtësisht në një format që ju nevojitet. Nëse jeni një investitor i etur që vlerëson kohën dhe paratë e tij / saj, ju patjetër që duhet të shpejtoni procesin e scraping në internet dhe ta bëni atë aq të optimizuar sa mund të jetë.

Fillimi

Ne do të përdorim Python dhe BeautifulSoup si gjuha kryesore e scraping.

  • 1. Për përdoruesit e Mac, Python është i instaluar paraprakisht në OS X. Ata thjesht duhet të hapin Terminalin dhe të shkruajnë në ndërprerjen e pythonit . Në këtë mënyrë, ata do të jenë në gjendje të shohin versionin Python 2.7.
  • 2. Për përdoruesit e Windows, ne rekomandojmë instalimin e Python përmes faqes së tij zyrtare.
  • 3. Tjetra, duhet të qaseni në bibliotekën BeautifulSoup me ndihmën e pip. Ky mjet i menaxhimit të paketave u bë posaçërisht për Python.

Në terminal, duhet të futni kodin e mëposhtëm:

tub i thjeshtë_instaloni

instaloni tubin BeautifulSoup4

Rregullat e Scraping:

Rregullat kryesore të skrapimit për të cilat duhet të kujdeseni janë:

  • 1. Ju duhet të kontrolloni Rregullat dhe Rregulloret e sitit përpara se të filloni me copëzimin e tij. Prandaj ki shumë kujdes!
  • 2. Ju nuk duhet të kërkoni të dhënat nga faqet shumë agresive. Sigurohuni që mjeti që përdorni të sillet në mënyrë të arsyeshme. Përndryshe, ju mund ta prishni sitin.
  • 3. Një kërkesë për sekondë është praktika e duhur.
  • 4. Paraqitja e blogut ose faqes mund të ndryshohet në çdo kohë, dhe ju mund të keni nevojë të rishikoni atë faqe dhe të rishkruani kodin tuaj kur të jetë e nevojshme.

Inspektoni faqen

Lëshoni kursorin në faqen e Pricemimeve për të kuptuar se çfarë duhet të bëhet. Lexoni tekstin që lidhet me HTML dhe Python, dhe nga rezultatet, do të shihni çmimet brenda etiketave HTML.

Eksportoni në Excel CSV

Pasi të keni nxjerrë të dhënat, hapi tjetër është t'i ruani ato jashtë linje. Formati i ndarë i presjes së Excel-it është zgjidhja më e mirë në këtë drejtim, dhe lehtë mund ta hapni atë në fletën tuaj Excel. Por së pari, ju do të duhet të importoni modulet Python CSV dhe module datën e kohës për të regjistruar të dhënat tuaja siç duhet. Kodi i mëposhtëm mund të futet në pjesën e importit:

csv importi

nga importi i datës deri në datetime

Teknikat e përparuara të scraping

BeautifulSoup është një nga mjetet më të thjeshta dhe gjithëpërfshirëse për scraping në internet. Sidoqoftë, nëse keni nevojë për të korrur vëllime të mëdha të të dhënave, merrni parasysh disa alternativa të tjera:

  • 1. Skrapimi është një kornizë e fuqishme dhe e mahnitshme e skajeve të pythonit.
  • 2. Ju gjithashtu mund të integroni kodin me një API publike. Efikasiteti i të dhënave tuaja do të jetë i rëndësishëm. Për shembull, mund të provoni Facebook Graph API, i cili ndihmon të fshehni të dhënat dhe nuk i shfaqni ato në faqet e Facebook.
  • 3. Për më tepër, ju mund të përdorni programet e backendit, siç është MySQL dhe të ruani të dhënat në një sasi të madhe me saktësi të madhe.
  • 4. DRY nënkupton "Mos përsërisni veten" dhe mund të përpiqeni të automatizoni detyrat e rregullta duke përdorur këtë teknikë.