Semalt: Extrahování URL z webových stránek s krásnou polévkou

Beautiful Soup je balíček Python na vysoké úrovni, který se používá k analýze dokumentů XML a HTML. Krásná knihovna Soup Python vytváří strom analýzy, který se používá k extrahování užitečných informací z HyperText Markup Language (HTML). Tato knihovna je k dispozici pro verze Python 2 a Python 3.

Ve většině případů zjistíte, že k vašim cílovým údajům lze přistupovat a používat je pouze jako součást webové stránky. V takovém případě musíte použít takovou techniku stírání webu, která dokáže extrahovat data ve formátech, které lze analyzovat. Zde přichází knihovna Beautiful Soup.

Požadavky

K používání knihovny Krásná polévka potřebujete správné moduly. Chcete-li začít, musíte do počítače nainstalovat programovací jazyk Python 2.7. V tomto příspěvku se dozvíte, jak seškrabat web a extrahovat všechny adresy URL pomocí požadavků a krásné polévky 4. Analýza HTML je úkolem pro sebe, zejména s technickou pomocí krásné polévky.

Proč používat krásnou polévku?

Krásná polévka je špičkový balíček Python, který se používá ke škrábání webových stránek a analýze značek HTML od roku 2004. Nedávno nahradila krásná polévka Krásná v oboru 3. Všimněte si, že BS4 funguje v obou verzích Pythonu, zatímco BS3 funguje pouze v Pythonu 2.7. Knihovna obsahuje následující vestavěné funkce:

  • Schopnost kódování - Po instalaci nezbytných krásných modulů polévky do počítače nemusíte panikařit. Knihovna je automatizovaná pro převod vstupů do Unicode a výstupů do UTF-8.
  • Navigační schopnost - Krásná polévka nabízí snadno použitelné metody pro vyhledávání, navigaci a úpravu stromu analýzy.

Jak používat knihovnu Beautiful Soup?

Po instalaci krásné polévky do počítače můžete začít používat knihovnu. Chcete-li začít, importujte knihovnu bs4 na začátku vašeho Pythonova kódu. Předáním obsahu nebo adresy URL krásné polévce vytvoříte objekt polévky. Knihovna však cílovou webovou stránku sama nenačte. Zde musíte tuto úlohu dokončit ručně. Preferované webové stránky můžete také snadno načíst pomocí kombinace Pythonu a Krásné polévky.

Role knihovny požadavků

Chcete-li stránku seškrábat, musíte ji nejprve stáhnout. Webové stránky si můžete stáhnout pomocí knihovny požadavků. Požaduje práci knihovny tím, že na webové servery zadá požadavek „GET“, který následně stáhne obsah HTML preferované webové stránky.

Extrahování adres URL z webových stránek

Nyní máte podrobné informace o knihovně Beautiful Soup. Kombinace knihovny BS4 a Pythonu vám pomůže rychle načíst webovou stránku. Chcete-li extrahovat všechny adresy URL z cílové webové stránky, použijte metodu „najít vše“. Tato metoda vám poskytne kompilaci prvků se značkou. Z B4 importujte jak polévku, tak požadavky. Spusťte kód a zadejte web nebo webovou stránku, ze které chcete extrahovat adresy URL.

mass gmail