Próbuję przeanalizować zawartość z określonych znaczników meta. Oto struktura tagów meta. Pierwsze dwa są zamykane odwrotnym ukośnikiem, ale pozostałe nie mają żadnych znaczników zamykających. Jak tylko otrzymam trzeci metatag, zwrócona zostanie cała treść między tagami <head>
. Próbowałem też soup.findAll(text=re.compile('keyword'))
, ale to nic nie zwraca, ponieważ słowo kluczowe jest atrybutem metatagu.Wyodrębnianie zawartości z określonych metatagów, które nie są zamknięte przy użyciu BeautifulSoup
<meta name="csrf-param" content="authenticity_token"/>
<meta name="csrf-token" content="OrpXIt/y9zdAFHWzJXY2EccDi1zNSucxcCOu8+6Mc9c="/>
<meta content='text/html; charset=UTF-8' http-equiv='Content-Type'>
<meta content='en_US' http-equiv='Content-Language'>
<meta content='c2y_K2CiLmGeet7GUQc9e3RVGp_gCOxUC4IdJg_RBVo' name='google-site- verification'>
<meta content='initial-scale=1.0,maximum-scale=1.0,width=device-width' name='viewport'>
<meta content='notranslate' name='google'>
<meta content="Learn about Uber's product, founders, investors and team. Everyone's Private Driver - Request a car from any mobile phone—text message, iPhone and Android apps. Within minutes, a professional driver in a sleek black car will arrive curbside. Automatically charged to your credit card on file, tip included." name='description'>
Oto kod:
import csv
import re
import sys
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
req3 = Request("https://angel.co/uber", headers={'User-Agent': 'Mozilla/5.0')
page3 = urlopen(req3).read()
soup3 = BeautifulSoup(page3)
## This returns the entire web page since the META tags are not closed
desc = soup3.findAll(attrs={"name":"description"})
Więc co wyjście masz nadzieję dostać? – sihrc
Chcę zawartość metatagu o nazwie name "" description " – tcash21