Get XPath(), aby powrócić pustych wartości

2014-06-27 20 views 5 likes

Mam sytuacji gdzie mam dużo <b> tagi:Get XPath(), aby powrócić pustych wartości

<b>12</b> 
<b>13</b> 
<b>14</b> 
<b></b> 
<b>121</b>

Jak widać, przedostatni znacznik jest pusty. Kiedy zadzwonić:

sel.xpath('b/text()').extract()

co daje mi:

['12', '13', '14', '121']

chciałbym posiadać:

['12', '13', '14', '', '121']

Czy istnieje sposób, aby uzyskać wartość pusta?

Moja obecna praca wokół jest zadzwonić:

sel.xpath('b').extract()

A następnie analizowania przez każdy tag HTML sobie (puste znaczniki są tutaj, co jest, co chcę).

Źródło

2014-06-27 Tyler

Nie jestem pewien, że to obejście * * Myślę, że to, co masz do zrobienia. Rysujesz rozróżnienie między '' i '', a XML nie ma znaczenia dla rozróżnienia. Pusty element 'b' istnieje, ale w żadnym przypadku nie ma anonimowego węzła tekstu. – kojiro

+0

Naprawdę trudno jest znaleźć dokumentację, która dowodzi, że czegoś nie ma. :( – kojiro

A
Odpowiedz

2

To jest miejsce, w którym można ręcznie rozebrać znaczniki i uzyskać tekst. Można użyć remove_tags() funkcji dostarczanych przez w3lib:

>>> from w3lib.html import remove_tags >>> map(remove_tags, sel.xpath('//b').extract()) [u'12', u'13', u'14', u'', u'121']

Zauważ, że w3lib jest Scrapy dependency i jest używany wewnętrznie. Nie trzeba instalować go osobno.

Również lepiej byłoby użyć tutaj Scrapy Input and Output Processors. Kontynuuj używanie sel.xpath('b') i określ procesor wejściowy. Na przykład, można zdefiniować dla poszczególnych Field s dla klasy Item:

from scrapy.contrib.loader.processor import MapCompose from scrapy.item import Item, Field from w3lib.html import remove_tags class MyItem(Item): my_field = Field(input_processor=MapCompose(remove_tags))

Źródło

2014-06-27 20:18:20 alecxe

+0

To jest bardziej eleganckie rozwiązanie niż to, co robiłem, dziękuję, – Tyler

+2

wszystkie rozwiązanie XPath będzie "[e.xpath (" string() "). Extract() [0] dla e w sel.xpath ("// b")] ' –

Powiązane problemy

1. XPath aby powrócić ciąg konkatenacji węzła kwalifikacyjna dziecięcej wartości

2. Can not Get pyparsing Dict(), aby powrócić zagnieżdżone słownika

3. AES, aby powrócić alfanumerycznych

4. XPath, aby wybrać element według wartości atrybutu

5. Get wartości węzła przy użyciu modułu XML :: XPath w Perlu

6. get pola wejściowego z XPath

7. Jak zmienić formant .NET DateTimePicker, aby umożliwić wprowadzanie wartości pustych?

8. XPath, aby wybrać element, na podstawie Childs wartości dziecka

9. Jak korzystać z XPath, aby wybrać wiele możliwych wartości tekstowych?

10. zastosowanie XPath, aby wybrać elementy z zestawu wielu atrybutów/wartości

11. Wyrażenie Xpath, aby znaleźć wartości zaczynające się od

12. Get wartości zwracanej z procesu

13. XPath, aby wybrać wiele tagów

14. funkcja MySQL UDF aby powrócić XML

15. Jak "czekać" na oddzwonienie, aby powrócić?

16. Praktyka, aby powrócić zamiast pustki w Javie

17. Get klasę wartości ciągu

18. Jak poprosić BeanUtils o zignorowanie wartości pustych

19. Wysyłanie wartości pustych za pośrednictwem AJAX

20. Jak uzyskać poprzednią wartość dla wartości pustych

21. Wstawianie pustych wartości do pól daty?

22. Get wartości zwracanej po setTimeout

23. Obsługa wartości pustych w programie Freemarker

24. Typowa metoda powrotu pustych typ wartości

25. Wartość domyślna ignorowane non wartości pustych kolumnie

26. Django unikalny = True wyjątkiem pustych wartości

27. Filtrowanie pustych wartości za pomocą świni

28. Jak obsługiwać/null pustych wartości w JsonConvert.DeserializeObject

29. JacksonProviderProxy wypisywanie wartości pustych w wyjściu json

30. Jak powrócić JSON obiekt

Ostatnie pytanie

1. SDK platformy Android 8.1.0 - nie można pobrać

2. Wartości graniczne w WebStorm nie trafiając do debugowania JavaScript

3. Sprężyna obsługująca zawartość statyczną z kropką (kropkami) w nazwie pliku

4. Prosty sposób dołączania do zmiennej środowiskowej, która może jeszcze nie istnieć csh

5. Jak mogę otrzymywać powiadomienia o nowych blokach za pomocą bitcoinj

6. Zapytanie o listę ram Django spersonalizuj odpowiedź wynikową tablicy json z powodu daty formowania

7. Aplikacja do wysyłania danych formularzy do mojej skrzynki odbiorczej nie działa poprawnie w Firebase

8. Zrozumienie skalowalności aplikacji RShiny hostowanych na ShinyServer

9. React Native SafeAreaView kolor tła - Jak przypisać dwa różne kolory tła dla górnej i dolnej części ekranu?

10. GMS IllegalStateException: Wyniki zostały już ustawione?

Powiązane problemy

1. XPath aby powrócić ciąg konkatenacji węzła kwalifikacyjna dziecięcej wartości

2. Can not Get pyparsing Dict(), aby powrócić zagnieżdżone słownika

3. AES, aby powrócić alfanumerycznych

4. XPath, aby wybrać element według wartości atrybutu

5. Get wartości węzła przy użyciu modułu XML :: XPath w Perlu

6. get pola wejściowego z XPath

7. Jak zmienić formant .NET DateTimePicker, aby umożliwić wprowadzanie wartości pustych?

8. XPath, aby wybrać element, na podstawie Childs wartości dziecka

9. Jak korzystać z XPath, aby wybrać wiele możliwych wartości tekstowych?

10. zastosowanie XPath, aby wybrać elementy z zestawu wielu atrybutów/wartości

Skontaktuj się z nami

© 2020 PL.VOIDCC.COM

沪ICP备13005482号-13

简体中文

繁體中文

Русский

Deutsch

Español

हिन्दी

Italiano

日本語

한국어

Polski

Türkçe

Tiếng Việt

Française