Oto rozwiązanie przy użyciu py-wikimarkup i PyQuery wyodrębnić wszystkie tabele są pandami DataFrames z łańcucha znaków wikimarkup, ignorując zawartość inną niż tabela.
import wikimarkup
import pandas as pd
from pyquery import PyQuery
def get_tables(wiki):
html = PyQuery(wikimarkup.parse(wiki))
frames = []
for table in html('table'):
data = [[x.text.strip() for x in row]
for row in table.getchildren()]
df = pd.DataFrame(data[1:], columns=data[0])
frames.append(df)
return frames
Biorąc pod uwagę następujące wejścia,
wiki = """
=Title=
Description.
{| class="wikitable sortable"
|-
! Model !! Mhash/s !! Mhash/J !! Watts !! Clock !! SP !! Comment
|-
| ION || 1.8 || 0.067 || 27 || || 16 || poclbm; power consumption incl. CPU
|-
| 8200 mGPU || 1.2 || || || 1200 || 16 || 128 MB shared memory, "poclbm -w 128 -f 0"
|-
| 8400 GS || 2.3 || || || || || "poclbm -w 128"
|-
|}
{| class="wikitable sortable"
|-
! A !! B !! C
|-
| 0
| 1
| 2
|-
| 3
| 4
| 5
|}
"""
get_tables
zwraca następujące DataFrames.
Model Mhash/s Mhash/J Watts Clock SP Comment
0 ION 1.8 0.067 27 16 poclbm; power consumption incl. CPU
1 8200 mGPU 1.2 1200 16 128 MB shared memory, "poclbm -w 128 -f 0"
2 8400 GS 2.3 "poclbm -w 128"
A B C
0 0 1 2
1 3 4 5
Zgodnie z tym: http://pandas.pydata.org/pandas-docs/dev/dsintro.html#dataframe DataFrame może być wykonana z jednego z poniższych: Dict 1D ndarrays, list, dyktów lub serii; 2-D numpy.ndarray; Strukturalne lub rekordowe ndarray; Seria A; Kolejna DataFrame. Najprostsze to dyktowanie listy/dyktatu, ale nie jest jasne, w jaki sposób można wymusić na tym dane. Co masz na myśli? – hughdbrown