2015-10-19 10 views
8

Chcę eksportować modele Pythona do nauki języka angielskiego w PMML.Eksportuj python scikit uczyć się modeli w pmml

Jaki pakiet najlepiej pasuje do Pythona?

Przeczytałem o Augustus, ale nie udało mi się znaleźć żadnego przykładu przy użyciu modeli nauki scikit.

+0

można przekonwertować scikit-learn modeli i transformatory do PMML pomocą przycisków [sklearn2pmml] (https://github.com/jpmml/sklearn2pmml). – user1808924

+0

JPMML-SkLearn obsługuje również Python 2.7, ale obecnie nie jest reklamowany. – user1808924

+0

pakiet jpmml-sklearn obsługuje z Pythona 3.4. Czy istnieje alternatywa obsługująca python 2.7 – Selva

Odpowiedz

8

SkLearn2PMML jest

cienką osłonę wokół zastosowania polecenia linii JPMML-SkLearn. Listę obsługiwanych typów kalkulatora Scikit-Learn Estimator i Transformer można znaleźć w dokumentacji projektu JPMML-SkLearn.

Jak zauważa @ user1808924, obsługuje Python 2.7 lub 3.4+. Wymaga to również Java 1.7+

zainstalowana poprzez: (wymaga git)

pip install git+https://github.com/jpmml/sklearn2pmml.git 

przykład, jak wyeksportować drzewo klasyfikatora do PMML. pierwsze rosną drzewa:

# example tree & viz from http://scikit-learn.org/stable/modules/tree.html 
from sklearn import datasets, tree 
iris = datasets.load_iris() 
clf = tree.DecisionTreeClassifier() 
clf = clf.fit(iris.data, iris.target) 

Istnieją dwie części do konwersji SkLearn2PMML, estymator (nasz clf) i mapper (na etapach przetwarzania wstępnego, takich jak dyskretyzacji lub PCA). Nasz program odwzorowujący jest dość prosty, ponieważ nie dokonujemy żadnych transformacji.

from sklearn_pandas import DataFrameMapper 
default_mapper = DataFrameMapper([(i, None) for i in iris.feature_names + ['Species']]) 

from sklearn2pmml import sklearn2pmml 
sklearn2pmml(estimator=clf, 
      mapper=default_mapper, 
      pmml="D:/workspace/IrisClassificationTree.pmml") 

Jest możliwe (choć nie udokumentowane) przekazać mapper=None, ale widać, że nazwy predykcyjne zgubić (powrót x1 nie sepal length itd.). wygląd

Miejmy w pliku .pmml:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?> 
<PMML xmlns="http://www.dmg.org/PMML-4_3" version="4.3"> 
    <Header> 
     <Application name="JPMML-SkLearn" version="1.1.1"/> 
     <Timestamp>2016-09-26T19:21:43Z</Timestamp> 
    </Header> 
    <DataDictionary> 
     <DataField name="sepal length (cm)" optype="continuous" dataType="float"/> 
     <DataField name="sepal width (cm)" optype="continuous" dataType="float"/> 
     <DataField name="petal length (cm)" optype="continuous" dataType="float"/> 
     <DataField name="petal width (cm)" optype="continuous" dataType="float"/> 
     <DataField name="Species" optype="categorical" dataType="string"> 
      <Value value="setosa"/> 
      <Value value="versicolor"/> 
      <Value value="virginica"/> 
     </DataField> 
    </DataDictionary> 
    <TreeModel functionName="classification" splitCharacteristic="binarySplit"> 
     <MiningSchema> 
      <MiningField name="Species" usageType="target"/> 
      <MiningField name="sepal length (cm)"/> 
      <MiningField name="sepal width (cm)"/> 
      <MiningField name="petal length (cm)"/> 
      <MiningField name="petal width (cm)"/> 
     </MiningSchema> 
     <Output> 
      <OutputField name="probability_setosa" dataType="double" feature="probability" value="setosa"/> 
      <OutputField name="probability_versicolor" dataType="double" feature="probability" value="versicolor"/> 
      <OutputField name="probability_virginica" dataType="double" feature="probability" value="virginica"/> 
     </Output> 
     <Node id="1"> 
      <True/> 
      <Node id="2" score="setosa" recordCount="50.0"> 
       <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="0.8"/> 
       <ScoreDistribution value="setosa" recordCount="50.0"/> 
       <ScoreDistribution value="versicolor" recordCount="0.0"/> 
       <ScoreDistribution value="virginica" recordCount="0.0"/> 
      </Node> 
      <Node id="3"> 
       <SimplePredicate field="petal width (cm)" operator="greaterThan" value="0.8"/> 
       <Node id="4"> 
        <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="1.75"/> 
        <Node id="5"> 
         <SimplePredicate field="petal length (cm)" operator="lessOrEqual" value="4.95"/> 
         <Node id="6" score="versicolor" recordCount="47.0"> 
          <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="1.6500001"/> 
          <ScoreDistribution value="setosa" recordCount="0.0"/> 
          <ScoreDistribution value="versicolor" recordCount="47.0"/> 
          <ScoreDistribution value="virginica" recordCount="0.0"/> 
         </Node> 
         <Node id="7" score="virginica" recordCount="1.0"> 
          <SimplePredicate field="petal width (cm)" operator="greaterThan" value="1.6500001"/> 
          <ScoreDistribution value="setosa" recordCount="0.0"/> 
          <ScoreDistribution value="versicolor" recordCount="0.0"/> 
          <ScoreDistribution value="virginica" recordCount="1.0"/> 
         </Node> 
        </Node> 
        <Node id="8"> 
         <SimplePredicate field="petal length (cm)" operator="greaterThan" value="4.95"/> 
         <Node id="9" score="virginica" recordCount="3.0"> 
          <SimplePredicate field="petal width (cm)" operator="lessOrEqual" value="1.55"/> 
          <ScoreDistribution value="setosa" recordCount="0.0"/> 
          <ScoreDistribution value="versicolor" recordCount="0.0"/> 
          <ScoreDistribution value="virginica" recordCount="3.0"/> 
         </Node> 
         <Node id="10"> 
          <SimplePredicate field="petal width (cm)" operator="greaterThan" value="1.55"/> 
          <Node id="11" score="versicolor" recordCount="2.0"> 
           <SimplePredicate field="sepal length (cm)" operator="lessOrEqual" value="6.95"/> 
           <ScoreDistribution value="setosa" recordCount="0.0"/> 
           <ScoreDistribution value="versicolor" recordCount="2.0"/> 
           <ScoreDistribution value="virginica" recordCount="0.0"/> 
          </Node> 
          <Node id="12" score="virginica" recordCount="1.0"> 
           <SimplePredicate field="sepal length (cm)" operator="greaterThan" value="6.95"/> 
           <ScoreDistribution value="setosa" recordCount="0.0"/> 
           <ScoreDistribution value="versicolor" recordCount="0.0"/> 
           <ScoreDistribution value="virginica" recordCount="1.0"/> 
          </Node> 
         </Node> 
        </Node> 
       </Node> 
       <Node id="13"> 
        <SimplePredicate field="petal width (cm)" operator="greaterThan" value="1.75"/> 
        <Node id="14"> 
         <SimplePredicate field="petal length (cm)" operator="lessOrEqual" value="4.8500004"/> 
         <Node id="15" score="virginica" recordCount="2.0"> 
          <SimplePredicate field="sepal width (cm)" operator="lessOrEqual" value="3.1"/> 
          <ScoreDistribution value="setosa" recordCount="0.0"/> 
          <ScoreDistribution value="versicolor" recordCount="0.0"/> 
          <ScoreDistribution value="virginica" recordCount="2.0"/> 
         </Node> 
         <Node id="16" score="versicolor" recordCount="1.0"> 
          <SimplePredicate field="sepal width (cm)" operator="greaterThan" value="3.1"/> 
          <ScoreDistribution value="setosa" recordCount="0.0"/> 
          <ScoreDistribution value="versicolor" recordCount="1.0"/> 
          <ScoreDistribution value="virginica" recordCount="0.0"/> 
         </Node> 
        </Node> 
        <Node id="17" score="virginica" recordCount="43.0"> 
         <SimplePredicate field="petal length (cm)" operator="greaterThan" value="4.8500004"/> 
         <ScoreDistribution value="setosa" recordCount="0.0"/> 
         <ScoreDistribution value="versicolor" recordCount="0.0"/> 
         <ScoreDistribution value="virginica" recordCount="43.0"/> 
        </Node> 
       </Node> 
      </Node> 
     </Node> 
    </TreeModel> 
</PMML> 

Pierwszy split (Node 1) znajduje się na płatek szerokości na 0,8. Węzeł 2 (szerokość płatka < = 0,8) przechwytuje całą setozę, nic poza tym.

Możesz porównać wyjście PMML do wyjścia graphviz:

from sklearn.externals.six import StringIO 
import pydotplus # this might be pydot for python 2.7 
dot_data = StringIO() 
tree.export_graphviz(clf, 
        out_file=dot_data, 
        feature_names=iris.feature_names, 
        class_names=iris.target_names, 
        filled=True, rounded=True, 
        special_characters=True) 
graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) 
graph.write_pdf("D:/workspace/iris.pdf") 
# for in-line display, you can also do: 
# from IPython.display import Image 
# Image(graph.create_png()) 

enter image description here

+0

Czy istnieje sposób na zachowanie nazw predyktorów, gdy nie używa się programu odwzorowującego? Naprawdę muszę znać je po stronie oceniającej, ale skonstruowanie mappera właśnie w tym celu jest zbyt dużym przesadą. – KidCrippler

+0

@K Nie mogłem dowiedzieć się, jak zachować nazwy predyktorów bez programu odwzorowującego. Możesz spróbować opublikować pytanie. – C8H10N4O2

+3

odpowiedź wydaje się być przestarzała: 'sklearn2pmml' używa teraz' PMMLPipeline'. – sds

Powiązane problemy