Home | José Ramón López | AutoSys | Webs de interés | perl | kubernetes | azure | machine learning
Polynomial Regression es una ecuacion de de grado n, con n un numero natural
import numpy as np # trabajo con arrays import matplotlib.pyplot as plt # para hacer gráficos import pandas as pd # importar los datasets, la matriz de características y el vector de variable dependiente
dataset = pd.read_csv('Position_Salaries.csv')
print(dataset)
Position Level Salary
0 Business Analyst 1 45000
1 Junior Consultant 2 50000
2 Senior Consultant 3 60000
3 Manager 4 80000
4 Country Manager 5 110000
5 Region Manager 6 150000
6 Partner 7 200000
7 Senior Partner 8 300000
8 C-level 9 500000
9 CEO 10 1000000
X = dataset.iloc[:, 1:-1].values # No importo la primera columna porque no aporta inforamcion
y = dataset.iloc[:, -1].values # pongo en el panda dataset y todas las filas de la ultima columna
print(X)
[[ 1]
[ 2]
[ 3]
[ 4]
[ 5]
[ 6]
[ 7]
[ 8]
[ 9]
[10]]
print(y)
[ 45000 50000 60000 80000 110000 150000 200000 300000 500000
1000000]
En este caso no hace falta hacer un split del dataset
Hago un modelo linea para compararlo con el polinomico from sklearn.linear_model import LinearRegression lin_reg = LinearRegression() lin_reg.fit(X, y)
from sklearn.preprocessing import PolynomialFeatures poly_reg = PolynomialFeatures(degree = 4) # degree es el mayor exponente del polinomio X_poly = poly_reg.fit_transform(X) # Entreno el modelo y convierto mi caracteristica que tenía una columan en tantas columnas como tengo en degree # columna 0 = 1 # columna 1 = valor original de X # columnas 2, 3 y 4 valores del modelo de transformacion print(X_poly) [[1.000e+00 1.000e+00 1.000e+00 1.000e+00 1.000e+00] [1.000e+00 2.000e+00 4.000e+00 8.000e+00 1.600e+01] [1.000e+00 3.000e+00 9.000e+00 2.700e+01 8.100e+01] [1.000e+00 4.000e+00 1.600e+01 6.400e+01 2.560e+02] [1.000e+00 5.000e+00 2.500e+01 1.250e+02 6.250e+02] [1.000e+00 6.000e+00 3.600e+01 2.160e+02 1.296e+03] [1.000e+00 7.000e+00 4.900e+01 3.430e+02 2.401e+03] [1.000e+00 8.000e+00 6.400e+01 5.120e+02 4.096e+03] [1.000e+00 9.000e+00 8.100e+01 7.290e+02 6.561e+03] [1.000e+00 1.000e+01 1.000e+02 1.000e+03 1.000e+04]] lin_reg_2 = LinearRegression() # creo una linar regression basada en las nuevas caracteristicas lin_reg_2.fit(X_poly, y) # aplico la regresion lineal porque al final es una regresion lineal
plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg.predict(X), color = 'blue')
plt.title('Truth or Bluff (Linear Regression)')
plt.xlabel('Position Level')
plt.ylabel('Salary')
plt.show()

plt.scatter(X, y, color = 'red')
plt.plot(X, lin_reg_2.predict(poly_reg.fit_transform(X)), color = 'blue')
plt.title('Truth or Bluff (Polynomial Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

X_grid = np.arange(min(X), max(X), 0.1)
X_grid = X_grid.reshape((len(X_grid), 1))
plt.scatter(X, y, color = 'red')
plt.plot(X_grid, lin_reg_2.predict(poly_reg.fit_transform(X_grid)), color = 'blue')
plt.title('Truth or Bluff (Polynomial Regression)')
plt.xlabel('Position level')
plt.ylabel('Salary')
plt.show()

Hago la prediccion para un valor de 6,5 lin_reg.predict([[6.5]]) # row,column array([330378.78787879])
lin_reg_2.predict(poly_reg.fit_transform([[6.5]])) # row,column array([158862.45265155])