0% fanden dieses Dokument nützlich (0 Abstimmungen)

186 Ansichten11 Seiten

Hausaufgabe 1 Machine Learning

Das Dokument beschreibt die Anwendung verschiedener maschineller Lernalgorithmen wie K-nächste Nachbarn und Support Vector Machine zur Klassifizierung von Raumzuständen als behaglich oder unbehaglich auf Basis von Temperatur- und Feuchtigkeitsdaten. Die Algorithmen werden anhand eines Beispieldatensatzes trainiert und ihre Genauigkeit wird evaluiert.

Hochgeladen von

Francisco José Araque Pineda

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als DOCX, PDF, TXT herunterladen oder online auf Scribd lesen

0% fanden dieses Dokument nützlich (0 Abstimmungen)

186 Ansichten11 Seiten

Hausaufgabe 1 Machine Learning

Hochgeladen von

Francisco José Araque Pineda

Wir nehmen die Rechte an Inhalten ernst. Wenn Sie vermuten, dass dies Ihr Inhalt ist, beanspruchen Sie ihn hier.

Verfügbare Formate

Als DOCX, PDF, TXT herunterladen oder online auf Scribd lesen

Hausaufgabe 1 Machine Learning

Modul SMART HOME SoSe 2021/2022

von

Francisco José Araque Pineda

Matrikel-Nummer: 0473287
Studiengang: Wirtschaftingenieurwesen

Prof. Dr. Rita Streblow

Berlin, den August 2, 2022

Inhaltsübersicht
1. Einleitung...............................................................................................................3
2. Nächster Nachbar und K-nächste Nachbarn...........................................................4
3. Support Vector Machine.........................................................................................6
4. Schlussfolgerungen der Aufgabe..........................................................................10
1. Einleitung
In dieser Aufgabe wollen wir verschiedene Algorithmen des maschinellen Lernens
einsetzen, um den Zustand eines Raumes als „behaglich“ oder unbehaglich zu
klassifizieren.

Für die Entwicklung der Algorithmen wurde beschlossen, das Tool Google Colab zu
verwenden. Google Colab ist ein kostenloses Online-Tool, das die Entwicklung und
Ausführung von Python-Codes ermöglicht, ohne dass der Computer über bestimmte
Eigenschaften verfügen muss. Der Hauptgrund für die Verwendung dieses Tools ist die
Flüssigkeit und die Benutzerfreundlichkeit, die es bietet.

Der Hausaufgabendatensatz besteht aus einer .csv-Datei mit einer Tabelle mit 34 Zeilen
und 9 Spalten. Vor der Anwendung eines Algorithmus ist es notwendig, die Daten zu
verarbeiten und nur die für diese Aufgabe wesentlichen Informationen zu speichern.
Daher werden die Spalten „Temp. In ºC“, „rel. Feuchte in %“ und „Bewertung“
beibehalten und der Rest gestrichen. Der Name der Spalten wird dann in „x1“, „x2“ und
„y“ geändert.

Schließlich wird der Wert der Spalte „y“ durch eine „1“ ersetzt, wenn er „behaglich“
war, oder durch eine „0“, wenn er „unbehaglich“ war.

Nach der Verarbeitung des ursprünglichen Datensatzes werden die folgenden

Algorithmen angewandt: Nächster Nachbarn, K-nächste Nachbarn und Support Vector
Machine.
2. Nächster Nachbar und K-nächste Nachbarn
Der erste Schritt besteht darin, die Bibliotheken zu laden, die für die Implementierung
dieser beiden Algorithmen verwendet werden sollen.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
import matplotlib.patches as mpatches
import seaborn as sb

%matplotlib inline
plt.rcParams['figure.figsize'] = (16, 9)
plt.style.use('ggplot')

from sklearn.model_selection import train_test_split

from sklearn.preprocessing import MinMaxScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

Der Datensatz wird auch geladen.

datosread = '/content/Datensatz_Hausaufgabe_scikit-learn.csv'
datos = pd.read_csv(datosread, on_bad_lines='skip', sep=';')

Die Daten werden in Training und Test unterteilt.

X = datos[['x1','x2']].values
y = datos['y'].values

X_train, X_test, y_train, y_test = train_test_split(X, y,

random_state=0)
scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

Als nächstes verwenden wir einen Befehl, um zu sehen, für welche Werte von „k“ die
höchste Genauigkeit erzielt wird.
k_range = range(1, 20)
scores = []
for k in k_range:
knn = KNeighborsClassifier(n_neighbors = k)
knn.fit(X_train, y_train)
scores.append(knn.score(X_test, y_test))
plt.figure()
plt.xlabel('k')
plt.ylabel('accuracy')
plt.scatter(k_range, scores)
plt.xticks([0,5,10,15,20])

([<matplotlib.axis.XTick at 0x7f5ff2be4550>, <matplotlib.axis.XTick

at 0x7f5ff2ac9950>, <matplotlib.axis.XTick at 0x7f5ff2ac93d0>,
<matplotlib.axis.XTick at 0x7f5ff2a468d0>, <matplotlib.axis.XTick
at 0x7f5ff2a46bd0>], <a list of 5 Text major ticklabel objects>)

Wie man sieht, werden die höchsten Genauigkeitswerte für „k” gleich 1 und „k“ gleich
2 erzielt. Daher sind die Ergebnisse für den Nächster Nachbarn Algorithmus (k gleich 1)
und für den K-nächste Nachbarn Algorithmus (der das beste Ergebnis für k gleich 2
erzielt) gleich. Daher werden diese beiden Algorithmen in denselben Abschnitt
aufgenommen.

Der Algorithmus ist mit einem Wert von k gleich 2 aufgebaut.

n_neighbors = 2

knn = KNeighborsClassifier(n_neighbors)
knn.fit(X_train, y_train)
print('Accuracy of K-NN classifier on training set: {:.2f}'
.format(knn.score(X_train, y_train)))
print('Accuracy of K-NN classifier on test set: {:.2f}'
.format(knn.score(X_test, y_test)))

Accuracy of K-NN classifier on training set: 0.96

Accuracy of K-NN classifier on test set: 1.00
Man sieht, dass die Genauigkeit des Algorithmus sehr hoch ist.

Schließlich wird das Modell angewandt, um zu sehen, wie sich ein Benutzer in einem
Raum mit einer Temperatur von 23,3 °C und einer Luftfeuchtigkeit von 46 % fühlen
würde.
print(knn.predict([[23.3, 46]]))

[0]

Das Ergebnis ist 0, so die Bewertung des Raums ist unbehaglich.

3. Support Vector Machine

Die erforderlichen Bibliotheken werden geladen, die Daten werden geladen und
ausgedruckt.
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

from matplotlib import style
import seaborn as sns
from mlxtend.plotting import plot_decision_regions

from sklearn.svm import SVC

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

plt.rcParams['image.cmap'] = "bwr"
#plt.rcParams['figure.dpi'] = "100"
plt.rcParams['savefig.bbox'] = "tight"
style.use('ggplot') or plt.style.use('ggplot')

import warnings
warnings.filterwarnings('ignore')
datosread = '/Datensatz_Hausaufgabe_scikit-learn.csv'
datos = pd.read_csv(datosread, on_bad_lines='skip', sep=';')
datos.head(20)
print(datos)

x1 x2 y
0 20.0 40 1
1 24.0 30 0
2 20.5 75 0
3 24.0 42 1
4 22.0 60 1
5 18.0 41 0
6 20.4 52 1
7 26.0 52 0
8 22.0 75 0
9 20.1 32 0
10 18.0 62 0
11 21.0 75 0
12 24.0 30 0
13 25.0 27 0
14 24.2 39 1
15 23.2 58 1
16 19.9 63 1
17 25.0 40 1
18 20.0 20 0
19 18.0 51 0
20 25.0 25 0
21 21.3 52 1
22 22.1 43 1
23 18.3 39 0
24 26.2 49 0
25 22.0 40 1
26 20.3 54 1
27 23.0 52 1
28 24.1 51 1
29 26.1 53 0
30 24.1 72 0

Als nächster Schritt wird ein Diagramm mit den Daten erstellt, um sie besser zu
verstehen.
fig, ax = plt.subplots(figsize=(6,4))
ax.scatter(datos.x1, datos.x2, c=datos.y);
ax.set_title("Zusammenhang");
Die Daten werden in Train (80%) und Test (20%) unterteilt.
X = datos.drop(columns = 'y')
y = datos['y']

X_train, X_test, y_train, y_test = train_test_split(

X,
y.values.reshape(-1,1),
train_size = 0.8,
random_state = 1234,
shuffle = True
)
Das Modell wird erstellt.
modelo = SVC(C = 100, kernel = 'linear', random_state=123)
modelo.fit(X_train, y_train)

SVC(C=100, kernel='linear', random_state=123)

Die Grenzen der Klassifizierung werden grafisch dargestellt.

x = np.linspace(np.min(X_train.x1), np.max(X_train.x1), 50)
y = np.linspace(np.min(X_train.x2), np.max(X_train.x2), 50)
Y, X = np.meshgrid(y, x)
grid = np.vstack([X.ravel(), Y.ravel()]).T

pred_grid = modelo.predict(grid)

fig, ax = plt.subplots(figsize=(6,4))
ax.scatter(grid[:,0], grid[:,1], c=pred_grid, alpha = 0.2)
ax.scatter(X_train.x1, X_train.x2, c=y_train, alpha = 1)

ax.scatter(
modelo.support_vectors_[:, 0],
modelo.support_vectors_[:, 1],
s=200, linewidth=1,
facecolors='none', edgecolors='black'
)

ax.contour(
X,
Y,
modelo.decision_function(grid).reshape(X.shape),
colors = 'k',
levels = [-1, 0, 1],
alpha = 0.5,
linestyles = ['--', '-', '--']
)

ax.set_title("Resultados clasificación SVM lineal");

Die Testwerte werden vorhergesagt und die Genauigkeit des Modells wird berechnet.
predicciones = modelo.predict(X_test)
predicciones

array([1, 1, 1, 0, 1, 1, 1])
accuracy = accuracy_score(
y_true = y_test,
y_pred = predicciones,
normalize = True
)
print("")
print(f"El accuracy de test es: {100*accuracy}%")

El accuracy de test es: 42.857142857142854%

Wie man sieht, liegt die Genauigkeit des Modells bei 42.86 %.

Schließlich wird das Modell angewandt, um zu sehen, wie sich ein Benutzer in einem
Raum mit einer Temperatur von 23,3 °C und einer Luftfeuchtigkeit von 46 % fühlen
würde.
predicciones2 = modelo.predict([[23.3, 46]])
predicciones2

array([1])

Das Ergebnis ist 1, so die Bewertung des Raums ist behaglich.

4. Schlussfolgerungen der Aufgabe

Der erste und wichtigste Schritt bei der Durchführung dieser Aufgabe bestand darin,
den Datensatz zu verstehen. Danach muss man verstehen, welche Informationen
notwendig und welche entbehrlich sind, um die Modelle zu erstellen und zu
entscheiden, wie sich ein Benutzer in einem Raum mit einer Temperatur von 23,3ºC
und einer Luftfeuchtigkeit von 46% fühlen würde.

Ein weiterer wichtiger Schritt bestand darin, mit Hilfe des Befehls zu berechnen, für
welche Werte von k die höchste Genauigkeit erzielt wurde, da dies eine Menge Arbeit
ersparte.
Schließlich, wenn man vergleicht die Genauigkeit der beiden Modelle, so zeigt sich,
dass der K-nächste-Nachbarn-Algorithmus eine höhere Genauigkeit (100%) erzielt als
der Support-Vector-Machine-Algorithmus (42.86%).

Daher kann man sagen, dass das Endergebnis ist, dass ein Benutzer einen Raum mit
einer Temperatur von 23,3°C und einer Luftfeuchtigkeit von 46% unbehaglich bewerten
würde.

Das könnte Ihnen auch gefallen

Blatt 02
Noch keine Bewertungen
Blatt 02
2 Seiten
Vorlesungsskript Datenanalyse in Der Physik FS24
Noch keine Bewertungen
Vorlesungsskript Datenanalyse in Der Physik FS24
75 Seiten
Maschinelles Lernen
Noch keine Bewertungen
Maschinelles Lernen
722 Seiten
PRF3002 Loesungen
Noch keine Bewertungen
PRF3002 Loesungen
67 Seiten
Vijaya ML
Noch keine Bewertungen
Vijaya ML
26 Seiten
DIGIP T 05 Supervised Learning
Noch keine Bewertungen
DIGIP T 05 Supervised Learning
26 Seiten
DIGIP T 06 Supervised Learning
Noch keine Bewertungen
DIGIP T 06 Supervised Learning
22 Seiten
DMML Bung
Noch keine Bewertungen
DMML Bung
6 Seiten
Zwischenprüfung - APS1070 - Herbst 2019 - 09
Noch keine Bewertungen
Zwischenprüfung - APS1070 - Herbst 2019 - 09
2 Seiten
Meilenstein-Herausforderung Zum Datensatz Gebrauchtfahrräder".
Noch keine Bewertungen
Meilenstein-Herausforderung Zum Datensatz Gebrauchtfahrräder".
12 Seiten
Geschäftsbericht Zum Maschinellen Lernen
Noch keine Bewertungen
Geschäftsbericht Zum Maschinellen Lernen
63 Seiten
Bildverarbeitung Maschinlerning Python
Noch keine Bewertungen
Bildverarbeitung Maschinlerning Python
4 Seiten
ML
Noch keine Bewertungen
ML
3 Seiten
Pract 4
Noch keine Bewertungen
Pract 4
5 Seiten
1.3 джерело
Noch keine Bewertungen
1.3 джерело
79 Seiten
KI1 Python-Befehle 2025
Noch keine Bewertungen
KI1 Python-Befehle 2025
14 Seiten
Data-Mining-Geschäftsbericht Hansraj Yadav
Noch keine Bewertungen
Data-Mining-Geschäftsbericht Hansraj Yadav
38 Seiten
Hausaufgabenblatt 06
Noch keine Bewertungen
Hausaufgabenblatt 06
3 Seiten
PDF 10
Noch keine Bewertungen
PDF 10
12 Seiten
Lab4
Noch keine Bewertungen
Lab4
8 Seiten
2020-02-17 Klausur - Master
Noch keine Bewertungen
2020-02-17 Klausur - Master
15 Seiten
ML1Klausur WS2122
Noch keine Bewertungen
ML1Klausur WS2122
14 Seiten
Train The Dataset
Noch keine Bewertungen
Train The Dataset
5 Seiten
433 Lab1 SIA
Noch keine Bewertungen
433 Lab1 SIA
17 Seiten
Wilmer
Noch keine Bewertungen
Wilmer
163 Seiten
DIGIP T 04 Unsupervised - Learning
Noch keine Bewertungen
DIGIP T 04 Unsupervised - Learning
22 Seiten
DIGIP T 02 EinfuÌ Hung - in - R
Noch keine Bewertungen
DIGIP T 02 EinfuÌ Hung - in - R
24 Seiten
Data Mining Bundle
Noch keine Bewertungen
Data Mining Bundle
44 Seiten
GPR - 7886544 Slugin - Blatt 13
Noch keine Bewertungen
GPR - 7886544 Slugin - Blatt 13
3 Seiten
Dissertation Jochen Juskowiak (049-096)
Noch keine Bewertungen
Dissertation Jochen Juskowiak (049-096)
48 Seiten
GNN 2006
Noch keine Bewertungen
GNN 2006
111 Seiten
Sample
Noch keine Bewertungen
Sample
3 Seiten
06 Lineare Gleichungssysteme
Noch keine Bewertungen
06 Lineare Gleichungssysteme
16 Seiten
03 Python Packages For Data Science - de
Noch keine Bewertungen
03 Python Packages For Data Science - de
1 Seite
Blatt4 LSG
Noch keine Bewertungen
Blatt4 LSG
4 Seiten
DIGIP T 03 Deskriptive - Analyse
Noch keine Bewertungen
DIGIP T 03 Deskriptive - Analyse
25 Seiten
Multivariate Statistische Analyse Von Gesundheitsdaten Österreichischer Sozialversicherungsträger Academic PDF Download
Noch keine Bewertungen
Multivariate Statistische Analyse Von Gesundheitsdaten Österreichischer Sozialversicherungsträger Academic PDF Download
15 Seiten
MUS Fragen+Antworten
Noch keine Bewertungen
MUS Fragen+Antworten
9 Seiten
Efeler DDT
Noch keine Bewertungen
Efeler DDT
15 Seiten
ML1Klausur WS2223
Noch keine Bewertungen
ML1Klausur WS2223
19 Seiten
Approximationsalgorithmen
Noch keine Bewertungen
Approximationsalgorithmen
149 Seiten
Mikut Ralf
Noch keine Bewertungen
Mikut Ralf
372 Seiten
L4 Statistik-Refresher
Noch keine Bewertungen
L4 Statistik-Refresher
8 Seiten
ML1Klausur SS23
Noch keine Bewertungen
ML1Klausur SS23
19 Seiten
Aufgabenstellung DBV
Noch keine Bewertungen
Aufgabenstellung DBV
5 Seiten
ALDA Ex02
Noch keine Bewertungen
ALDA Ex02
3 Seiten
TUB ASE Aufgabe7
Noch keine Bewertungen
TUB ASE Aufgabe7
4 Seiten
Data Analyst 2
0% (1)
Data Analyst 2
13 Seiten
1 RMD Loesung
Noch keine Bewertungen
1 RMD Loesung
4 Seiten
Python Cheet List
Noch keine Bewertungen
Python Cheet List
2 Seiten
1 Organisatorisches Und Perzeptronen
Noch keine Bewertungen
1 Organisatorisches Und Perzeptronen
20 Seiten
ML1Klausur SS22
Noch keine Bewertungen
ML1Klausur SS22
18 Seiten
Matlab Einfuehrung 3 4
Noch keine Bewertungen
Matlab Einfuehrung 3 4
2 Seiten
Jahnke Patrick
Noch keine Bewertungen
Jahnke Patrick
83 Seiten
K Means Clustering - 187221087
Noch keine Bewertungen
K Means Clustering - 187221087
6 Seiten
Lab 13
Noch keine Bewertungen
Lab 13
21 Seiten
DIGIP T 00 LehrveranstaltungsuÌ Berblick
Noch keine Bewertungen
DIGIP T 00 LehrveranstaltungsuÌ Berblick
14 Seiten
Prac 6 - Colab
Noch keine Bewertungen
Prac 6 - Colab
2 Seiten