DataFrames mergen und joinen in Python: Ein umfassender Leitfaden
19.11.2025
Einführung
Die Datenanalyse mit Python erfreut sich immer grösserer Beliebtheit, und das aus gutem Grund: Die Sprache bietet eine Vielzahl an Bibliotheken, die den Umgang mit Daten effizient und einfach machen. Eine der meistgenutzten Bibliotheken ist Pandas, die speziell für die Datenverarbeitung und -analyse konzipiert ist. In diesem Artikel schauen wir uns an, wie man DataFrames in Python mergen und joinen kann – ein essenzieller Prozess in der Datenanalyse.
Was ist ein DataFrame?
Ein DataFrame ist eine zweidimensionale, tabellenartige Datenstruktur mit beschrifteten Achsen (Zeilen und Spalten). Man kann es sich als eine Tabelle in einer Datenbank oder ein Excel-Blatt vorstellen. DataFrames sind das Herzstück von Pandas und bieten eine Vielzahl von Funktionen für die Datenmanipulation.
Warum DataFrames mergen?
Beim Arbeiten mit realen Datensätzen stösst man häufig auf Situationen, in denen Daten aus unterschiedlichen Quellen zusammengeführt werden müssen. Das Mergen von DataFrames ermöglicht es, verwandte Datensätze zu einem umfassenderen Datensatz zu kombinieren, was die Analyse und das Gewinnen von Erkenntnissen erleichtert.
Die Grundlagen des Mergens und Joinens
In Pandas gibt es hauptsächlich zwei Methoden, um DataFrames zu kombinieren: merge() und join(). Beide Methoden bieten eine Vielzahl von Optionen, um den Prozess an spezifische Anforderungen anzupassen.
Die merge()-Methode
Die merge()-Funktion ist sehr flexibel und wird häufig verwendet, um zwei DataFrames anhand einer oder mehrerer Schlüsselspalten zu kombinieren. Sie ähnelt dem SQL-Befehl JOIN. Hier sind einige der wichtigsten Parameter:
on: Die Spalte(n), anhand derer die DataFrames zusammengeführt werden.how: Gibt an, welche Art von Merge durchgeführt wird. Optionen sind "left", "right", "outer", "inner".left_on,right_on: Wenn die Schlüsselspalten unterschiedliche Namen in den beiden DataFrames haben.
Die join()-Methode
Die join()-Methode ist eine bequeme Möglichkeit, um DataFrames entlang eines Indexes zu verbinden. Sie ist besonders nützlich, wenn ein DataFrame einen Index hat, der mit einer Spalte eines anderen DataFrames abgeglichen werden soll.
how: Wie beimerge()kann man hier "left", "right", "outer" oder "inner" wählen.on: Die Spalte, die mit dem Index abgeglichen werden soll.
Praktische Beispiele
Um das Verständnis zu vertiefen, schauen wir uns einige Beispiele an, wie merge() und join() in der Praxis angewendet werden:
Beispiel für merge()
import pandas as pd
df1 = pd.DataFrame({
'ID': [1, 2, 3, 4],
'Name': ['Anna', 'Ben', 'Chris', 'Dana']
})
df2 = pd.DataFrame({
'ID': [1, 2, 3, 4],
'Score': [85, 90, 88, 92]
})
merged_df = pd.merge(df1, df2, on='ID')
print(merged_df)
Beispiel für join()
import pandas as pd
df1 = pd.DataFrame({
'Name': ['Anna', 'Ben', 'Chris', 'Dana'],
'Score': [85, 90, 88, 92]
}, index=[1, 2, 3, 4])
df2 = pd.DataFrame({
'Age': [23, 24, 22, 25]
}, index=[1, 2, 3, 4])
joined_df = df1.join(df2)
print(joined_df)
Fazit
Das Mergen und Joinen von DataFrames ist ein unverzichtbarer Bestandteil der Datenanalyse in Python. Mit den leistungsstarken Funktionen von Pandas kann man Daten effizient kombinieren und analysieren. Egal, ob man Daten aus verschiedenen Quellen integriert oder eine umfassende Analyse durchführt, das Verständnis dieser Techniken ist entscheidend für den Erfolg in der Datenanalyse.