Основы работы с DataFrame (выбор, изменение индекса, удаление столбцов)

Работа с объектом DataFrame в Pandas включает множество операций, таких как выбор данных, изменение индекса и удаление столбцов. Ниже представлены основные методы и функции для выполнения этих задач.

Выбор данных из DataFrame

Выбор столбцов

Вы можете выбрать один или несколько столбцов в DataFrame с помощью индексирования:

import pandas as pd

# Создание DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
})

# Выбор одного столбца
name_column = df['Name']

# Выбор нескольких столбцов
name_city_columns = df[['Name', 'City']]

Выбор строк по позиции

Используйте iloc для выбора строк по числовым индексам:

# Выбор первой строки
first_row = df.iloc[0]

# Выбор первых 2 строк
first_two_rows = df.iloc[:2]

# Выбор строк с 1 по 2 (не включая 3)
subset_rows = df.iloc[1:3]

Выбор строк по метке

Используйте loc для выбора строк по меткам индекса:

# Установка индекса
df.set_index('Name', inplace=True)

# Выбор строки по метке индекса
charlie_row = df.loc['Charlie']

Фильтрация данных

Вы можете фильтровать данные с помощью логических условий:

# Фильтрация по возрасту
adults = df[df['Age'] > 30]

Изменение индекса

Установка нового индекса

Вы можете установить новый столбец как индекс:

# Установка столбца 'Name' как индекс
df.set_index('Name', inplace=True)

Сброс индекса

Если нужно вернуть индекс к умолчанию:

# Сброс индекса и перемещение старого индекса в столбец
df_reset = df.reset_index()

Изменение индекса вручную

Вы можете изменить индекс с помощью присваивания:

# Изменение индекса вручную
df.index = ['row1', 'row2', 'row3']

Удаление столбцов

Удаление столбца с помощью drop

Используйте метод drop для удаления столбцов:

# Удаление столбца 'City'
df_dropped = df.drop('City', axis=1)

# Удаление нескольких столбцов
df_dropped_multiple = df.drop(['Age', 'City'], axis=1)

Удаление столбца в исходном DataFrame

Используйте параметр inplace=True, чтобы изменения были применены к исходному DataFrame:

# Удаление столбца 'City' на месте
df.drop('City', axis=1, inplace=True)

Примеры использования

import pandas as pd

# Создание DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
})

# Выбор одного столбца
name_column = df['Name']
print(name_column)

# Выбор нескольких столбцов
name_city_columns = df[['Name', 'City']]
print(name_city_columns)

# Установка индекса
df.set_index('Name', inplace=True)

# Выбор строки по метке индекса
charlie_row = df.loc['Charlie']
print(charlie_row)

# Фильтрация по возрасту
adults = df[df['Age'] > 30]
print(adults)

# Сброс индекса
df_reset = df.reset_index()
print(df_reset)

# Удаление столбца
df_dropped = df.drop('City', axis=1)
print(df_dropped)
  • axis определяет направление операции (по строкам или по столбцам) в DataFrame или Series.

  • inplace управляет тем, изменяется ли исходный объект или создается новый объект с изменениями.

Заключение

Работа с DataFrame в Pandas предоставляет множество возможностей для манипуляции данными. Основные операции, такие как выбор данных, изменение индекса и удаление столбцов, являются фундаментальными для анализа и обработки данных. Эти операции позволяют эффективно управлять данными и подготовить их для дальнейшего анализа.

Last updated