Работа с пропущенными значениями и преобразование типов данных
Работа с пропущенными значениями и преобразование типов данных — это важные этапы при обработке данных в pandas. Вот несколько способов для выполнения этих задач:
Работа с пропущенными значениями
Поиск пропущенных значений:
df.isna()
илиdf.isnull()
— возвращает DataFrame с булевыми значениями, гдеTrue
указывает на пропущенные значения.df.isna().sum()
— возвращает количество пропущенных значений по каждому столбцу.
Пример:
Результат:
Заполнение пропущенных значений:
df.fillna(value)
— заполняет пропущенные значения указанным значением.df.fillna(method='ffill')
— заполняет пропущенные значения значением предыдущей строки (вперёд).df.fillna(method='bfill')
— заполняет пропущенные значения значением следующей строки (назад).
Пример:
Результат:
Удаление строк или столбцов с пропущенными значениями:
df.dropna()
— удаляет строки с пропущенными значениями.df.dropna(axis=1)
— удаляет столбцы с пропущенными значениями.
Пример:
Результат:
Замена пропущенных значений статистическими значениями:
df.fillna(df.mean())
— заменяет пропущенные значения средним значением столбца.df.fillna(df.median())
— заменяет пропущенные значения медианой столбца.
Пример:
Результат:
Преобразование типов данных
Преобразование типов данных:
df.astype(dtype)
— изменяет тип данных столбца на указанный тип. Например,df['column'] = df['column'].astype(int)
.
Пример:
Результат:
Преобразование типов данных с помощью pd.to_datetime()
:
pd.to_datetime()
:df['date_column'] = pd.to_datetime(df['date_column'])
— преобразует столбец в формат даты и времени.
Пример:
Результат:
Преобразование категориальных данных:
df['category_column'] = df['category_column'].astype('category')
— преобразует столбец в категориальный тип.df['category_column'].cat.codes
— преобразует категориальные данные в числовые коды.
Пример:
Результат:
Изменение формата чисел:
df['float_column'] = df['float_column'].round(2)
— округляет числа до 2 знаков после запятой.
Пример:
Результат:
Last updated