Использование библиотеки Pandas для манипуляции данных
Библиотека Pandas является мощным инструментом для анализа и манипуляции данными в Python. Она предоставляет высокоуровневые структуры данных и функции, которые делают работу с данными удобной и эффективной. Основные структуры данных в Pandas — это Series
и DataFrame
.
Установка и импорт
Если Pandas не установлен, его можно установить с помощью pip:
Импортируйте Pandas в ваш код:
Основные структуры данных
Series
Series
Series
— это одномерный массив, аналогичный столбцу в таблице данных.
Пример создания Series
:
DataFrame
DataFrame
DataFrame
— это двумерная таблица данных с метками строк и столбцов, аналогичная таблице в базе данных или листу в Excel.
Пример создания DataFrame
:
Чтение и запись данных
Pandas поддерживает работу с различными форматами данных, включая CSV, Excel, SQL и JSON.
Чтение данных из CSV:
Запись данных в CSV:
Чтение данных из Excel:
Запись данных в Excel:
Манипуляция данными
Просмотр данных
df.head()
: Показать первые 5 строкdf.tail()
: Показать последние 5 строкdf.info()
: Показать информацию о DataFramedf.describe()
: Показать статистическое резюме числовых столбцов
Индексация и выбор данных
Выбор столбцов:
Выбор строк по индексу:
Фильтрация данных:
Изменение данных
Добавление нового столбца:
Изменение значений:
Удаление столбца:
Удаление строки:
Агрегация и группировка
Группировка данных:
Применение агрегирующих функций:
Применение пользовательских функций:
Слияние и объединение данных
Объединение данных по ключу (merge):
Объединение данных по вертикали и горизонтали:
Работа с пропущенными данными
Проверка на пропущенные значения:
Удаление пропущенных значений:
Заполнение пропущенных значений:
Работа с временными данными
Преобразование в datetime:
Установка индекса по дате:
Работа с временными диапазонами:
Заключение
Pandas предоставляет обширные возможности для работы с данными, включая их чтение, запись, манипуляцию, агрегацию и анализ. Освоение этой библиотеки значительно упрощает процесс работы с данными и улучшает производительность анализа.
Last updated