Чтение и запись данных из различных источников (CSV, Excel и др.)

В Pandas можно работать с различными источниками данных, включая файлы CSV, Excel, JSON, базы данных SQL и другие. Вот как можно читать и записывать данные из этих источников и в них.

Чтение и запись данных из CSV

Чтение данных из CSV

import pandas as pd

# Чтение CSV файла в DataFrame
df = pd.read_csv('data.csv')

# Печать первых строк DataFrame
print(df.head())

Параметры pd.read_csv():

sep — разделитель (по умолчанию ',').
header — строки, содержащие заголовки (по умолчанию 0).
index_col — столбец, который использовать как индекс.
usecols — выбор столбцов для чтения.
dtype — типы данных для столбцов.

Запись данных в CSV

# Запись DataFrame в CSV файл
df.to_csv('output.csv', index=False)

# Параметры to_csv():
# - sep: разделитель (по умолчанию ',')
# - index: включать индекс (по умолчанию True)
# - header: включать заголовки (по умолчанию True)

Чтение и запись данных из Excel

Чтение данных из Excel

import pandas as pd

# Чтение Excel файла в DataFrame
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

# Печать первых строк DataFrame
print(df.head())

Параметры pd.read_excel():

sheet_name — имя листа или индекс листа (по умолчанию 0).
header — строки, содержащие заголовки (по умолчанию 0).
index_col — столбец, который использовать как индекс.
usecols — выбор столбцов для чтения.

Запись данных в Excel

# Запись DataFrame в Excel файл
df.to_excel('output.xlsx', sheet_name='Sheet1', index=False)

# Параметры to_excel():
# - sheet_name: имя листа
# - index: включать индекс (по умолчанию True)

Чтение и запись данных из JSON

Чтение данных из JSON

import pandas as pd

# Чтение JSON файла в DataFrame
df = pd.read_json('data.json')

# Печать первых строк DataFrame
print(df.head())

Параметры pd.read_json():

orient — формат JSON (например, 'records', 'split').

Запись данных в JSON

# Запись DataFrame в JSON файл
df.to_json('output.json', orient='records')

# Параметры to_json():
# - orient: формат JSON (например, 'records', 'split')

Чтение и запись данных из базы данных SQL

Чтение данных из SQL

import pandas as pd
import sqlite3

# Создание соединения с базой данных
conn = sqlite3.connect('database.db')

# Чтение данных из SQL таблицы
df = pd.read_sql('SELECT * FROM my_table', conn)

# Печать первых строк DataFrame
print(df.head())

# Закрытие соединения
conn.close()

Параметры pd.read_sql():

sql — SQL запрос.
con — объект соединения с базой данных.

Запись данных в SQL

import pandas as pd
import sqlite3

# Создание соединения с базой данных
conn = sqlite3.connect('database.db')

# Запись DataFrame в SQL таблицу
df.to_sql('my_table', conn, if_exists='replace', index=False)

# Параметры to_sql():
# - name: имя таблицы
# - con: объект соединения
# - if_exists: поведение при существовании таблицы ('fail', 'replace', 'append')
# - index: включать индекс (по умолчанию True)

# Закрытие соединения
conn.close()

Чтение и запись данных из HTML

Чтение данных из HTML

import pandas as pd

# Чтение HTML таблицы в DataFrame
dfs = pd.read_html('data.html')

# Печать первых строк первой таблицы
print(dfs[0].head())

pd.read_html() возвращает список DataFrame объектов, так как HTML может содержать несколько таблиц.

Запись данных в HTML

# Запись DataFrame в HTML файл
df.to_html('output.html', index=False)

# Параметры to_html():
# - index: включать индекс (по умолчанию True)

Чтение и запись данных из Parquet

Parquet — это формат колонков данных, оптимизированный для больших объемов данных.

Чтение данных из Parquet

import pandas as pd

# Чтение Parquet файла в DataFrame
df = pd.read_parquet('data.parquet')

# Печать первых строк DataFrame
print(df.head())

Запись данных в Parquet

import pandas as pd

# Запись DataFrame в Parquet файл
df.to_parquet('output.parquet')

# Параметры to_parquet():
# - index: включать индекс (по умолчанию True)

Заключение

Pandas предоставляет мощные инструменты для чтения и записи данных из различных источников, что упрощает работу с данными и их интеграцию в различные приложения и среды. Использование правильных методов для чтения и записи данных помогает оптимизировать процесс анализа данных и повысить производительность работы с большими объемами информации.

PreviousРабота с базовыми функциями Pandas NextОсновы работы с DataFrame (выбор, изменение индекса, удаление столбцов)

Last updated 29 days ago