数据分析项目-FIFA-2018 player

476 / 2025-09-30 23:41:01 关键对决时刻

一:分析背景与目的

背景 手头拿到一份FIFA-2018 player的数据,获得途径可以是:官方网站下载、相关数据网站下载、爬虫获得等等

分析目的 对整体情况进行了解,用数据给球员做出规划参考,让球迷看到不一样的FIFA。(可能并不专业)

二:数据采集和处理

1、数据概况 describe一下数据源,可看到共计有17994条数据,6个描述列。 可以重点关注一下平均值,最大最小值。看看是否有需要清洗的数据。

# 导入模块

import pandas as pd

import numpy as py

import matplotlib.pyplot as plt

#导入数据

df = pd.read_csv('./FIFA_2018_player.csv')

#查看前5条数据

df.head()

#查看数据总体情况

df.describe()

对整体有了大体了解后,可以开始着手数据清洗,主要考虑清洗null值、重复值、异常值等。

#清洗数据

#先看看有没有null值

df[df.name.isnull()]

df[df.age.isnull()]

df[df.height_cm.isnull()]

df[df.weight_kg.isnull()]

df[df.eur_value .isnull()]

df[df.eur_wage.isnull()]

#league 联赛是否有null值 对null怎么处理?对数据影响不大,可以删除

df[df.league.isnull()]

#删除null的index

df.drop(df[df.league.isnull()].index,inplace=True)

#看一下有没有重复值 可以是某列,某几列,全部

df[df.duplicated()]

#多列重复的

df[df[['full_name','club'