Skip to content

通过网盘分享的文件:基于回归分析的大学综合得分预测 (1).zip 链接: https://pan.baidu.com/s/1Jdu24uRYY4wDDqvfIsDQAg?pwd=nt29 提取码: nt29


一、案例简介

大学排名是一个非常重要同时也极富挑战性与争议性的问题,一所大学的综合实力涉及科研、师资、学生等方方面面。目前全球有上百家评估机构会评估大学的综合得分进行排序,而这些机构的打分也往往并不一致。在这些评分机构中,世界大学排名中心(Center for World University Rankings,缩写CWUR)以评估教育质量、校友就业、研究成果和引用,而非依赖于调查和大学所提交的数据著称,是非常有影响力的一个。

本任务中我们将根据 CWUR 所提供的世界各地知名大学各方面的排名(师资、科研等),一方面通过数据可视化的方式观察不同大学的特点,另一方面希望构建机器学习模型(线性回归)预测一所大学的综合得分。

二、作业说明

使用来自 Kaggle 的数据,构建「线性回归」模型,根据大学各项指标的排名预测综合得分。

基本要求:

  • 按照 8:2 随机划分训练集测试集,用 RMSE 作为评价指标,得到测试集上线性回归模型的 RMSE 值;
  • 对线性回归模型的系数进行分析。

扩展要求:

  • 对数据进行观察与可视化,展示数据特点;
  • 尝试其他的回归模型,对比效果;
  • 尝试将离散的地区特征融入线性回归模型,并对结果进行对比。

注意事项:

  • 基本输入特征有 8 个:quality_of_education, alumni_employment, quality_of_faculty, publications, influence, citations, broad_impact, patents
  • 预测目标为score
  • 可以使用 sklearn 等第三方库,不要求自己实现线性回归;
  • 需要保留所有数据集生成、模型训练测试的代码;

三、数据概览

假设数据文件位于当前文件夹,我们用 pandas 读入标准 csv 格式文件的函数read_csv()将数据转换为DataFrame的形式。观察前几条数据记录:

In [1]:

import pandas as pd
import numpy as np

data_df = pd.read_csv('./cwurData.csv')  # 读入 csv 文件为 pandas 的 DataFrame
data_df.head(3).T  # 观察前几列并转置方便观察

Out[1]:

012
world_rank123
institutionHarvard UniversityMassachusetts Institute of TechnologyStanford University
regionUSAUSAUSA
national_rank123
quality_of_education7917
alumni_employment91711
quality_of_faculty135
publications1124
influence142
citations142
broad_impactNaNNaNNaN
patents5115
score10091.6789.5
year201220122012

去除其中包含 NaN 的数据,保留 2000 条有效记录。

In [2]:

data_df = data_df.dropna()  # 舍去包含 NaN 的 row
len(data_df)

Out[2]:

2000

取出对应自变量以及因变量的列,之后就可以基于此切分训练集和测试集,并进行模型构建与分析。

In [3]:

feature_cols = ['quality_of_faculty', 'publications', 'citations', 'alumni_employment', 
                'influence', 'quality_of_education', 'broad_impact', 'patents']
X = data_df[feature_cols]
Y = data_df['score']
X

Out[3]:

quality_of_facultypublicationscitationsalumni_employmentinfluencequality_of_educationbroad_impactpatents
2001111111.02
20145323114.06
202215211232.01
20351012109213.048
2041011111212712.016
...........................
2195218926812567845367969.0816
2196218997645566908236981.0871
2197218830812549823367975.0824
2198218886812567974367975.0651
2199218861812567991367981.0547

2000 rows × 8 columns

四、模型构建

(待完成)

知识如风,常伴吾身