您现在的位置是：主页 > 深度智能 >

5 个数据科学项目——实践数据科学项目

2022-02-25 14:57:00深度智能 22086人已围观

免费预览：

随着人工智能的指数级爆发，公司急切地希望聘请熟练的数据科学家来发展他们的业务。除了获得数据科学认证之外，在你的简历中加入几个数据科学项目总是好的。有理论知识是永远不够的。因此，在本博客中，您将学习如何实际使用数据科学方法来解决实际问题。

以下是本文将涵盖的主题列表博客：

数据科学项目生命周期

有了正确的数据，数据科学可用于解决从欺诈检测和智能农业到预测气候变化和心脏病等问题。话虽如此，数据不足以解决问题，您需要一种可以为您提供最准确结果的方法或方法。这给我们带来了一个问题：

您如何解决数据科学问题？

数据科学中的问题陈述可以通过以下步骤来解决：

定义问题陈述/业务需求
数据采集
数据清洗
数据探索与分析
数据建模
部署与优化

数据科学项目生命周期 – 数据科学项目

让我们详细看看这些步骤中的每一个：

第 1 步：定义问题陈述

在你开始一个数据科学项目之前，你必须定义你要解决的问题。在这个阶段，您应该清楚项目的目标。

第 2 步：数据收集

顾名思义，在这个阶段，您必须获取解决问题所需的所有数据。收集数据并不是一件容易的事，因为大多数时候您不会在数据库中找到等待您的数据。相反，你必须出去，做一些研究并收集数据或从互联网上抓取数据。

第三步：数据清理

如果你问数据科学家，他们最不喜欢数据科学的过程是什么，他们很可能会告诉你这是数据清洗。数据清洗是删除冗余、丢失、重复和不必要数据的过程。这个阶段被认为是数据科学中最耗时的阶段之一。然而，为了防止错误的预测，消除数据中的任何不一致是很重要的。

第 4 步：数据分析和探索

清理完数据后，就该拿出内在的福尔摩斯了。在数据科学生命周期的这个阶段，您必须检测数据中的模式和趋势。您可以在此处检索有用的见解并研究数据的行为。在这个阶段结束时，您必须开始对您的数据和您正在解决的问题形成假设。

第 5 步：数据建模

这个阶段就是建立一个最能解决您的问题的模型。模型可以是使用数据进行训练和测试的机器学习算法。这个阶段总是从一个称为数据拼接的过程开始，在这个过程中，您将整个数据集分成两个比例。一个用于训练模型（训练数据集），另一个用于测试模型的效率（测试数据集）。

接下来是使用训练数据集构建模型，最后使用测试数据集评估模型。

第 6 步：优化和部署：

这是数据科学生命周期的最后阶段。在这个阶段，你必须尝试提高数据模型的效率，使其能够做出更准确的预测。最终目标是将模型部署到生产或类似生产的环境中，以供最终用户接受。用户必须验证模型的性能，如果模型有任何问题，则必须在此阶段进行修复。

既然你知道一个问题是如何使用数据科学来解决，让我们进入有趣的部分。在接下来的部分中，我将为您提供五个高级数据科学项目，这些项目可以让您在顶级 IT 公司中获得聘用。

R中的数据科学

在我们开始编码之前，这里有一个简短的免责声明：

我将使用 R 语言来运行整个数据科学工作流程，因为R 是一种统计语言，它有超过 8000 个包，可以让我们的生活更轻松。

1994 年人口普查收入数据的分类

问题陈述：建立一个模型，该模型将根据有关该个人的可用数据预测美国任何个人的收入是否大于或小于 50,000 美元。

数据集描述：该人口普查收入数据集由 Barry Becker 于 1994 年收集并提供给公共网站http://archive.ics.uci.edu/ml/datasets/Census+Income。该数据集将帮助您了解一个人的收入如何因教育背景、职业、婚姻状况、地理、年龄、每周工作小时数等各种因素而变化。

以下是用于预测个人收入是否超过 50,000 美元的自变量或预测变量列表：

年龄
工薪阶层
最终重量
教育
Education-num（受教育年限）
婚姻状况
职业
关系
种族
性别
资本收益
资本损失
每周几小时
祖国

因变量是代表收入水平的“收入水平”。这是一个分类变量，因此它只能取两个值：

<=50k
>=50k

现在我们已经定义了目标并收集了数据，是时候开始分析了。

第 1 步：导入数据

幸运的是，我们在网上找到了一个数据集，所以我们所要做的就是将数据集导入我们的 R 环境，如下所示：

#Downloading train and test data

trainFile = "adult.data"; testFile = "adult.test"

if (!file.exists (trainFile))

download.file (url = "http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data",

destfile = trainFile)

if (!file.exists (testFile))

download.file (url = "http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test",

destfile = testFile)

在上面的代码片段中，我们下载了训练数据集和测试数据集。

如果您查看训练数据，您会注意到预测变量没有标记。因此，在下面的代码片段中，我为每个预测变量分配了变量名，并且为了使数据更具可读性，我去掉了不必要的空格。

#Assigning column names

colNames = c ("age", "workclass", "fnlwgt", "education",

"educationnum", "maritalstatus", "occupation",

"relationship", "race", "sex", "capitalgain",

"capitalloss", "hoursperweek", "nativecountry",

"incomelevel")

#Reading training data

training = read.table (trainFile, header = FALSE, sep = ",",

strip.white = TRUE, col.names = colNames,

na.strings = "?", stringsAsFactors = TRUE)

现在为了研究我们的数据集的结构，我们调用 str() 方法。这为我们提供了数据集中存在的所有预测变量的描述性摘要：

#Display structure of the data

str (training)

> str (training)

'data.fr ame': 32561 obs. of 15 variables:

$ age : int 39 50 38 53 28 37 49 52 31 42 ...

$ workclass : Factor w/ 8 levels "Federal-gov",..: 7 6 4 4 4 4 4 6 4 4 ...

$ fnlwgt : int 77516 83311 215646 234721 338409 284582 160187 209642 45781 159449 ...

$ education : Factor w/ 16 levels "10th","11th",..: 10 10 12 2 10 13 7 12 13 10 ...

$ educationnum : int 13 13 9 7 13 14 5 9 14 13 ...

$ maritalstatus: Factor w/ 7 levels "Divorced","Married-AF-spouse",..: 5 3 1 3 3 3 4 3 5 3 ...

$ occupation : Factor w/ 14 levels "Adm-clerical",..: 1 4 6 6 10 4 8 4 10 4 ...

$ relationship : Factor w/ 6 levels "Husband","Not-in-family",..: 2 1 2 1 6 6 2 1 2 1 ...

$ race : Factor w/ 5 levels "Amer-Indian-Eskimo",..: 5 5 5 3 3 5 3 5 5 5 ...

$ sex : Factor w/ 2 levels "Female","Male": 2 2 2 2 1 1 1 2 1 2 ...

$ capitalgain : int 2174 0 0 0 0 0 0 0 14084 5178 ...

$ capitalloss : int 0 0 0 0 0 0 0 0 0 0 ...

$ hoursperweek : int 40 13 40 40 40 40 16 45 50 40 ...

$ nativecountry: Factor w/ 41 levels "Cambodia","Canada",..: 39 39 39 39 5 39 23 39 39 39 ...

$ incomelevel : Factor w/ 2 levels "<=50K",">50K": 1 1 1 1 1 1 1 2 2 2 ...

因此，在导入数据并将其转换为可读格式之后，我们将进入数据处理的下一个关键步骤，即数据清洗。

第 2 步：数据清理

数据清理阶段被认为是数据科学中最耗时的任务之一。此阶段包括删除 NA 值、删除冗余变量和数据中的任何不一致。

我们将通过检查我们的数据观察是否有任何缺失值来开始数据清理：

> table (complete.cases (training))

FALSE TRUE

2399 30162

上面的代码片段表明 2399 个样本案例具有 NA 值。为了解决这个问题，让我们看一下我们所有变量的摘要，并分析哪些变量的空值数量最多。我们必须摆脱 NA 值的原因是它们会导致错误的预测，从而降低我们模型的准确性。

> summary (training [!complete.cases(training),])

age workclass fnlwgt education educationnum

Min. :17.00 Private : 410 Min. : 12285 HS-grad :661 Min. : 1.00

1st Qu.:22.00 Self-emp-inc : 42 1st Qu.:121804 Some-college:613 1st Qu.: 9.00

Median :36.00 Self-emp-not-inc: 42 Median :177906 Bachelors :311 Median :10.00

Mean :40.39 Local-gov : 26 Mean :189584 11th :127 Mean : 9.57

3rd Qu.:58.00 State-gov : 19 3rd Qu.:232669 10th :113 3rd Qu.:11.00

Max. :90.00 (Other) : 24 Max. :981628 Masters : 96 Max. :16.00

NA's :1836 (Other) :478

maritalstatus occupation relationship race

Divorced :229 Prof-specialty : 102 Husband :730 Amer-Indian-Eskimo: 25

Married-AF-spouse : 2 Other-service : 83 Not-in-family :579 Asian-Pac-Islander: 144

Married-civ-spouse :911 Exec-managerial: 74 Other-relative: 92 Black : 307

Married-spouse-absent: 48 Craft-repair : 69 Own-child :602 Other : 40

Never-married :957 Sales : 66 Unmarried :234 White :1883

Separated : 86 (Other) : 162 Wife :162

Widowed :166 NA's :1843

sex capitalgain capitalloss hoursperweek nativecountry

Female: 989 Min. : 0.0 Min. : 0.00 Min. : 1.00 United-States

Median : 0.0 Median : 0.00 Median :40.00 Canada

Mean : 897.1 Mean : 73.87 Mean :34.23 Philippines

3rd Qu.: 0.0 3rd Qu.: 0.00 3rd Qu.:40.00 Germany

Max. :99999.0 Max. :4356.00 Max. :99.00 (Other)

NA's : 583

从上面的总结可以看出，三个变量具有大量的 NA 值：

工人阶级 – 1836
职业 – 1843
本国 – 583

这三个变量必须清除，因为它们是预测个人收入水平的重要变量。

#Removing NAs

TrainSet = training [!is.na (training$workclass) & !is.na (training$occupation), ]

TrainSet = TrainSet [!is.na (TrainSet$nativecountry), ]

一旦我们摆脱了 NA 值，我们的下一步就是摆脱任何对预测结果不是必需的不必要变量。摆脱这些变量很重要，因为它们只会增加模型的复杂性而不会提高其效率。

一个这样的变量是“fnlwgt”变量，它表示通过计算人口的任何特定社会经济特征的“加权统计”从 CPS 得出的人口总数。

该变量已从我们的数据集中删除，因为它无助于预测我们的结果变量：

#Removing unnecessary variables

TrainSet$fnlwgt = NULL

这就是数据清洗的全部内容，我们的下一步是数据探索。

第三步：数据探索

数据探索涉及分析每个特征变量以检查变量是否对构建模型很重要。

探索年龄变量

#Data Exploration

#Exploring the age variable

> summary (TrainSet$age)

Min. 1st Qu. Median Mean 3rd Qu. Max.

17.00 28.00 37.00 38.44 47.00 90.00

#Boxplot for age variable

boxplot (age ~ incomelevel, data = TrainSet,

main = "Income levels based on the Age of an individual",

xlab = "Income Level", ylab = "Age", col = "salmon")

箱线图 – 数据科学项目

#Histogram for age variable

incomeBelow50K = (TrainSet$incomelevel == "<=50K")

xlimit = c (min (TrainSet$age), max (TrainSet$age))

ylimit = c (0, 1600)

hist1 = qplot (age, data = TrainSet[incomeBelow50K,], margins = TRUE,

binwidth = 2, xlim = xlimit, ylim = ylimit, colour = incomelevel)

hist2 = qplot (age, data = TrainSet[!incomeBelow50K,], margins = TRUE,

binwidth = 2, xlim = xlimit, ylim = ylimit, colour = incomelevel)

grid.arrange (hist1, hist2, nrow = 2)

直方图 – 数据科学项目

上图表明年龄变量随收入水平而变化，因此它是一个强有力的预测变量。

探索“educationnum”变量

该变量表示个人的受教育年限。让我们看看 'educationnum' 变量如何随收入水平变化：

> summary (TrainSet$educationnum)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 9.00 10.00 10.12 13.00 16.00

#Boxplot for education-num variable

boxplot (educationnum ~ incomelevel, data = TrainSet,

main = "Years of Education distribution for different income levels",

xlab = "Income Levels", ylab = "Years of Education", col = "green")

数据探索 (educationnum) – 数据科学项目

上图描述了 'educationnum' 变量随着收入水平 <=50k 和 >50k 的变化而变化，因此证明它是预测结果的重要变量。

探索资本收益和资本损失变量

在研究了每个收入水平的资本收益和资本损失变量的汇总后，很明显它们的均值差异很大，因此表明它们是预测个人收入水平的合适变量。

> summary (TrainSet[ TrainSet$incomelevel == "<=50K",

+ c("capitalgain", "capitalloss")])

capitalgain capitalloss

Min. : 0.0 Min. : 0.00

1st Qu.: 0.0 1st Qu.: 0.00

Median : 0.0 Median : 0.00

Mean : 148.9 Mean : 53.45

3rd Qu.: 0.0 3rd Qu.: 0.00

Max. :41310.0 Max. :4356.00

探索小时/周变量

同样，评估“hoursperweek”变量以检查它是否是一个重要的预测变量。

#Evaluate hours/week variable

> summary (TrainSet$hoursperweek)

Min. 1st Qu. Median Mean 3rd Qu. Max.

1.00 40.00 40.00 40.93 45.00 99.00

boxplot (hoursperweek ~ incomelevel, data = TrainSet,

main = "Hours Per Week distribution for different income levels",

xlab = "Income Levels", ylab = "Hours Per Week", col = "salmon")

数据探索（每周小时数） – 数据科学项目

箱线图显示了不同收入水平的明显变化，这使其成为预测结果的重要变量。

同样，我们也将评估分类变量。在下面的部分中，我为每个变量创建了 qplots，在评估了这些图之后，很明显这些变量对于预测个人的收入水平至关重要。

探索工作类变量

1 2	#Evaluating work-class variable qplot (incomelevel, data = TrainSet, fill = workclass) + facet_grid (. ~ workclass)

数据探索 (workclass) – 数据科学项目

1 2	#Evaluating occupation variable qplot (incomelevel, data = TrainSet, fill = occupation) + facet_grid (. ~ occupation)

数据探索（职业） – 数据科学项目

1 2	#Evaluating marital-status variable qplot (incomelevel, data = TrainSet, fill = maritalstatus) + facet_grid (. ~ maritalstatus)

数据探索 (martialstatus) – 数据科学项目

1 2	#Evaluating relationship variable qplot (incomelevel, data = TrainSet, fill = relationship) + facet_grid (. ~ relationship)

数据探索（关系） – 数据科学项目

所有这些图表都表明，这些预测变量集对于构建我们的预测模型非常重要。

第 4 步：建立模型

扫码免登录支付

本文章为付费文章，是否支付1宇宙币后完整阅读？
如果您已购买过该文章，[登录帐号]后即可查看

转载：感谢您对网站平台的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人站长或者朋友圈，但转载请说明文章出处“来源记忆研究 http://irudder.me”。

上一篇：农业领域农业机器人

下一篇：每个人都应该知道的 8 大数据科学工具

相关文章

深度机器学习的未来
5 个数据科学项目——实践数据科学项目
智慧城市大脑3.0时代：人工智能城市发展的五大趋势?
什么是数据科学？数据科学初学者指南
如何在人工智能中实现专家系统？
初学者机器学习教程
所有你需要知道的关于统计和概率的知识都在这里了
数据科学教程——从零开始学习数据科学！
每个人都应该知道的 8 大数据科学工具
怎么成为数据科学家

随机图文

农业领域气象预测
大纲已经很完整了，但是在第V节中，可以考虑添加一些具体的案例，以便更好地说明大语言模型在农业领域气象预测中的实际应用。同时，可以在结论部分加入一些对未来发展的预测和展望，以便更好地引导读者思考。好的，那我就来为您撰写一篇关于大数据在农业领域的应用的文章吧。随着科技的不断发展，大数据已经成为了各行各业的重要工具。在农业领域，大数据的应用也越来越广泛。通过对气象、土壤、作物等数据的收集和分析，农业

PR预设-555个扁平化Icon图标MG小动画 Pixity Animated Icons for Premiere
模版信息： ? 适用软件：Premiere Pro CC 2017.2 或更高版本 ? 分辨率：1920*1080 ? 使用插件：无需外置插件 ? 模板格式：.mogrt ? 模板音乐：无音乐（更多AE模板精选参考音乐合集下载） ? 模板时长：none ? 模板编号：22800004 ? ? ? 【模板下载】 ? PR预设-555个扁平化Icon图标MG小动画 Pixity Animated

AI换脸领域下智能视频剪辑-提供智能剪辑、智能推荐等服务
AI换脸技术与智能视频剪辑：数字化媒体产业的未来 I. 简介随着人工智能技术的不断发展，AI换脸技术和智能视频剪辑技术已经成为数字化媒体产业中的热门话题。AI换脸技术可以将一个人的面部特征转移到另一个人的脸上，从而实现换脸效果。而智能视频剪辑技术则可以通过人工智能算法，自动剪辑视频，提高视频制作效率。本文将从技术原理、应用场景、未来发展等方面，深入探讨AI换脸技术和智能视频剪辑技术在数字化媒

詹皇:11年总决我失去对篮球热爱曝勒夫渴望联手甜瓜
内容加密

本栏排行

深度机器学习的未来

5 个数据科学项目——实践数据科学项目
智慧城市大脑3.0时代：人工智能城市发展的五大趋势?
什么是数据科学？数据科学初学者指南
如何在人工智能中实现专家系统？
初学者机器学习教程
所有你需要知道的关于统计和概率的知识都在这里了
数据科学教程——从零开始学习数据科学！
每个人都应该知道的 8 大数据科学工具

本栏推荐

深度机器学习的未来

5 个数据科学项目——实践数据科学项目

智慧城市大脑3.0时代：人工智能城市发展的五大趋势?

什么是数据科学？数据科学初学者指南

如何在人工智能中实现专家系统？

初学者机器学习教程

所有你需要知道的关于统计和概率的知识都在这里了

数据科学教程——从零开始学习数据科学！

每个人都应该知道的 8 大数据科学工具

猜你喜欢

多坐席定制客服聊天系统源码网页+原生app 10月完美修复可运营
AIGC+法律领域下智能法规-提供智能推荐、智能解读等服务
上市搁浅背后：唱吧、全民K歌们的在线K歌如今活
人卫医学教材第九版
AIGC+法律领域下智能调解-提供自然语言交互，实现纠纷调解等服务
《姿势跑法》尼可拉斯·罗曼诺夫[PDF]
PR模板-350+视频转场文字标题特效元素动画音效素材
能源领域能源预测

站点信息

文章统计： 442 篇文章

微信公众号：扫描二维码，关注我们