查看原文
其他

有钱 = 生存?手把手教你用 GPT Code Interpreter 十分钟内完成泰坦尼克号生存因素分析报告!

清风徐来 AI变现研习社 2024-06-01

这是《ChatGPT ,从入门到精通》 第 52 篇文章。

欢迎转载,请注明出处。

这几天,随着 Code Interpreter 的发布,GPT 用户都疯狂了,OPEN AI 的服务器又进入了满负荷状态。

即使号称 GPT 最强备胎的 Claude 推出 2.0 反击,也无法转移粉丝们的注意力

本公众号已分享了 Code Interpreter 的安装、15 种玩法、营销数据分析等文章。

目前只有 GPT PLUS 会员(20 美元/月)独享 Code Interpreter 这个功能。如何 5 分钟用支付宝完成 PLUS 升级点这里。

抛开各种花式玩法,Code Interpreter 最让人觉得物超所值的还是数据分析功能。

有朋友说,这个功能太巴适了,简直就是 GPT4.5。

用起来就好像吃着火锅,唱着歌,巴适!每个月少吃一顿串串,就当请了个全栈程序员+数据分析师!

下面,我将用最经典的《泰坦尼克号生存因素分析》数据集,向您详细介绍 Code Interpreter 数据分析+可视化功能。

一、项目背景

泰坦尼克号沉没是历史上有名的沉船事件之一。1912 年 4 月 15 日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使 2224 名乘客和机组人员中的 1502 人丧生。这一耸人听闻的悲剧震惊了国际社会。

沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存。

什么决定了他们的存活?

头等舱的所谓上层地位?身强力壮的个体素质?还是尊老爱幼的社会良俗?

kaggle,全球最大的数据科学和机器学习竞赛平台,曾将这个问题纳入比赛选题。

大神 Kernel,凭借分析泰坦尼克号存活因素一举获得 kaggle 金牌。

这个项目涉及到很多数据分析和机器学习的基本步骤,例如数据导入、数据清洗、数据探索、特征工程、模型训练、模型评估等。

大神 Kernel 获得金牌的时候,还没有 ChatGPT,他用的是传统 python 程序分析,他的分析全过程点这里。

现在,GPT Code Interpreter 的出现,让完全不懂技术的人,也可以迅速地完成数据分析,撰写一份图文并茂的分析报告。

不需要懂编程,只需要输入几句自然语言,就可以让 GPT Code Interpreter 为你生成相应的文字分析、可视化图表!

你可以将其用在你工作、生活的各个方面!

下面我就来为你演示这个过程。

10 分钟,只要 10 分钟。

二、登录 ChatGPT

1、进入官网 openai.com

魔法后,登录 openai 主页面,点击“login in”,输入账户、密码,进入 chat.openai.com

如果你没有 openai 账号,点这里看如何注册

2、新建一个 “GPT Code Interpreter”

如果你能登陆,但看不到 Code Interpreter 选项,说明你还不是 PLUS 会员

目前只有 GPT 付费会员,默认开通 Code Interpreter 功能。升级教程看这里。

三、数据分析与可视化

1、数据读取与检查

(1)取得数据

你需要准备泰坦尼克的数据集。

所谓数据集就是一个 EXCEL 表或者.CSV 文件,有很多基础信息,比如员工信息表、财务台账、贷款人信息表等。泰坦尼克这个案例就是乘客信息表。

本文提到的所有数据集、字体,公众号回复 714 取得

你也可以让 AI 帮你找,我用的乘客信息表数据集下载地址就是 Code Interpreter 告诉我的。

提示语1:您能自行寻找一份原始的泰坦尼克数据集,或者提供一个下载链接吗

(2)上传数据

(3)给 GPT Code Interpreter 一个角色

假设你是一个数据小白,你可以用大白话告知 AI:

“提示语2:我上传了一份文件给你。假设你是一个世界一流的专业数据分析师,请你按照最专业的方式、方法,帮我一步一步分析这份文件。”

注意:“一步一步”这个词很重要

2、数据预处理

数据预处理由 GPT Code Interpreter 自行完成,但是它会将分析过程呈现出来:

(1)先预览数据

接到了你前面的提示语 2 后,AI 回答:

说明:后文将 GPT Code Interpreter 简称为 AI

(2)数据清洗

AI 提供预览后,大部分时间下,无须你的提示,AI 会自动开展下一步工作。根据不同的缺失值,AI 采取了不同的处理方式

AI 还是按照数据清洗 4c 原则:校正(Correcting)、填充(Completing)、创建(Creating)、转换(Converting)。

对缺失值,用中位值或者平均值代替

(3)探索性数据分析

注意,提示语 2 中,你并没有告知 AI 你的分析目的,AI 可能会自动判断,它也可能再次和你明确分析目的(这就是智能所在)。

如果它询问你分析目的,你可以这样告诉它:

提示3:“分析每个因素对乘客的存活率的影响”

3、可视化图形

收到这条提示后,AI 开始绘图,比如下面这个密度图

AI 给的是一个英文界面,而我们想用中文,看起来更习惯

但是 ChatGPT 默认没有中文字体,这时候你可以上传一个中文字体给 AI,上传方式和前面上传数据集一样。(不是每种中文字体都能用哈,公众号回复 714 取得 泰坦尼克数据集+可用中文字体)

配套提示语如下:

提示语4:“请用中文显示图表的标题和标签,谢谢”

收到新的中文字体后,AI 会自动安装,并开始重新分析,将图形的题目和标签更换为中文。

  • AI 分析“年龄与生存率”:在年龄的密度图中,我们可以看到,生存下来的乘客中,儿童(年龄小于 10 岁)的比例较高。而在未生存下来的乘客中,年龄在 20 到 30 岁之间的乘客比例较高。
  • AI 分析:”性别与生存率“,图表显示,女性的生存率明显高于男性。这可能反映了当时的救援行动中,“妇女和儿童优先”的原则。
  • AI 分析“舱位等级与生存率”:图表显示,一等舱的乘客的生存率最高,其次是二等舱,三等舱的乘客生存率最低。这可能反映了社会经济地位对生存概率的影响。
  • AI 分析“登船港口与生存率”:图表显示,从 Cherbourg (C) 登船的乘客的生存率最高,其次是 Queenstown (Q),而从 Southampton (S) 登船的乘客生存率最低。这可能反映了不同登船港口的乘客在社会经济地位、舱位等级等方面的差异。
  • AI 分析“票价与生存率”:在票价的密度图中,我们可以看到,生存下来的乘客中,票价较高的乘客比例较高。而在未生存下来的乘客中,票价较低的乘客比例较高。

  • AI 分析“单身与否与生存率”:这个图表显示了单身与否的乘客的存活率。从图中可以看出,非单身的乘客的存活率似乎更高。

AI 继续分析:以上只是初步的观察,为了得出更确切的结论,我们可能需要进行更深入的统计分析或者使用机器学习模型来找出影响生存率的最重要因素。

AI 完成预处理后,你一方面可以让 AI 根据你的要求修改,一方面可以鼓励 AI 自行探索。

AI 在完成绘图的同时,还会给出配套的文字说明。

我先提出如下要求:

提示词5:”请增加家庭规模、家庭身份(父亲、母亲、子女、其他)的存活率分析

  • AI 分析“家庭规模与存活率”:这个图表显示了不同家庭规模的乘客的存活率。从图中可以看出,家庭规模为 2 到 4 的乘客的存活率较高,而单身乘客和家庭规模较大(5 以上)的乘客的存活率较低。

这可能是因为家庭规模适中的乘客在灾难中可以互相帮助,从而提高生存的机会,而单身乘客和家庭规模较大的乘客可能在灾难中面临更多的困难。

  • AI 分析“家庭身份与存活率”

这个图表显示了不同家庭身份的乘客的存活率。从图中可以看出,被称为 "小姐"(可能是未婚女性或女孩)和 "夫人"(可能是已婚女性)的乘客的存活率较高,而被称为 "先生"(可能是男性)的乘客的存活率较低。"少爷"(通常用于年轻的男孩)的存活率也相对较高。

  • AI 分析“IsAlone”与存活率:此标签表示乘客是否独自一人。从图中可以看出,独自出行的乘客的生存率较低。

`

  • AI 分析票价“HighFare”与存活率:此标签表示乘客的票价是否高于中位数。从图中可以看出,票价高的乘客的生存率较高:

-AI 分析家庭角色与存活率:此标签表示乘客在家庭中的角色。从图中可以看出,被标记为 "Child" 和 "Mother" 的乘客的生存率较高。

AI 继续分析说:这些分析结果提供了一些有趣的洞见。例如,票价高可能意味着乘客在船上的社会地位较高,因此在发生灾难时有更多的机会获救。同样,孩子和母亲的生存率高可能是因为在撤离过程中优先照顾了妇女和儿童。

我继续提问

提示词6:“请用船舱等级+家庭身份 进行分组,进行生存率可视化分析”

AI 答复:

AI 还分析说:我已经按照你提供的图例生成了类似的图形,该图形展示了不同舱位等级和家庭角色中的乘客生存率。从这个图中,我们可以看到一些有趣的模式:

在所有的家庭角色中,儿童在各个舱位等级的生存率都比较高。这可能是因为在撤离过程中优先照顾了儿童。

对于母亲和父亲,一等舱和二等舱的生存率明显高于三等舱。这可能是因为舱位等级高的乘客在船上的社会地位较高,因此在发生灾难时有更多的机会获救。

对于其他角色的乘客,一等舱的生存率也明显高于二等舱和三等舱。

这个图为我们提供了关于乘客生存率如何受舱位等级和家庭角色影响的直观理解。然而,这些观察结果都是基于现有数据的,如果要深入了解这些特征和生存率之间的关系,可能需要进行更复杂的统计分析或建立预测模型。

我觉得不够直观,所以我继续与 AI 沟通

提示词7:“非常好!能否 “船舱等级+家庭身份" 就是1根柱子,这种图来表示?”

AI 完善后,得到如下图形

这张图排列有问题,还有乱码,我再次与 AI 沟通:

提示词8:“谢谢。再完善下,请按升序排列,标题和标签都用中文。另外每个柱子增加一个数字,折线图可以去掉”

AI 继续完善,得到以下图形:

  • AI 还并继续分析:

这个图形展示了按照舱位等级和家庭身份(即 'Pclass_FamilyRole')划分的乘客的生存率。例如,“1_Mother”代表一等舱的母亲,"3_Child"代表三等舱的儿童。

从这个图中,我们可以看到一些模式:

在所有的乘客类型中,二等舱的儿童("2_Child")的生存率最高,几乎接近 100%。

一等舱和二等舱的母亲("1_Mother" 和 "2_Mother")的生存率也很高,超过了 90%。

三等舱的父亲("3_Father")和二等舱的父亲("2_Father")的生存率最低,几乎接近 0%。

对于其他乘客("1_Other", "2_Other", "3_Other"),一等舱的乘客的生存率最高,其次是二等舱,三等舱的生存率最低。

这个图为我们提供了关于乘客生存率如何受舱位等级和家庭角色影响的详细视角。然而,这些结果都是基于现有数据的观察,并不能确定其中的因果关系。如果要深入了解这些特征和生存率之间的关系,可能需要进行更复杂的统计分析或建立预测模型。

以下是笔者的分析,非 AI 分析:

这张图揭示了很多真相。我看了很久,通过这些数字你可以看到

那些勇敢的二等、三等仓父亲,那些生死离别的家庭。

(四)扩展

想让 AI 多展示一些图,我就问

提示9:“能用热图表示存活率么?并做概述”

AI 做出了热图,并分析说:

“这是一个热图,展示了船舱等级和家庭身份与存活率的关系。颜色越深的区域代表存活率越高。

我们可以从热图中看出:

在所有的船舱等级与家庭身份组合中,一等舱的母亲和二等舱的母亲有最高的存活率。被认定为 "Father" 的乘客的存活率普遍较低,无论是在哪个船舱等级中。对于被认定为 "Other" 的乘客,一等舱的存活率显著高于二等舱和三等舱。这个热图提供了一个直观的方式来比较不同船舱等级和家庭身份组合的存活率。”

  • 如果你觉得不满意,可以让 AI 换个色系

提示10:"换个色系吧,红色系"

AI 更换红色系如下图:

注意:如果你不知道怎么改,就把感觉告诉给 AI,让它自行做主来改,你再评价。

提示11:"请再绘制幸存者性别年龄等直方图"

年龄与生存率的直方图:

性别与生存率的直方图

  • 我们也可以用开放式问题,让 AI 自己做,例如:

提示词12:"谢谢。你能用这些数据,做出一个你认为最有趣、最复杂的分析吗?请用图形表示并做出说明"

AI 说:

“当然可以。我想我可以通过研究不同等级舱位(Pclass)、性别(Sex)和年龄(Age)对生存率的影响,来创建一个比较复杂的可视化。我的假设是,这三个因素可能都对乘客的生存率有所影响,并且他们之间可能存在相互作用。

让我们首先创建一个新的年龄组列(AgeGroup),将年龄分为"儿童"(< 18 岁)、"成年人"(18-59 岁)和"老年人"(60 岁以上)。然后,我们将创建一个分面网格(facet grid),在网格中的每个面板都显示一个特定的舱位等级,然后绘制生存率与性别和年龄组的关系。”

AI 还继续分析说:

“这个图表显示了性别、年龄和舱位等级如何共同影响生存率。每个面板都表示一个特定的舱位等级(1、2 或 3),每个面板中的点则表示在该舱位等级中,不同性别和年龄组的乘客的生存率。

以下是对图表的一些观察:

在所有舱位等级中,女性的生存率都高于男性。这可能是因为在救生艇的分配上,"妇女和儿童优先"的原则被采用了。在一等舱和二等舱中,儿童(无论性别)的生存率都较高。然而,对于三等舱,男孩的生存率似乎较低。在一等舱和二等舱中,成年男性的生存率较低。在三等舱中,所有年龄组的男性生存率都较低。对于女性乘客,舱位等级似乎对生存率影响不大,尤其是对于儿童和成年人。”

提示词13:"请你对乘客的存活率影响因素,做一个概述,并推断出当时社会的价值观"

AI 回答:

“我们对泰坦尼克号上的乘客数据进行了深入的探索和分析,发现以下特征对乘客的生存率有显著影响:

性别:在所有年龄组和票价组中,女性乘客的生存率普遍高于男性。这可能反映了在这种灾难情况下,人们通常会优先考虑妇女和儿童的安全。

年龄:儿童(尤其是 16 岁以下的)的生存率相对较高,这同样可能反映了灾难情况下的救援原则,即“妇女和儿童优先”。然而,在三等舱中,男孩的生存率并不高,这可能是因为资源的不足或混乱的疏散过程。

票价和舱位等级:票价更高(一般来说,票价与舱位等级正相关)的乘客,以及一等舱和二等舱的乘客的生存率更高。这可能反映了社会经济地位在生存率中的作用,更高的票价可能意味着更好的舱位和更容易接近救生设施。

家庭角色:我们发现,在同等舱位级别下,儿童和母亲的生存率通常更高,而父亲和其他家庭成员的生存率较低。这可能表明在灾难发生时,家庭的年轻成员和母亲被赋予了更高的优先级。

这些发现揭示了 1912 年泰坦尼克号沉没时的社会价值观和生存原则。在那个时期,妇女和儿童优先的救援原则被广泛接受并实施,而且社会经济地位也在某种程度上影响了人们的生存机会。尽管这些观察结果都是基于现有数据,并不能确定其中的因果关系,但它们确实提供了一种理解当时社会环境和价值观的方式。

综上所述,我们可以推断出,尽管泰坦尼克号的灾难是一个极端的情况,但当时的社会价值观和阶级结构在乘客的生存率中起着重要作用。特别是社会阶级、性别和年龄对生存率的影响,揭示了一个深刻的社会现象:在灾难面前,资源的分配并不平等,社会的弱势群体(如三等舱的乘客、男性和成年人)往往处于不利的地位。这些发现提醒我们,在我们的社会中,公平和公正的资源分配,以及对所有人生命的尊重,仍然是我们需要努力追求的目标。“

四、报告撰写

既然 AI 这么专业,我们就让它写报告:

提示词14:"这样,你能根据上面你的分析,汇总撰写一份有逻辑的的《关于泰坦尼克乘客生存率因素分析报告》,要求文字+图片,图片由你根据内容绘制"

AI:当然可以,以下是一份《关于泰坦尼克乘客生存率因素分析报告》的概述:


# 关于泰坦尼克乘客生存率因素分析报告

## 1. 引言

泰坦尼克号的沉没是历史上最著名的海难之一,该事件在全球引起了广泛关注。在这次灾难中,乘客的生存率受到了多个因素的影响。本报告通过对泰坦尼克号数据集的分析,旨在理解这些因素和生存率之间的关系,并探讨其反映的社会价值观。

## 2. 数据概览

我们的数据集包含了891名泰坦尼克号的乘客,记录了他们的年龄、性别、舱位等级(Pclass)、票价(Fare)、同行的家庭成员数量(SibSp, Parch)以及他们是否幸存下来(Survived)等信息。

## 3. 数据分析

我们首先对数据进行了初步的探索和描述性统计分析,发现有一些特征可能与生存率有关。

### 3.1 性别与生存率

通过计数图,我们发现女性的生存率明显高于男性,这可能反映了当时社会的"女士优先""妇女和儿童优先"的救生原则。

![性别与生存情况](sex_survived.png)

### 3.2 年龄与生存率

通过年龄分布的直方图,我们观察到年龄较小(儿童)的乘客似乎有更高的生存率。

![年龄与生存情况](age_survived.png)

### 3.3 舱位等级、性别和年龄与生存率

我们进一步分析了舱位等级、性别和年龄如何共同影响生存率。结果显示,一等舱的乘客生存率最高,二等舱次之,三等舱最低。在所有舱位等级中,女性的生存率都高于男性。在一等舱和二等舱中,儿童(无论性别)的生存率都较高。然而,对于三等舱,男孩的生存率似乎较低。

![性别、年龄与舱位等级对生存率的影响](pclass_sex_age_survived.png)

## 4. 结论

泰坦尼克号的乘客生存率受到性别、年龄和舱位等级的影响。这些因素反映了当时的社会价值观和阶级结构。尤其是在灾难面前,资源的分配并不平等,社会的弱势群体(如三等舱的乘客、男性和成年人)往往处于不利的地位。这些发现提醒我们,在我们的社会中,公平和公正的资源分配,以及对所有人生命的尊重,仍然是我们需要努力追求的目标。

---

*注:此报告中的图表为示意图,由于环境限制并非实际分析结果。*

很遗憾,AI 并没有生成一份可供下载的完整报告,生成的报告框架也比较粗糙。然而,我们不能忘记,Code Interpreter 基于 GPT4.0,我们完全可以继续提示,让它制作一个更完整的分析报告,配上 AI 给出的文字和可视化图表。在效率方面,它绝对能够超越传统的 Python 数据分析。

五、特征工程和机器学习

1.特征工程

请进行特征工程分析

在进行机器学习模型的训练之前,特征工程是一项至关重要的工作,它可以极大地影响模型的性能。特征工程主要包括以下几个步骤:特征选择、特征提取、特征构造和特征转换。

在我们的泰坦尼克号数据集中,我们可以考虑以下的特征工程步骤:

1. **特征选择**:我们首先需要决定哪些特征是对我们的目标(预测乘客是否存活)有用的。在这个数据集中,我们已经发现性别、年龄、票价、舱位等级和家庭角色是影响存活率的重要因素,所以我们应该包括这些特征。

2. **处理缺失值**:在泰坦尼克号数据集中,年龄和舱位等级有一些缺失值。我们需要决定如何处理这些缺失值。一种常见的方法是使用均值或中位数填充这些缺失值。

3. **特征提取和构造**:我们可以通过组合现有的特征或者从现有的特征中提取信息来创建新的特征。在这个数据集中,我们已经创建了一个新的特征“FamilyRole”,这个特征是根据年龄和性别信息创建的。这种方法可以帮助我们挖掘数据中的隐藏模式。

4. **特征转换**:我们可能需要将一些特征进行转换以使其更适合模型的训练。例如,一些模型可能要求特征是正态分布的,或者所有的特征都在同一范围内。在这个数据集中,票价特征的范围比其他特征要大很多,我们可以通过对其进行对数转换来减小其范围。

以上就是针对泰坦尼克号数据集的特征工程的一些基本步骤和建议。在实际操作中,特征工程的过程可能需要多次迭代和试验,以找到最适合模型的特征集合。

2、数据建模

请进行数据模型建模

在我们的数据集上进行模型建模通常涉及以下步骤:数据预处理、模型选择、模型训练、模型评估以及模型优化。以下是一个简单的例子,使用逻辑回归模型对乘客的生存率进行预测:

```python
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# 数据预处理
# 填充年龄的缺失值
data['Age'].fillna(data['Age'].mean(), inplace=True)

# 对性别进行编码
data['Sex'] = data['Sex'].map({'male': 0, 'female': 1})

# 创建家庭大小特征
data['FamilySize'] = data['SibSp'] + data['Parch'] + 1

# 选择特征和标签
features = data[['Pclass''Sex''Age''Fare''FamilySize']]
target = data['Survived']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 模型选择和训练
model = LogisticRegression()
model.fit(X_train, y_train)

# 模型评估
predictions = model.predict(X_test)
print('Accuracy:', accuracy_score(y_test, predictions))

在这个例子中,我们首先进行了一些简单的数据预处理操作,包括填充年龄的缺失值,对性别进行编码,以及创建一个新的特征`FamilySize`。然后,我们选择了`Pclass`、`Sex`、`Age`、`Fare`和`FamilySize`作为特征,`Survived`作为标签。接着,我们将数据划分为训练集和测试集,并对数据进行了标准化。最后,我们选择了逻辑回归模型进行训练,并使用准确率对模型的性能进行了评估。

请注意,这只是一个简单的例子。在实际操作中,可能需要进行更复杂的数据预处理操作,选择不同的模型,以及进行模型的参数调优等步骤。

3、结果解释

请进行“结果解释”:解释我们的发现和模型结果

当我们完成了模型的建立和训练后,下一步就是解释我们的发现和模型结果。解释模型结果的目标是为了理解模型的预测是如何工作的,以及哪些特征对预测结果有重要影响。对于我们的泰坦尼克号生存率预测模型,以下是可能的结果解释:

1. **模型性能**:我们使用准确率来评估模型的性能。准确率是模型正确预测的样本数占总样本数的比例。一个高准确率的模型表明我们的模型在测试集上的预测效果较好。

2. **特征重要性**:在逻辑回归模型中,每个特征的系数代表了该特征对预测结果的影响。系数的绝对值越大,该特征的影响力越大。例如,如果性别特征的系数较高,这意味着性别对乘客的生存率有较大的影响。

3. **模型解释**:逻辑回归模型是一个线性模型,其结果可以通过一个线性方程进行解释。例如,模型可能会得到一个类似于这样的方程:生存率 = 0.3*性别 + 0.2*年龄 - 0.1*票价。在这个方程中,性别和年龄的系数为正,说明这两个特征增加了生存的可能性;而票价的系数为负,说明票价增加会降低生存的可能性。

4. **模型的局限性**:虽然我们的模型达到了较高的准确率,但它仍然有一些局限性。例如,我们的模型可能会对一些特定的情况预测不准,如老年人或儿童的生存率。此外,我们的模型也可能受到数据质量和数据量的影响。

以上就是对我们模型结果的一种解释方式。请注意,实际的解释可能会根据所使用的模型和数据集的具体情况进行调整。

4、模拟分析

假设有一个25岁的三等仓单身女青年。用你的模型分析她的存活率

AI 预测她的生存概率是在 30%-50%之间,具体如下:

由于我们无法运行预测模型,我将根据我们之前的数据分析和可视化来大致估计这位25岁的三等舱单身女性的生存概率。

我们注意到:

1. **性别**:在所有年龄组和票价组中,女性乘客的生存率普遍高于男性。这对这位女性乘客来说是一个积极的因素。
2. **舱位等级**:尽管女性的生存率普遍较高,但三等舱的乘客生存率相对较低。这可能对她的生存概率产生负面影响。
3. **年龄**:在三等舱的女性乘客中,年轻的乘客(如25岁)的生存率可能会稍高一些。

综合上述因素,我们可以大致推断,这位25岁的三等舱单身女性的生存概率可能会高于三等舱乘客的平均生存率,但低于女性乘客的平均生存率。考虑到所有的因素,我估计她的生存概率可能在30%-50%之间。


实话实说,写到这里我不禁为那些只擅长数据处理等单一技术的初级数据分析师捏了把汗。Code Interpreter 可能在专业领域上无法与高级分析师相媲美,但在数据处理效率、数据洞察力和图表制作能力方面,远远超过人类分析师。

再加上建模能力和机器学习、预测分析,估计综合能力已经超过大部分人类数据分析师了。

考虑到 Code Interpreter 目前只是测试版,并且受到了“不能联网”和“不支持动态交互图表”的限制,想象一下未来 Code Interpreter 可能变得多么强大,简直让人不敢想象。

好啦,今天的分享就到这里。今天我们以泰坦尼克数据集为例,向您展示了 Code Interpreter 数据分析方面的强大功力!

别忘了公众号回复“714”,取得泰坦尼克数据集和中文字体。

接下来,我们将继续结合案例、实际数据,深入分析、分享更多 AI 的应用案例!

请大家关注、收藏、点赞、分享 哦!以便第一时间收到更多更好玩儿的 AI 技巧分享哦。

「礼包 1」 只需在本公众号内回复“魔法”,即可 获得 提示词集锦

「礼包 2」 只需在本公众号内回复“AI”,即可免费获得我们为您精心准备的学习大礼包。

「礼包 3 」 如果你想学习 AI 知识,欢迎加入我们的学习群。

请后台发送“入群”或扫描下方二维码进入学习群



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存