国家开放大学《电子商务数据分析与应用》形考任务1-5答案

形考任务1

测试试题:目前测试中共有25道单选题,25道判断题 ,已配置 100 分

一、单选题

1、电子商务数据的获取途径不包括()

单选题 (2 分)

产品自有数据

调查问卷

互联网数据导入

从别人数据库窃取

2.

2、请判断下面各项数据的结构化类型:()

单选题 (2 分)

结构化数据

半结构化数据

非结构化数据

以上都不对

3.

3、请判断下面各项数据的结构化类型:()

单选题 (2 分)

结构化数据

半结构化数据

非结构化数据

以上都不对

4.

4、请判断下面各项数据的结构化类型:

单选题 (2 分)

结构化数据

半结构化数据

非结构化数据

以上都不对

5.

5、请判断下面各项数据的结构化类型:

单选题 (2 分)

结构化数据

半结构化数据

非结构化数据

以上都不对

6.

6、请判断下面各项数据的结构化类型:

单选题 (2 分)

结构化数据

半结构化数据

非结构化数据

以上都不对

7.

7、请判断下面各项数据的结构化类型:

单选题 (2 分)

结构化数据

半结构化数据

非结构化数据

以上都不对

8.

8、以下哪个不是基于电商平台的基础数据?

单选题 (2 分)

商品数据

客户基本信息数据

客户评价数据

互联网金融数据

9.

9、随着电子商务的发展,国内电子商务研究性网站也随着增多,比较典型的有()

单选题 (2 分)

中国电子商务研究中心

阿里研究院

艾瑞咨询

以上全部

10.

10、下列可以导入Python模块的语句是

单选题 (2 分)

import module

input module

print module

def module

11.

11、以下属于内部数据获取渠道的是

单选题 (2 分)

多多参谋

店侦探

百度统计

店数据

12.

12、数据采集的基本方法包括( )、网络数据采集法和其他数据采集法。

单选题 (2 分)

数据库采集法

访问记录采集法

数据目录采集法

系统日志采集法

13.

13、商务数据包括()

单选题 (2 分)

电子商务平台的基础数据

电子商务专业网站的研究数据

电子商务媒体报道

以上全部

14.

15、以下关于数据采集说法正确的是()

单选题 (2 分)

爬虫类采集工具可以采集所有类型的数据

淘宝网店的运营数据可以通过使用友盟等统计工具进行采集

第三方电商网站可以使用百度统计采集店铺运营数据

店侦探可以获取店铺的详细销售数据

15.

16、电子商务数据的主要来源包括()

单选题 (2 分)

电子商务平台

社交电商平台

O2O 数据

以上全部

16.

17、()指企业针对个人开展电子商务活动的平台,如企业通过平台为个人提供在线医疗咨询、 在线商品购买等服务。企业或商家机构通过平台不消费者进行各种商务活动、 交易活动、 金融活动和综合服务活动,是消费者利用互联网直接参与经济活动的形式。

单选题 (2 分)

B2B 平台

社交零售电商

B2C 平台

C2C 平台

17.

18、数据处理一般指对数据进行()、()、()、和()的过程。

单选题 (2 分)

采集、分析、分析、可视化表达

整理、采集、分析、可视化表达

采集、整理、分析、可视化表达

整理、可视化表达、分析、采集

18.

19、数据采集可为数据处理()的数据。

单选题 (2 分)

准备必要

整理必要

分析必要

汇报必要

19.

20、以下关于数据采集说法正确的()

单选题 (2 分)

同一数据如果有多个来源途径,可以选择其中的任一个来源进行采集

数据采集人员需要针对数据采集需求、背景等对数据采集渠道进行可信度划分,优先选择可信度更高的数据采集渠道

数据采集渠道可信度与数据采集的背景和指标无关,属于独立的体系

数据采集渠道无所谓优劣,主要看能否获取到所需数据

20.

21、以下属于客户流量属性的是()

单选题 (2 分)

来源页面

常用设备

客户下载

客户性别

21.

22、下列数据指标中不属于客户行为的是()。

单选题 (2 分)

购买时间

浏览路径

支付金额

收货地址

22.

23、某网店准备按照店铺产品的引流能力及盈利能力两项数据分别对产品进行排序,将两项数据指标排名均靠后的5款产品进行下架处理。根据以上情景可确定数据分析目标为()

单选题 (2 分)

分析店铺商品的引流能力和盈利能力

分店铺商品中能够稳定获利的商品

分析店铺商品的展现量

分析店铺商品的推广效果

23.

24、在数据采集过程中并非所有需要的数据指标都可以采集到,在这种情况下以下做法正确的是()。

单选题 (2 分)

可以使用能够反映该指标的其他数据替代

不需要采集

想尽一切办法寻找可以采集到该指标的数据数据渠道

忽略该数据的采集任务

24.

25、选项中关于爬虫知识的说法错误的是:

单选题 (2 分)

爬虫是一个获取网页数据,并提取、保存信息的自动化程序

爬虫工作通常分为三步:获取网页-解析网页-存储数据

使用爬虫时应遵循 Robots 协议

爬虫可以随意抓取 Robots 协议中标注 Disallow 的数据

25.

二、判断题

1、电子商务数据是对电子商务活动中客观事物的逻辑归纳,可以用符号和字母等方式对客观事物进行直观描述。

判断题 (2 分)

26.

2、评论数据主要以图片形式出现。

判断题 (2 分)

27.

3、通过大数据进行维度分析展现品牌印象关键词,和产品的运营方式,帮助企业更好的掌握发展趋势。

判断题 (2 分)

28.

4、通过大数据技术,可以实现企业的客户资源进行精准锁定,在企业在运营过程中,客户资源的挖掘方式、具体情况和分布情况等,企业都可以进行搜集分析,形成基于企业的资源分布可视图,就如同“电子地图”一般。

判断题 (2 分)

29.

5、数据采集时需要数据采集人员不惜任何手段获取所有需要的数据。

判断题 (2 分)

30.

6、在分析全店某段时间内的客单价时,需要采集的数据指标有该段时间内店铺成交客户数及成交总额。

判断题 (2 分)

31.

7、某网店准备分析一段时间内的全店转化率,需要采集的数据指标有该段时间内的店铺访客数及成交访客数。

判断题 (2 分)

32.

8、在数据采集工具选择过程中需要注意工具的功能及适用范围。

判断题 (2 分)

33.

9、电子商务数据采集时对于一些无法使用采集工具采集的数据,可以对其进行摘录。

判断题 (2 分)

34.

10、电子商务数据采集渠道包含权威网站、数据机构、个人网站。

判断题 (2 分)

35.

11、价格会或价格决策关系到企业的利润、成本补偿、以及是否有利于产品销售、促销等问题,可以说价格在一定程度上影响着产品的生命力。

判断题 (2 分)

36.

12、把实际完成值与目标值进行对比,属于纵比。

判断题 (2 分)

37.

13、企业与行业中的标杆企业、竞争对手或行业平均水平进行对比,这属于横比。

判断题 (2 分)

38.

14、AB测试是指设计两个版本(A和B),A为目前的版本,B是猜想更好的版本或者新的版本。然后,通过测试比较这两个版本之间你所关心的数据,最后选择效果最好的版本。

判断题 (2 分)

39.

15、杜邦分析法利用几种主要的财务比率之间的关系综合地分析企业的财务状况。具体来说,它是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的经典方法。

判断题 (2 分)

40.

16、对比分析法在做淘宝数据分析过程中是常用的,例如竞争对手分析通过把我们的实际数据和竞争对手的数据进行比较,了解之间的差异并分析原因。

判断题 (2 分)

41.

17、用漏斗图分析法不能直观地看到每个环节的情况,不能看到每个环节的转化情况、流失情况。

判断题 (2 分)

42.

18、问题树分析法是将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展,把一个已知问题当成树干,然后开始考虑这个问题和哪些相关问题或者子任务有关。每想到一点,就给这个问题(也就是树干)加一个“树枝”,并标明这个“树枝”代表什么问题。一个大的“树枝”上还可以有小的“树枝”,以此类推,找出问题的所有相关联项目。

判断题 (2 分)

43.

19、像账号密码这种私密的信息,网站基本不会使用 GET 请求去处理,而更多会使用 POST 请求去提交这些数据。GET 请求更多用于获取网页内容。

判断题 (2 分)

44.

20、requests 库主要作用是从网站服务器获取请求的数据,requests 库可直接使用,无需进行任何安装

判断题 (2 分)

45.

21、是谁来做属于5W2H中why的范畴。

判断题 (2 分)

46.

22、下列选项中,与目标对比、行业内对比、不同时期对比、活动效果对比属于对比分析法分析维度。

判断题 (2 分)

47.

23、想要采集某独立商城上行业竟品商品销售价格,可以使用百度指数数据采集工具进行采集。

判断题 (2 分)

48.

24、数据分析的方法有AB测试法、杜邦分析法、对比分析法、5W2H分析法。

判断题 (2 分)

49.

25、数据分析中市场类指标主要用于描述行业情况和企业在行业中的发展情况,平均购买次数、活跃客户比率属于市场类指标。

判断题 (2 分)

50.

14、下列选项中,哪些属于5W2H中How much的范畴()?

单选题 (2 分)

是谁来做?

做到什么程度?

在哪里做?

是什么时候做?

形考任务2

测试试题:目前测试中共有25道单选题,25道判断题 ,已配置 100 分

单选题

1.

1、下列关于为什么要做数据清理描述错误的是( )

单选题 (2 分)

数据有重复

数据有错误

数据有缺失

数据量太大

2.

2、下列关于数据清理描述错误的是( )

单选题 (2 分)

数据清理能完全解决数据质量差的问题

数据清理在数据分析过程中是不可或缺的一个环节

数据清理的目的是提高数据质量

可以借助Kettle来完成大量的数据清理工作

3.

3、下列关于使用参照表清洗数据说法错误的是( )

单选题 (2 分)

有些数据无法从内部发现错误,需要结合外部的数据进行参照

只要方法得当,数据内部是可以发现错误的,不需要借助参照表

使用参数表可以校验数据的准确性

 D、使用参照表可以处理数据的一致性

4.

4、某店铺2019年度会员信息表中,某会员的出生年份是1990年,但年龄却记录为25岁,此类错误需要进行( )。

单选题 (2 分)

缺失值清洗

重复值清洗

逻辑值清洗

无价值数据清洗

5.

5、关于数据清洗的作用,下列说法正确的是( )。

单选题 (2 分)

去重、补漏、计算

去重、补漏、纠错

补漏、纠错、计算

去重、计算、纠错

6.

6、数据清洗时,运营数据中出现“下单时间2088-12-12”,属于( )。

单选题 (2 分)

缺失值清洗

格式内容清洗

逻辑错误清洗

重复数据清洗

7.

7、以下说法错误的是( )

单选题 (2 分)

数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约

数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用

冗余数据的删除既是一种数据清理形式,也是一种数据归约

整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流

8.

8、处理噪声的方法一般有( )

单选题 (2 分)

分箱

回归

聚类

以上都是

9.

9、数据集成的过程中需要处理的问题有( )

单选题 (2 分)

实体识别

冗余与相关性分析。

数据冲突和检测

以上都是

10.

10、数据归约的方法有( )

单选题 (2 分)

维度归约

数量归约

数据压缩

以上都是

11.

11、关于数据重塑的说法中,下列选项描述错误的是()。

单选题 (2 分)

数据重塑可以将DataFrame转换为Series

stack()方法可以将列索引转换为行索引

对一个DataFrame使用stack()方法后返回的一定是一个Series

.unstack()方法可以将行索引转换为列索引

12.

12.请阅读下面的程序: 执行上述程序后,最终输出的结果为()。

单选题 (2 分)

0 False1 False2 True

.0 True1 True2 False

.0 False1 False2 False

.0 True1 True2 True

13.

13、下列选项中,关于drop_duplicates()方法描述错误的是()。

单选题 (2 分)

仅支持单一特征数据的去重

.仅对Series和DataFrame对象有效

数据去重时默认保留第一个数据

该方法不会改变原始数据排列

14.

14、下列选项中,关于dropna()方法描述正确的是()。

单选题 (2 分)

dropna()方法只会删除值为NaN的数据

dropna()方法不会删除值为None的数据

dropna()方法会删除值为None和NaN的数据

dropna()方法只会检测缺失数据和空值

15.

15、下列选项中,关于duplicated()方法描述正确的是()。

单选题 (2 分)

duplicate()方法用于删除重复值

duplicate()方法用于标记重复值

duplicate()方法会改变原始数据

duplicate()方法会将重复的数据标记为False

16.

16、下列选项中,属于数据处理的目的是()

单选题 (2 分)

使数据更加适用于分析

对无意义的数据进行清洗

整合数据

以上全部

17.

17、数据清洗的主要内容包括( )。

单选题 (2 分)

缺失值清洗

格式内容清洗

逻辑错误清洗

以上全部

18.

18、在数据表里,缺失值常见的表现形式是( )。

单选题 (2 分)

空值

错误标识符

#DIV/0!

1

19.

19、数据清洗时,处理缺失值的方法不包括( )。

单选题 (2 分)

删除单元格

删除记录

数据补齐

不处理

20.

20、数据逻辑错误不包括( )。

单选题 (2 分)

数据不合理

数据自相矛盾

数据不符合规则

数据格式错误

21.

21、下列选项中,关于数据预处理说法正确的是()。

单选题 (2 分)

数据清洗包含了数据标准化、数据合并和缺失值处理

数据合并按照合并轴的方向主要分为左连接、右连接、内连接和外连接

数据分析的预处理过程包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系

数据标准化的主要对象是类别型特征

22.

22、检测出异常值之后,通常会采用哪些方式处理它们?()

单选题 (2 分)

直接将含有异常值的记录删除

用具体的值来进行替换,可用前后两个观测值的平均值修正该异常值

不处理,直接在具有异常值的数据集上进行统计分析

以上全部

23.

23、下列函数中,可以对数据进行的合并的是()。

单选题 (2 分)

concat()

.join()

.merge()

以上全部

24.

24、下列方法中,可以修改数据类型的是()。

单选题 (2 分)

desc()

to_numberic()

dim()

type()

25.

25、下列关于重复值处理的说法中,错误的是()。

单选题 (2 分)

duplicated()方法可以标记重复数据

drop_duplicates()方法用于删除重复数据

重复数据的判断标准是两个数据中所有条目的值都相等

duplicated()方法支持从前向后和从后向前两种查找模式

26.

二、判断题

1、数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。它一方面保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。

判断题 (2 分)

27.

2、重复数据会影响数据处理结果的正确性,从而导致数据分析出现偏差,因此需要将其删除。

判断题 (2 分)

28.

3、具有多层索引的DataFrame对象经过stack()重塑后,返回的是一个Series对象。

判断题 (2 分)

29.

4、使用merge()函数进行数据合并时,不需要指定合并键。

判断题 (2 分)

30.

5、fillna()方法处理缺失数据时可以使用Series对象填充,但不可以使用DataFrame对象填充。

判断题 (2 分)

31.

6、dropna()方法可以删除数据中所有的缺失值。

判断题 (2 分)

32.

7、drop_duplicated()方法可以删除重复值。

判断题 (2 分)

33.

8、rename()方法可以重命名索引名。

判断题 (2 分)

34.

9、通过merge()函数合并数据时可以指定多个键。

判断题 (2 分)

35.

10、join()方法可以使用左连接和右连接两种方式连接数据。

判断题 (2 分)

36.

11、关于Pandas中的数据重塑,stack()方法可以将列索引转换为行索引。

判断题 (2 分)

37.

12、关于预处理中的数据合并,concat()函数是最常用的主键合并函数,可以通过内连接和外连接的方式堆叠合并数据。

判断题 (2 分)

38.

13、关于预处理中的数据合并,merge()函数是最常用的主键合并的函数,但不能够通过左连接和右连接的方式合并数据。

判断题 (2 分)

39.

14、关于预处理中的数据合并,join()方法是最常用的主键合并方法之一,但不能够通过左连接和右连接的方式合并数据。

判断题 (2 分)

40.

15、Pandas中可以使用boxplot()方法绘制箱形图,以实现对数据中的异常值进行检测。

判断题 (2 分)

41.

16、关于空值和缺失值,NaN和None是完全一样的。

判断题 (2 分)

42.

17、notnull()与isnull()方法都可以判断数据中是否存在空值或缺失值。

判断题 (2 分)

43.

18、dropna()方法可以删除空值和缺失值

判断题 (2 分)

44.

19、异常值处理中可以基于不同字段的均值和标准差求出异常数据分布范围,然后再对异常范围外 的数据做处理,例如填充为均值

判断题 (2 分)

45.

20、数据处理中,大多数情况下重复值是需要去除的,使用数据框的drop_duplicates方法即可实现。

判断题 (2 分)

46.

21、随机抽样即随机的抽取样本,可使用数据框的sample实现,并可通过参数n设置指 定抽样数量,或通过frac指定抽样比例。

判断题 (2 分)

47.

22、字符串和日期的转换,可通过time或datetime库的strptime和strftime实现。

判断题 (2 分)

48.

23、数据标准化通过将数据按比例缩放,使之落入一个小的特定区间 对象的操作。

判断题 (2 分)

49.

24、MaxMin方法则是根据原始数据的最大值和最小值做数据处理,它将数据缩 放为特定范围[0,1]内。

判断题 (2 分)

50.

25、丢弃缺失值是直接将含有NA值的记录丢弃,适用于NA值的记录较少,且整体 样本量较大的情况。

判断题 (2 分)

形考任务3

测试试题:目前测试中共有7道简答题 ,已配置 100 分

1.

安装Kettle。

简答题 (10 分)

答:

安装基础环境

Kettle是一个Java程序,因此,运行此工具,必须安装Sun公司(已被Oracle公司收购)的Java运行环境1.4或者更高版本。

Java的安装

登录Java的官网后,进入下载页面,选择当前最新的Java版本下载安装。

安装Kettle

Kettle的下载安装与Spoon的启动

Kettle是作为一个独立的压缩包被发布的,我们可以从官网选择最新的版本下载安装。下载完毕后,解压下载的文件,双击spoon.bat即可使用。

为了方便使用,我们可以为spoon.bat创建一个Windows桌面快捷方式。创建快捷方式后,在新创建的快捷文件上单击鼠标右键,在弹出的快捷菜单中选择“属性”命令,系统打开的属性对话框里显示了快捷方式选项卡。在这个选项卡下单击“更改图标”按钮,可以为这个快捷方式选中一个容易识别的图标,一般选择Kettle目录下的spoon.ico文件。

 

2.

安装MySQL数据库所需的jar包。

 

简答题 (10 分)

答:

要安装MySQL数据库所需的jar包,您可以按照以下步骤进行操作:

首先,您需要下载MySQL的JDBC驱动程序,也称为Connector/J。您可以从MySQL官方网站下载最新版本的JDBC驱动程序。

打开MySQL官方网站(https://dev.mysql.com/downloads/connector/j/)。

在下载页面上,选择适合您操作系统的版本并点击下载按钮。

下载完成后,将下载的jar文件保存在您的项目目录中的lib文件夹下(如果没有lib文件夹,可以创建一个)。

在您的Java项目中,将jar文件添加到您的项目的构建路径中。具体步骤取决于您使用的集成开发环境(IDE)。以下是一些常见的IDE的步骤:

对于Eclipse:右击您的项目,选择”BuildPath”->”ConfigureBuildPath”。在弹出的窗口中,选择”Libraries”选项卡,然后点击”AddJARs”按钮,选择您下载的MySQL驱动程序的jar文件,最后点击”OK”按钮。

对于IntelliJIDEA:在项目视图中,右击您的项目,选择”OpenModuleSettings”。在弹出的窗口中,选择”Libraries”选项卡,然后点击”+”按钮,选择”Java”->”JARsordirectories”,选择您下载的MySQL驱动程序的jar文件,最后点击”OK”按钮。

对于NetBeans:右击您的项目,选择”Properties”。在弹出的窗口中,选择”Libraries”选项,然后点击”AddJAR/Folder”按钮,选择您下载的MySQL驱动程序的jar文件,最后点击”OK”按钮。

现在,您已经成功安装了MySQL数据库所需的jar包。您可以在您的Java代码中使用这些jar包来连接和操作MySQL数据库。

希望这些步骤对您有帮助!如果您有任何其他问题,请随时提问。

 

3.

实现数据转换,从MySQL数据库中读取表格内容并输出到Excel表格。

 

简答题 (10 分)

 

答:见附件

图片[1]-国家开放大学《电子商务数据分析与应用》形考任务1-5答案-电大资源网 图片[2]-国家开放大学《电子商务数据分析与应用》形考任务1-5答案-电大资源网 图片[3]-国家开放大学《电子商务数据分析与应用》形考任务1-5答案-电大资源网

附件名版权许可

操作

大小

形考3.docx

18 KB

4.

在Kettle中,实现文本文件的导入与导出。

读入student.csv文件,输出固定宽度为12字节的student.txt文件。student.csv文件以逗号为分隔符,内容如图所示。

期望输出的student.txt文件的内容如图所示。

 

简答题 (15 分)

答:

要在Kettle中实现文本文件的导入和导出,可以按照以下步骤进行操作:

打开Kettle并创建一个新的转换。

在转换中添加一个”文本文件输入”步骤。在该步骤的设置中,选择CSV文件作为文件类型,并指定student.csv文件的路径。设置逗号作为字段分隔符。

添加一个”文本文件输出”步骤。在该步骤的设置中,选择固定宽度作为文件类型,并指定student.txt文件的路径。设置固定宽度为12个字节。

将”文本文件输入”步骤连接到”文本文件输出”步骤。

为”文本文件输出”步骤定义字段映射,以将输入字段映射到输出字段。根据期望的输出,可以设置如下映射:

学号字段映射到输出的前两个字节。

姓名字段映射到输出的下一个字节。

性别字段映射到输出的下一个字节。

班级字段映射到输出的下一个字节。

年龄字段映射到输出的下一个字节。

成绩字段映射到输出的下一个字节。

身高字段映射到输出的下一个字节。

手机字段映射到输出的剩余字节。

运行转换,将会生成期望的student.txt文件。

请注意,根据输入文件的内容,可能需要根据实际情况进行一些调整和处理,以确保正确的导入和导出。

 

5.

在Kettle中,实现MySQL数据库的数据导入与导出。

读入student表格数据,输出满足身高大于等于185,成绩大于等于85的学生数据。输出的数据存储在StuOut表中。

期望输出的StuOut表的内容如图所示。

 

简答题 (15 分)

答:

首先,您需要在Kettle中创建一个转换来实现MySQL数据库的数据导入和导出。以下是一些步骤:

创建一个新的转换,命名为”导入数据”。

在转换中添加一个”Tableinput”步骤,用于从MySQL数据库中读取数据。配置步骤以连接到您的MySQL数据库,并选择”student”表作为输入表。

添加一个”Filterrows”步骤,用于筛选出身高大于等于185和成绩大于等于85的学生数据。配置步骤以选择”身高”字段大于等于185和”成绩”字段大于等于85。

添加一个”Textfileoutput”步骤,用于将筛选后的数据导出到文本文件。配置步骤以选择输出文件的路径和文件名,以及固定宽度为12字节。

运行转换,将MySQL数据库中满足条件的学生数据导出到文本文件中。

请注意,上述步骤仅为指导。您可能需要根据您的实际情况进行适当的调整和配置。

 

6.

在Kettle中,实现HTML数据的数据导入与导出。

读入“http://www.biqukan.com/1_1094/5403177. html”数据,输出HTML源码存在webout.html文件中。其中,我们需要注意网页的字符编码为GBK。webout.html用浏览器打开的部分内容如图所示。

 

简答题 (20 分)

答:

要在Kettle中实现HTML数据的导入和导出,您可以按照以下步骤进行操作:

创建一个新的转换,命名为”导入导出HTML数据”。

在转换中添加一个”HTTP”步骤,用于从指定的URL读取HTML数据。配置步骤以选择GET请求方法和输入URL为”http://www.biqukan.com/1_1094/5403177.html”。

添加一个”Textfileoutput”步骤,用于将HTML源码导出到文件。配置步骤以选择输出文件的路径和文件名为”webout.html”,并设置文件编码为”GBK”。

运行转换,将HTML数据导出到指定的文件中。

7.

在Kettle中,实现基于HTTP GET请求的导入与导出。

https://api.douban.com/v2/movie/in_theaters是豆瓣电影提供的API接口,该接口返回的是当前热映电影的JSON格式。

发送HTTP GET请求到该地址,获取当前热映的电影,并将电影名称、分类、分数、主演数据存储在httpGetJson.xls文件中。

期望输出的httpGetJson.xls文件的内容如图所示。

 

简答题 (20 分)

答:

在Kettle中实现基于HTTPGET请求的导入与导出,可以按照以下步骤进行操作:

创建一个新的Kettle作业(Job)。

在作业中添加一个HTTP请求(HTTPClient)的步骤。

配置HTTP请求的相关参数:

输入URL:https://api.douban.com/v2/movie/in_theaters

请求方法:GET

添加一个JSON输入(JsonInput)的步骤。

将HTTP请求的结果连接到JSON输入步骤。

在JSON输入步骤中,配置数据源和字段映射。

数据源:从上一步骤的HTTP请求中选择“返回的结果”

字段映射:根据返回的JSON数据结构,将电影名称、分类、分数、主演等字段映射到对应的列。

添加一个MicrosoftExcel输出(MicrosoftExcelOutput)的步骤。

连接JSON输入步骤到MicrosoftExcel输出步骤。

配置MicrosoftExcel输出的相关参数:

文件名:httpGetJson.xls

工作表名称:Sheet1

字段映射:将电影名称、分类、分数、主演等字段映射到对应的列。

运行作业,即可将豆瓣电影API返回的热映电影数据导入到httpGetJson.xls文件中。

形考任务4

测试试题:目前测试中共有25道单选题,25道判断题 ,已配置 100 分

单选题

1.

1、下列关于数据分析概念的描述错误的是()

单选题 (2 分)

数据分析不能够在杂乱无章的数据中提取有用的数据

2.

2、数据分析的一般流程为()

单选题 (2 分)

明确目的和思路、数据收集、数据处理、数据分析、数据展现

3.

3、关于数据分析的说法,下列描述错误的是()

单选题 (2 分)

数据分析没有实际的使用意义

在大数据环境下,数据分析能够挖掘出更有价值的信息

4.

4、数据分析可以分为()

单选题 (2 分)

以上全部

5.

5、消费者价值通常由()组成。

单选题 (2 分)

以上全部

6.

6、在搭建用户体系时,运营者可以借助RFM模型()

单选题 (2 分)

调整指标

设计管理层级

调整级别

重要挽留用户

7.

7、()越大表示客户越久没有发生交易,客户越可能流失。

单选题 (2 分)

RFM

R

F

M

8.

8、对于()的客户,如果企业能分析、了解、满足他们的需求,采用有针对性的营销手段吸引他们。提高他们的购买频率,将会给企业带来更多利润。

单选题 (2 分)

R越小F越大M越大

R越小F越小M越大

R越小F越大M越小

R越小F越小M越小

9.

9、对于()客户,企业应尽量挽留,通过营销手段提高客户忠诚度。因此,可视其为企业的重要挽留客户,是企业利润的潜在来源之一。

单选题 (2 分)

R越大F越大M越大

R越大F越小M越大

R越小F越大M越小

R越小F越小M越小

10.

10、这类()客户,有可能购买力有限,可能购买力强,但对企业的一些产品不感兴趣。加大对这类客户的营销投人存在一定的风险,但适当维持与这类客户的关系又能使企业获得一定的利润。

单选题 (2 分)

R越大F越大M越大

R越大F越大M越小

R越小F越大M越小

R越小F越小M越小

11.

11、这类()客户,企业已很难从他们身上获取更多利润。因此只能看作企业的一般客户。

单选题 (2 分)

R越大F越大M越大

R越大F越大M越小

R越小F越小M越大

R越小F越小M越小

12.

12、关于Anaconda的组件中,可以编辑文档且展示数据分析过程的是()

单选题 (2 分)

Anaconda Navigator

Anaconda Prompt

Spyder

Jupyter Notebook

13.

13、Python不支持的数据类型有()

单选题 (2 分)

char

Numbers

String

List

14.

14、以下不是Python保留字的是()

单选题 (2 分)

and

lambda

or

where

15.

15、python使用哪个关键字导入包()

单选题 (2 分)

def

package

import

class

16.

16、以下哪个是不可变数据类型()

单选题 (2 分)

list

Dictionary

Tuple

Set

17.

17、Python 中,以下哪个变量的赋值是正确的?()

单选题 (2 分)

var a = 2

int a = 2

a = 2

variable a = 2

18.

18、Python脚本s = ‘abcdef’,那么s[1:5]的值是()

单选题 (2 分)

abcdef

bcde

19.

19、Python标准库math中用来计算平方根的函数是()

单选题 (2 分)

sqrt

20.

20、列表a=[1,3,4],b= [4,5,6] 那么a+b是()

单选题 (2 分)

[1,3,4, 4,5,6]

21.

21、列表a = [‘Google’, ‘Python’, 1979, 2000],a[2]= 2001,更新列表后a是()

单选题 (2 分)

[‘Google’, ‘Python’, 1979, 2000]

22.

22、元组tuple=(‘runoob’,786,2.23,’john’,70.2),tuple[2]=1000是()

单选题 (2 分)

非法操作

23.

23、tinydict={‘name’: ‘john’,’code’:6734, ‘dept’: ‘sales’},tinydict[‘code’]为()

单选题 (2 分)

john

6734

24.

24、以下哪个是不合格的比较运算符()

单选题 (2 分)

a==b

a>b

a=b

a>=b

25.

25、下列那个不是Numpy多维数组的属性()

单选题 (2 分)

columns

26.

二、判断题

1、数据分析是一个有目的地收集和整合数据的过程。()

判断题 (2 分)

27.

2、CDA-验证性数据分析,用于找到数据间的模式,相关性。是一种“参考答案”的获取。场景包括典型的“啤酒尿布”这类数据挖掘应用,工具包括SAS,SPSS这类数据挖掘软件以及python语言这类语言工具。

判断题 (2 分)

28.

3、数据生态系统逐渐丰富并影响企业商业模式。目前国内整个数据分析产业链的布局相对完整,但局部环节的竞争程度差异化明显。

判断题 (2 分)

29.

4、生意参谋中的“交易”功能版块可以显示店铺的各项交易数据,能够清楚显示店铺的运营情况和出现的问题。

判断题 (2 分)

30.

5、转化漏斗模型可以在消费者访问店铺到最终成交的各个环节,一层层过滤转化人数,分析各个环节的转化情况。

判断题 (2 分)

31.

6、商家获取会员数据后,可以充分利用这些数据对会员的情况进行分析,包括会员的分布情况,如年龄分布、性别分布、地区分布,各地区会员的增长、流失情况,以及挖掘每一位会员的价值潜力等。

判断题 (2 分)

32.

7、conda是一个在Windows、Mac OS、和Linux上运行的开源软件包管理系统和环境管理系统。

判断题 (2 分)

33.

8、Jupyter Notebook的优点是可以重现整个分析过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中。

判断题 (2 分)

34.

9、使用requests库为 URL 的查询字符串(query string)传递某种数据时,如果你是手工构建 URL,那么数据会以键/值对的形式置于 URL 中,跟在一个问号的后面。假如传递的参数为payload = {‘key1’: ‘value1’, ‘key2’: ‘value2’}。那么应该使用r = requests.get(“url”, params=payload)语句。

判断题 (2 分)

35.

10、Beautiful Soup自带的解析器为html.parser。

判断题 (2 分)

36.

11、数据分析隐藏的风险和困境包括用户隐私、管理困难、数据交易、大数据人才缺乏。

判断题 (2 分)

37.

12、电子商务领域的销售业绩指标主要分为总销售额指标、有效订单指标。

判断题 (2 分)

38.

13、转化漏斗模型包括有效入店率、咨询转化率、静默转化率、订单支付率。

判断题 (2 分)

39.

14、商品的流量转化直接影响店铺的最终销量。因此当商品具有合格的引流能力时,商家一定要关注流量的转化情况,并对转化效果不佳的方面进行优化。实际上,影响转化的因素有很多,包括商品主图、首页、详情页、评价。

判断题 (2 分)

40.

15、Jupyter Notebook不可以将文件保存为html格式。

判断题 (2 分)

41.

16、Anconda不支持Python3.x以上的版本。

判断题 (2 分)

42.

17、this属于Python的保留关键字。

判断题 (2 分)

43.

18、在循环体内使用break语句或continue语句的作用相同。

判断题 (2 分)

44.

19、catch是Python异常处理关键字。

判断题 (2 分)

45.

20、进程就是一个应用程序在处理机上的一次执行过程,它是一个动态的概念,而线程是进程中的一部分,进程包含多个线程在运行。

判断题 (2 分)

46.

21、Python中,使用socket模块的socket()方法来创建套接字。

判断题 (2 分)

47.

22、计算机通信时,负责在两台计算机之间建立可靠连接,保证数据包按顺序到达的协议是UDP。

判断题 (2 分)

48.

23、SciPy可用于python爬虫开发。

判断题 (2 分)

49.

24、Python中,创建线程的方式有多种,可以使用threading模块的Thread类创建线程。

判断题 (2 分)

50.

25、计算机通信时,服务器的套接字方法中用于TCP监听的方法是bind()。

判断题 (2 分)

形考任务5

题目1-15

1.

1、电子商务数据的获取途径不包括()

单选题 (2 分)

产品自有数据

调查问卷

互联网数据导入

从别人数据库窃取

2.

2、请判断下面各项数据的结构化类型:()

单选题 (2 分)

结构化数据

半结构化数据

非结构化数据

以上都不对

3.

3、以下哪个不是基于电商平台的基础数据?

单选题 (2 分)

商品数据

客户基本信息数据

客户评价数据

互联网金融数据

4.

4、电子商务数据的主要来源包括()

单选题 (2 分)

电子商务平台

社交电商平台

O2O 数据

以上全部

5.

5、数据处理一般指对数据进行()、()、()、和()的过程。

单选题 (2 分)

采集、分析、分析、可视化表达

整理、采集、分析、可视化表达

采集、整理、分析、可视化表达

整理、可视化表达、分析、采集

6.

6、数据有不同的表现形式,数据的来源也多种多样,因此数据采集的()、采集的()、和采集后 的()也不尽相同。

单选题 (2 分)

工具、方法、存储方式

方法、工具、存储方式

方法、过程、存储方式

工具、过程、存储方式

7.

7、以下关于数据采集说法正确的()

单选题 (2 分)

同一数据如果有多个来源途径,可以选择其中的任一个来源进行采集

数据采集人员需要针对数据采集需求、背景等对数据采集渠道进行可信度划分,优先选择可信度更高的数据采集渠道

数据采集渠道可信度与数据采集的背景和指标无关,属于独立的体系

数据采集渠道无所谓优劣,主要看能否获取到所需数据

8.

8、某网店准备按照店铺产品的引流能力及盈利能力两项数据分别对产品进行排序,将两项数据指标排名均靠后的5款产品进行下架处理。根据以上情景可确定数据分析目标为()

单选题 (2 分)

分析店铺商品的引流能力和盈利能力

分店铺商品中能够稳定获利的商品

分析店铺商品的展现量

分析店铺商品的推广效果

9.

9、在数据采集过程中并非所有需要的数据指标都可以采集到,在这种情况下以下做法正确的是()。

单选题 (2 分)

可以使用能够反映该指标的其他数据替代

不需要采集

想尽一切办法寻找可以采集到该指标的数据数据渠道

忽略该数据的采集任务

10.

10、通过网站公开的API接口采集数据属于( )。

单选题 (2 分)

网络数据采集法

传感器采集法

访问记录采集法

系统日志采集法

11.

11、下列关于为什么要做数据清理描述错误的是( )

单选题 (2 分)

数据有重复

数据有错误

数据有缺失

数据量太大

12.

12、下列关于数据清理描述错误的是( )

单选题 (2 分)

数据清理能完全解决数据质量差的问题

数据清理在数据分析过程中是不可或缺的一个环节

数据清理的目的是提高数据质量

可以借助Kettle来完成大量的数据清理工作

13.

13、某店铺2019年度会员信息表中,某会员的出生年份是1990年,但年龄却记录为25岁,此类错误需要进行( )。

单选题 (2 分)

缺失值清洗

重复值清洗

逻辑值清洗

无价值数据清洗

14.

14、数据清洗时,运营数据中出现“下单时间2088-12-12”,属于( )。

单选题 (2 分)

缺失值清洗

格式内容清洗

逻辑错误清洗

重复数据清洗

15.

15、以下说法错误的是( )

单选题 (2 分)

数据预处理的主要流程为数据清理、数据集成、数据变换与数据归约

数据清理、数据集成、数据变换、数据归约这些步骤在数据预处理活动中必须顺序使用

冗余数据的删除既是一种数据清理形式,也是一种数据归约

整个预处理过程要尽量人机结合,尤其要注重和客户以及专家多交流

题目16-30

16.

16、kettle是什么编程语言编写的?

单选题 (2 分)

C

JAVA

Python

以上都不对

17.

17、如何在window操作系统上启动kettle?()

单选题 (2 分)

双击Spoon.bat

Pan.bat

runSamples.bat

18.

18、kettle转换的核心对象,下面哪项不正确?

单选题 (2 分)

输入

输出

流程

DB连接

19.

19、数据分析的一般流程为()

单选题 (2 分)

明确目的和思路、数据收集、数据处理、数据分析、数据展现

明确目的和思路、数据收集、数据分析、数据展现

数据收集、数据处理、数据分析、数据展现

明确目的和思路、数据处理、数据分析、数据展现

20.

20、s = list(“壮丽七十年奋斗新时代”),给出如下代码以下选项中能输出字符“奋”第一次出现的索引位置的

单选题 (2 分)

print(s.index(“奋”),1,len(s))

print(s.index(“奋”))

print(s.count(“奋”))

print(s.index(“奋”),1)

21.

二、多选题

1、电子商务数据具有以下哪些作用?

多选题 (2 分)

电子商务数据具有诊断作用

电子商务数据具有预测作用

电子商务数据具有决定作用

电子商务数据具有传播作用

22.

2、下列选项中,关于数据预处理说法错误的是()。

多选题 (2 分)

数据清洗包含了数据标准化、数据合并和缺失值处理

数据合并按照合并轴的方向主要分为左连接、右连接、内连接和外连接

数据分析的预处理过程包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系

数据标准化的主要对象是类别型特征

23.

3、检测出异常值之后,通常会采用哪些方式处理它们?()

多选题 (2 分)

直接将含有异常值的记录删除

用具体的值来进行替换,可用前后两个观测值的平均值修正该异常值

不处理,直接在具有异常值的数据集上进行统计分析

视为缺失值,利用缺失值的处理方法修正该异常值

24.

4、商务数据包括()

多选题 (2 分)

电子商务平台的基础数据

电子商务专业网站的研究数据

电子商务媒体报道

评论数据

25.

5、数据分析中市场类指标主要用于描述行业情况和企业在行业中的发展情况,下列属于市场类指标的是()

多选题 (2 分)

行业增长率

平均购买次数

竞争对手销售额

活跃客户比率

26.

6、以下属于产品类数据指标的是()?

多选题 (2 分)

SKU

商品数

商品访客数

跳失率

27.

7、对淘宝平台某类商品销量数据进行分析,以下数据采集方式可行的是()

多选题 (2 分)

使用爬虫类工具对平台上该类商品的销量数据持续进行采集

使用生意参谋

使用1688指数工具

使用百度指数工具

28.

8、数据清洗的主要内容包括( )。

多选题 (2 分)

缺失值清洗

格式内容清洗

逻辑错误清洗

重复数据清洗

29.

9、kettle包含的部份?

多选题 (2 分)

Chef— — 任务(job)设计工具(GUI方式)

Kitchen— — 任务(job)执行器(命令行方式)

Spoon— — 转换(transform)设计工具(GUI方式)

Span— — 转换(transform)执行器(命令行方式)

30.

10、下面的语句的循环是有限的( )

多选题 (2 分)

for a in range(10):
time.sleep(10)

while 1<10:
time.sleep(10)

while True:
break

a = [3,-1,’,’]
      for i in a[:]:
    if not a:
            break

题目31-40

31.

三、判断题

1、Jupyter Notebook的优点是可以重现整个分析过程,并将说明文字、代码、图表、公式和结论都整合在一个文档中。

判断题 (2 分)

32.

2、CDA-验证性数据分析,用于找到数据间的模式,相关性。是一种“参考答案”的获取。场景包括典型的“啤酒尿布”这类数据挖掘应用,工具包括SAS,SPSS这类数据挖掘软件以及python语言这类语言工具。

判断题 (2 分)

33.

3、通过大数据进行维度分析展现品牌印象关键词,和产品的运营方式,帮助企业更好的掌握发展趋势。

判断题 (2 分)

34.

4、商家获取会员数据后,可以充分利用这些数据对会员的情况进行分析,包括会员的分布情况,如年龄分布、性别分布、地区分布,各地区会员的增长、流失情况,以及挖掘每一位会员的价值潜力等。

判断题 (2 分)

35.

5、数据采集时需要数据采集人员不惜任何手段获取所有需要的数据。

判断题 (2 分)

36.

6、在分析全店某段时间内的客单价时,需要采集的数据指标有该段时间内店铺成交客户数及成交总额。

判断题 (2 分)

37.

7、某网店准备分析一段时间内的全店转化率,需要采集的数据指标有该段时间内的店铺访客数及成交访客数。

判断题 (2 分)

38.

8、价格会或价格决策关系到企业的利润、成本补偿、以及是否有利于产品销售、促销等问题,可以说价格在一定程度上影响着产品的生命力。

判断题 (2 分)

39.

9、把实际完成值与目标值进行对比,属于纵比。

判断题 (2 分)

40.

10、AB测试是指设计两个版本(A和B),A为目前的版本,B是猜想更好的版本或者新的版本。然后,通过测试比较这两个版本之间你所关心的数据,最后选择效果最好的版本。

判断题 (2 分)

题目41-50

41.

11、杜邦分析法利用几种主要的财务比率之间的关系综合地分析企业的财务状况。具体来说,它是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的经典方法。

判断题 (2 分)

42.

12、用漏斗图分析法不能直观地看到每个环节的情况,不能看到每个环节的转化情况、流失情况。

判断题 (2 分)

43.

13、像账号密码这种私密的信息,网站基本不会使用 GET 请求去处理,而更多会使用 POST 请求去提交这些数据。GET 请求更多用于获取网页内容。

判断题 (2 分)

44.

14、数据预处理是数据挖掘中必不可少的关键一步,更是进行数据挖掘前的准备工作。它一方面保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。

判断题 (2 分)

45.

15、fillna()方法处理缺失数据时可以使用Series对象填充,但不可以使用DataFrame对象填充。

判断题 (2 分)

46.

16、drop_duplicated()方法可以删除重复值。

判断题 (2 分)

47.

17、转化漏斗模型可以在消费者访问店铺到最终成交的各个环节,一层层过滤转化人数,分析各个环节的转化情况。

判断题 (2 分)

48.

18、Kettle是一个Java程序,因此,运行此工具,必须安装Sun公司(已被Oracle公司收购)的Java运行环境1.4或者更高版本。

判断题 (2 分)

49.

19、Kettle连接Mysql数据库,需要另外导入相应的jar。

判断题 (2 分)

50.

20、在Kettle中,在一个转换中,一个步骤可以有多个连接,一个连接也可以有多个步骤。

判断题 (2 分)

© 版权声明
THE END
喜欢就支持一下吧
点赞93 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容