1.1 什么是数据科学?

数据科学不仅仅是机器学习和统计学,而且也不全是关于预测。 它甚至不是一门完全包含 STEM(科学,技术,工程,和数学)所有领域的学科 (Meng, 2019)。 但有一件事我们可以非常自信地断言,那就是数据科学始终与 数据 有关。 我们写这本书有两重目标:

我们将在 Section 2 章节讨论为什么 Julia 对于数据科学来说是一门相当高效的语言。 现在将注意力继续转向数据。

1.1.1 数字素养

根据 维基百科,数字素养的正式定义是 阅读、理解、创建和使用数据进行信息交流的能力。 我们也喜欢这个非正式的理解,即作为一个具有数字素养的人,你不会对大量数据感到不知所措,相反地可以使用它来做出正确的决策。 因此,数字素养可以被视为一种具有高度竞争力的技能。 本书将讨论 数字素养的两个方面:

  1. 使用 DataFrames.jl 操作数据 (Section 4)。 你将在本章学到如何:
    1. 读取 CSV 和 Excel 数据到 Julia 。
    2. 使用 Julia 处理数据,即学习如何回答数据问题。
    3. 使用 filtersubset 筛选数据。
    4. 处理缺失数据。
    5. 连接多个数据源。
    6. 分组和汇总数据。
    7. 从 Julia 导出数据到 CSV 和 Excel 文件。
  2. 使用 Makie.jl 可视化数据 (Section 5)。 你将在本章学到如何:
    1. 使用不同的 Makie.jl 后端绘制数据图。
    2. 将可视化数据图保存为多种格式,例如 PNG 或 PDF。
    3. 使用不同的绘图函数实现多样化的数据可视化。
    4. 结合属性自定义可视化图。
    5. 使用和创建新的绘图主题。
    6. 向图中增加 \(\LaTeX\) 元素。
    7. 改变颜色和颜色图。
    8. 创建复杂的图布局。


CC BY-NC-SA 4.0 Jose Storopoli, Rik Huijzer, Lazaro Alonso, 刘贵欣 (中文翻译), 田俊 (中文审校)