南湖红帆“领航”读书会 第六期:掌握R语言核心技巧——从因子到字符串的深入探索

时间:2025-12-19浏览:10



通讯员:李旺)2025124日,南湖红帆“领航”读书会第六期顺利举行。同学们继续深入学习R语言的核心技术,通过讨论交流掌握R语言的代码输入方法。

    


一、理解因子本质

本次读书会首先聚焦于R语言的核心要素之一——因子,通过观看课程和相互问答,同学们明确了因子运行的内在机制。因子本质上是一个带有水平属性的整数向量。这一设计巧妙地在不改变数据外在表现的前提下,通过整数映射规定了水平的顺序,并节省了存储空间。在创建因子时,通过levels参数指定顺序至关重要。这直接影响了后续的排序、频数统计和绘图的顺序。通过小组讨论,同学们厘清了有序因子与无序因子的区别。虽然有序因子(ordered = TRUE)在排序、绘图上与无序因子无差异,但其在统计建模(如有序逻辑回归)中扮演着关键角色,这一点明确了数据内在属性与操作表现的区别。

二、掌握字符串操作逻辑

在讲授字符串的过程中,老师反复强调不要将日期时间当作字符串处理,同时向同学们演示了lubridate 包的下载和使用方法。同学们通过亲自运算year(),month(),day(),hour()等函数,轻松提取出年、月、周几、时等新变量,

大大提高了同学们学习R语言的自信心。

三、内化正则表达式使用技巧

读书会进一步拓展至更复杂的数据模式语言,从看似无规律的文本中发现规律,并用元字符(如.,*,+,?,\,d, ,s)和量词(如{n,m})进行概括。同时通过视频课程讲解同学们习得默认的贪婪匹配会匹配尽可能长的字符串,而懒惰匹配(在量词后加?)则匹配尽可能短的字符串,这对于精确提取内容至关重要。

本次读书会所探讨的内容是数据科学工作流中数据清洗与准备环节的基石。熟练掌握因子、日期时间、字符串处理与正则表达式,从而能够将原始、杂乱的数据转化为干净、结构化的高质量数据,为后续的探索性分析和模型构建打下坚实的基础。这些知识不仅是R语言编程的技巧,更是一种严谨、高效处理数据思维的体现。

南湖红帆“领航”读书会将继续坚持“夯实基础、面向应用”的宗旨,以踏实稳健的步伐,引导学子在求知之路上行稳致远、不断精进,助力大家在人工智能时代构筑坚实的竞争力。



编辑:李  旺

审核:薛新东



Baidu
map