当前位置:首页python > 正文

python读取hdfs上的csv文件

作者:野牛程序员:2023-07-19 08:24:21python阅读 2756

要在Python中读取HDFS上的CSV文件,可以使用PySpark来实现。PySpark是Apache Spark的Python API,它提供了访问和操作分布式文件系统(如HDFS)的功能。以下是一个使用PySpark读取HDFS上的CSV文件的示例代码:

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder \\
    .appName("Read CSV from HDFS") \\
    .getOrCreate()

# 读取CSV文件
df = spark.read.csv("hdfs://<HDFS地址>/<CSV文件路径>")

# 显示数据框架内容
df.show()

# 关闭SparkSession
spark.stop()

在代码中,需要将<HDFS地址>替换为你的HDFS集群的地址,<CSV文件路径>替换为你要读取的CSV文件的路径。然后,使用spark.read.csv()方法来读取CSV文件并将其加载到Spark数据框架(DataFrame)中。最后,可以使用df.show()来显示数据框架的内容。

确保已经安装了PySpark,并使用正确的HDFS地址和CSV文件路径进行替换。还可以根据需要进一步处理和操作数据框架。


野牛程序员教少儿编程与信息学奥赛-微信|电话:15892516892
野牛程序员教少儿编程与信息学竞赛-微信|电话:15892516892
相关推荐

最新推荐

热门点击