python读取hdfs上的csv文件

作者：野牛程序员：2023-07-19 08:24:21python阅读 2933

要在Python中读取HDFS上的CSV文件，可以使用PySpark来实现。PySpark是Apache Spark的Python API，它提供了访问和操作分布式文件系统（如HDFS）的功能。以下是一个使用PySpark读取HDFS上的CSV文件的示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder \\
    .appName("Read CSV from HDFS") \\
    .getOrCreate()

# 读取CSV文件
df = spark.read.csv("hdfs://<HDFS地址>/<CSV文件路径>")

# 显示数据框架内容
df.show()

# 关闭SparkSession
spark.stop()

在代码中，需要将<HDFS地址>替换为你的HDFS集群的地址，<CSV文件路径>替换为你要读取的CSV文件的路径。然后，使用spark.read.csv()方法来读取CSV文件并将其加载到Spark数据框架（DataFrame）中。最后，可以使用df.show()来显示数据框架的内容。

确保已经安装了PySpark，并使用正确的HDFS地址和CSV文件路径进行替换。还可以根据需要进一步处理和操作数据框架。

野牛程序员教少儿编程与信息学奥赛-微信|电话：15892516892

python读取hdfs上的csv文件

相关推荐

最新推荐

热门点击