python读取hdfs上的csv文件
作者:野牛程序员:2023-07-19 08:24:21python阅读 2756
要在Python中读取HDFS上的CSV文件,可以使用PySpark来实现。PySpark是Apache Spark的Python API,它提供了访问和操作分布式文件系统(如HDFS)的功能。以下是一个使用PySpark读取HDFS上的CSV文件的示例代码:
from pyspark.sql import SparkSession # 创建SparkSession spark = SparkSession.builder \\ .appName("Read CSV from HDFS") \\ .getOrCreate() # 读取CSV文件 df = spark.read.csv("hdfs://<HDFS地址>/<CSV文件路径>") # 显示数据框架内容 df.show() # 关闭SparkSession spark.stop()
在代码中,需要将<HDFS地址>
替换为你的HDFS集群的地址,<CSV文件路径>
替换为你要读取的CSV文件的路径。然后,使用spark.read.csv()
方法来读取CSV文件并将其加载到Spark数据框架(DataFrame)中。最后,可以使用df.show()
来显示数据框架的内容。
确保已经安装了PySpark,并使用正确的HDFS地址和CSV文件路径进行替换。还可以根据需要进一步处理和操作数据框架。
野牛程序员教少儿编程与信息学奥赛-微信|电话:15892516892

- 上一篇:python获取csv列名
- 下一篇:python打开csv文件的表格