Apache Spark 是一個用于大規模數據處理的開源分布式計算系統
SparkContext
的 textFile()
或 parallelize()
方法將文本文件或字符串列表讀取到 Spark 中。from pyspark import SparkContext
sc = SparkContext("local", "TextFileApp")
text_file = sc.textFile("path/to/your/textfile.txt")
flatMap()
和自定義的分詞函數對文本進行分詞。from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("WordCountApp")
sc = SparkContext(conf=conf)
# 使用空格分詞器
words = text_file.flatMap(lambda line: line.split(" "))
word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b)
collect()
方法將結果收集到驅動程序,并打印出來。result = word_counts.collect()
for word, count in result:
print(f"{word}: {count}")
這只是一個簡單的示例,實際上 Spark 還支持許多其他文本處理任務,如文本過濾、文本轉換、情感分析等。你可以查閱 Spark 文檔以獲取更多關于處理文本數據的信息。