百木园-与人分享,
就是让自己快乐。

安装spark和python练习

一、安装并配置Spark

1.首先检查一下java和hadoop的环境

2.下载spark

3.解压spark安装包,对文件夹重命名,复制配置文件

4.对配置文件进行修改

1.对/usr/local/spark/conf/spark-env.sh的配置文件进行修改,加入

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

2.其次,再对~/.bashrc配置文件进行修改,加入

# spark python 
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.9.2-src.zip:PYTHONPATH
export PYSPARK_PYTHON=python3
export PATH=$PATH:$SPARK_HOME/bin

3.配置好环境变量之后,进行

source ~/.bashrc

5.配置好环境之后就可以启动spark了,

6.输入python代码进行测试

7.结束测试之后可以通过exit()quit()退出spark

二、用python实现英文文本的词频统计

1.实验所要使用的英语文章的材料

2.对文件进行读取

txt = open(\"/usr/local/spark/pythonspark/workcount.txt\", \"r\").read() # 读取文件

3. 对数据进行预处理

    txt = txt.lower() # 把所有字母都变成小写,便于统计    
    #将文本中特殊字符替换为空格
    for ch in \'!\"#$%&()*+,-./:;<=>?@[\\\\]^_‘{|}~\':
        txt = txt.replace(ch, \" \")   
    return txt

4.预处理完之后读取文件的内容

hamletTxt = getText()

5.读取停用词

f = open(\"/usr/local/spark/pythonspark/ceasetext.txt\",\"r\",encoding = \'UTF-8\')
a = f.read()
ceasetext_n= a
f.close()

停用词列表如下

6.将上述停用词筛选出去

# 将停用词剔除掉
words  = hamletTxt.split()  # 将文本用空格分隔
finalword = []
for word in words:
    if word not in ceasetext_n:
    	finalword.append(word)

7.统计单词出现的次数并且进行排序

counts = {}
# 统计单词出现的次数
for word in finalword:
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
 
# 排序,按单词出现的次数从大到小排好序
items.sort(key=lambda x:x[1], reverse=True) 

8.最后将次数排名前50的单词打印出来

for i in range(50):
    word, count = items[i]
    print (\"{0:<10}{1:>5}\".format(word, count))

三、python编程环境的搭建(本人选择pycharm作为ide来使用)

1. 下载pycharm

2. 对pycharm压缩包进行解压,并且赋权

tar -zxvf  pycharm-community-2021.3.2.tar.gz 路径
sudo chown -R 用户名 目标路径

3. 启动pycharm

pycharm.sh

4.安装完成


来源:https://www.cnblogs.com/ddff/p/15968041.html
本站部分图文来源于网络,如有侵权请联系删除。

未经允许不得转载:百木园 » 安装spark和python练习

相关推荐

  • 暂无文章