《命令行上的数据科学(Data Science at the Command Line)》一书与GitHub皆为我们带来大量高水平的预处理与后处理类工具选项,大家亦可根据需要对其进行针对性调整。在今天的文章中,我将向各位强烈推荐自己最为喜爱的那些相关工具。
CSVKit绝对值得一试。其能够利用逗号分隔值实现您所需要的一切。大家可以通过cvs cut剪切列、使用cvsgrip进行列过滤、通过sql2csv将PostgreSQL中的数据提取至CSV、使用cols从列中剪切子集并通过in2cv将微软Excel转换为CSV。
快速工具推荐清单
Python Data Analysis(Agate).
ImageMagick(edit, create, convert, flip, and alter images from the command-line).
JSON 2 CSV.
XML2JSONvia NodeJS.
HTML to image.
HTML to PDF.
Weather Underground CLI.
NIFI Shell.
Gatlingfor Testing with Scala/JVM.
Kafka Producer with JSON.
Kafka Consumer with JSON.
Create JSON.
Image MetaData Extraction.
OSQuery for Querying Infrastructure.
Tesseract for Command Line OCR.
Hadoop/HDFS Command Line Tools.
CURL.
WGET.
MQTT CLI (NPM.JS).
大家亦可以编写简短的Python脚本以通过命令行实现数据处理。
fromnltk.sentiment.vader importSentimentIntensityAnalyzer importsyssid=SentimentIntensityAnalyzer()ss=sid.polarity_scores(sys.argv[1])print('Compound{0}Negative{1}Neutral{2}Positive{3}'.format(ss['compound'],ss['neg'],ss['neu'],ss['pos']))
只需要五行Python脚本即可实现情绪分析。
大家甚至可以通过命令行实现TensorFlow调试(不过其目前尚处于beta测试阶段,所以可能会出现一些问题)。
作者:核子可乐译
来源:51CTO