百事通范文网
当前位置 首页 >专题范文 > 公文范文 >

利用Python进行数据分析_Python,For,Data,Analysis中文版(完整文档)

发布时间:2022-10-25 19:25:03 来源:网友投稿

下面是小编为大家整理的利用Python进行数据分析_Python,For,Data,Analysis中文版(完整文档),供大家参考。

利用Python进行数据分析_Python,For,Data,Analysis中文版(完整文档)

 

  Pythonfor Data Analysis

 O"REILLY@ wes McKinney *

 Data/Python

 利用 Python 进行数据分析

 还在苦苦寻觅用 pyt№n 控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种 Python 库〔包括Numpy、pandas、matplotlib 以 klPython 等)高效地解决各式各样的数据分析问题。

 由于作者 Wes McKinney 是 pandas 库的主要作者,所以本书也可以作为利用 pyth。n 实现数据密集型应用的科学计算实践指南。本书适合刚刚

 接触 python 的分析人员以及刚刚接触科学计算的 python 程序员。

 一鸢

 。将 IPython 这个交互式 She]丨作为你的首要开发环境。

 。学习 NumPy (NumericalPython)的基础和高级知识。

 。从 pandas 库的数据分析工具开始。

 。利用高性能工具对数据进行加载、清理,转换、合并以及重塑。

 。利用 matp《ot№创建散点图以及静态或交互式的可视化结果。

 。利用 pandas 的 groupby 功能对数据集进行切片、切块和汇总操作。

 。处理各种各样的时间序列数据。

 。通过详细的案例学习如何解决 Web 分析、社会科学、金融学以及经济学等领域的问题。

 Wes McKinney 资深数据分析专家,对各种(包括 Numpy、pandas、matplotlib 以及 IPython 等)都有深人研究,并在大量的实践中积累了丰富的经验。撰写了大量与 pyth。n 数据分析相关的经典文章,被各大技术社区争相转载,是 python 和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源 Python 库—pandas,广获用户好评。在创建 Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management 的定量分析师。

 “科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法。本书在未来几年里肯定会成为 Python 领域中技术计算的权威指南。

 Fernando Pérez 加州大学伯克利分 校 研 究 科 学 家 , IPython 的创始人之一

  上指,七 0 利 Il @得巧

  卜

 111

 卩9 7 吕

 7 1

 1

 1

 436 3 >

  o,REILLY

  《nc.授权机诫工业出版社出版 oreilly.com/cn

 O"Reilly Media,

 此简体中文版仅限于在中华人民共和匡境内(但不允许在中国香港“奥门特别行政区和中国台湾地区》销售发行 ThisAuthorized Edition for《e on,in the territory of People"s Repub《ic ofChina (excluding

 Hong Kong.Macao andTaiwan)

 客服热:(010)88378 1 88361(旧 6 数字读:www.hzmedia.com/cn 书热线:(010) 68326294 88379649 68995259 华章网站、wwwhzbook.com 投稿热线巛010)8837%04 上蔗书:www.china—pu b.com

  Wes McKinney *

  O"REILLY@

 Beijing • Cambridge • Farnham • Köln • Sebastopol • Tokyo

 定价:89℃0 元

  O"Reilly Media,

 {k åÉe

  图 书 在 版 编 目 (CIP) 数 据 利 用 Python 进 行 数 据 分 析 / ( 美 )

 麦 金 尼(McKinney,W,)著;唐学韬等译.一北京:机械工业出版社,2m3,9

 (O"Reilly 精品图书系列)书名原文:Python for Data Analysis

 IS B N 978.7· 1 Il.43673 习

 I.利一 Il..麦一、2 唐一 1110 统计分析一应用软件 IV.C819 中国版本图书馆 CIP 数据核字〔2m3)第 187885 号

 北京市版权局著作权合同登记

 图字:01 一 2013 一 4246 号

 CopyrightO 20 丨 3 by Wes McKinney.

 Simplified Chinese Edition,jointly published by O"Reilly Media.Inc. and China Machme press, 2013、Authorized translation of the English edition,2013 0 Reilly Media, Inc„theownerofall rights topublish and sell the same,

 All rights reserved includingthe rights ofreproduction in whole or partIn any form.

 英文原版由 0"Reilly Media,Inc.出版 2013,

 間体中文版由机诫工业出版社出版 2m3。英文原版的翻译得到 0 ReillyMedia,Inc.的授权。此简体中之版的出版和销售得到出版权和镝.售权的所有者一一 O"Reilly Media,Inc.的许可、版权所有,未得书面诈可,本书的何部分和全部不得以任何那式重制。

 封底无防伪标均为盗版本书法律顾问北京市展达律师事务所

 书名/

 利用 Py 山。n 进行数据分析

 书号/

 ISBN 978·7.1 ] 43673 一 7

 责任编辑/

 秦健

 封面设计/

 Karen Montgomery,张健

 出版发行/

 机械工业出版社

 地 址/

 北京 市 西城 区百 万 庄大 街 22 号( 邮政 编码10m37)

 印 刷/

 藁城市京瑞印刷有限公司

 开 本/

 178 亳米× 233 毫米 16 开本 29 印张

 版 次/

 2014 年 1 月第 1 版 2m4 年 1 月第 1 次印刷

 定 价/

 89m 元(册)

  凡购本书,如有缺焦倒死脱页,由本社发行部调换客服热线 ()i 0〕88378991;88361066 的书热线:@10)6B326294:8837g649;68995259 投稿热线·.{010 B379604 读者信箱.,hzjsj@hzbook.com

 O"Reilly Media,《nc,介绍

 O"Reilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自 1978年开始,O"Reilly 一直都是前沿发展的见讠正者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势一一通过放大那些“细微的信号""来刺激社会对新科技的应用。作为技术社区中活跃的参与者,0 "Reil] y 的发展充满了对创新的倡导、创造和发扬光大。

 0 " Reilly 为软件开发人员带来革命性的“动物书";创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以牵于开源软件运动以此命名;创立了 Make 杂志,从而成为 DB"革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。0 " Rei 晦的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,0" Reilly 现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版,在线服务或者面授课程,每一项 o " Reilly 的产品都反映了公司不可动摇的

 理念:一一信息是激发创新的力量。

 业界评论

 "O"Reilly Radar 博客有口皆碑,

 Wired

 “ 0"Reilly 凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务“ Business 2,0

 "O"Reilly c。nfcrence 是聚集关键思想领袖的绝对典范。

 CRN

  一本 0 " Reilly 的书就代表一个有用,有前途、需要学习的主题。

 Irish Times

 “ T1m 是位特立独行的商人,他不光放浪于最长远、最广阔的视野并且切实地接照 Yogi Berra 的建议去做了:、如.果你在路上遇到岔路口,走小路(岔路)

 ,回顾过去Tim 似乎每一次都选择了小路,而且有几次都是一闪即逝的机会,尽管大路也不错。

  LwnuxJournaI

 译者序

 说句真心话,我非常感澍有机会翻译这本书,所以这可算是第一篇我自己真正想写的译者序。虽然之前也译过好几本书,但都没有这次的感悟这么多、这么深!这本书是我花精力和时间最多,同时也是最不满意的一本,就是因为这些感悟一;一一我始终觉得,如果再多点时间的话,我还可以翻译得更好。

 本书的内容非常好,至少有一点非常好一一集中火力对付特定的应用领域:市面上介绍编程的书多如牛毛,但几乎没有几本书是针对特定应用场景的。这本书对新手来说绝对是福音,因为每看完一点就可以马上将自己手上的工作直接拿来当例子练手,这种立竿见影的学习效果,绝对会增强新手的学习信心。

 本书内容虽好,但由于作者是编辑界牛人,平时的工作肯定不少,写书方面的精力自然就不可能太多。加之美式英语本来就很口语化,导致原书口水话非常多,有些地方的从句跟绕口令似的。我在翻译的过程中尽量排除了一些、两次校稿的过程中又删除或大幅修改了一些废话、虽然这种“口水话"还存在不少,但至少不会对阅读造成太大影响。如果实在觉得语言不通顺,请随时发邮件给我,欢迎大家的善意指导("ony"艹 g7999@726 “司

 此外,在翻译的过程中发现了不少小问题,用词方面的错误几乎都是直接改的(小部分写了译者注,因为编辑要求我尽量标出一些来以便核对),而其他错误则儿乎全部采用译者注的形式说明,还有一些原文有歧义或不详尽的地方也通过译者注的形式给出了简单说明。

 本书共 12 章,除非你已经什么都会了,否则我建议全部阅读。如果没有学过 Python,建议先看看本书后面的附录。本书所用到的 pyth。n 编程基础知识很少,所以只看那个附录完全足够了。但是,如果你一点儿编程基础都没有的话,可能需要再看一本有关 py 山“人门的书才行(比如《Pyt№n 编程实践》编注 1)。

 对了,还有几件事情需要说明一下:

  每章的代码示例最好在一个 IPyth。n 会话中完成,否则可能会出现一些不必要的麻烦,比如“ xxx 未定义”

 如果在 Windows 里面用 IPython,复制代码的时候建议使用 cpaste,这个不多解释了。

  有关地图的那段代码可能需要找英文资料看才行,我在译者注中也说明了。这可能需要花不少时间和精力。

  由于原文各种说法不统一(甚至包括术语),虽然我尽量做了统一处理,但山于精力和时间有限,无法完全修改,所以译文中的 uxxx 接受 yyy" “将 yyy 传人 xxx"说的都是“ xxx 函数有 yyy 这么个参数";“选项"、“位置参数" “关键字参数" “形参”“实参”说的都是“参数"一.还有不少,我也记不清了。

  “金融和经济数据"那一章翻译得非常痛苦,因为我根本不了解那个行业,原文的术浯又不标准,于是我基本都是用 wikipedia 和 bing 查英文资料,看懂之后再到 baidu+i 中文资料,并最终确定译文。因此,可能会有不准确的情况,如果您发现了,请及时通过邮件告诉我,万分感谢。

 此外,我必须感谢华章公司的编辑们。非常感谢他们能够给我这样的机会,也非常感谢他们在整个过程中给予我的各种支持和理解。希望以后还能有更加愉快的合作。

 本书大部分内容的翻译工作以及仝书的统稿工作由我完成,参与本书翻译校对工作的还有黄惠庄、卢彦良、蒲巧惠,陈丽丽、胡元江、张杨、赵杰、昊斌、郭敏、林丹、王跃等。

 由于译者水平有限,书中肯定会存在一些错误或不妥之处,因此,在阅读过程中发现有任何问题,请随时联系我们(“0"“霄/9 四@726.“司或机械工业出版社,我们将及时更新本书的勘误表。当然,也非常欢迎大家对本书提出宝贵的意见和建议。

 唐学韬

 2013 年 6 月于广州

  编注 0 本书已由机械工业出版社出版,吓 BN:978.7 一 1 1 卜 36478 一

 目录

  刖蟊.1 一第 1 章准备工作. 5 一本书主要内容“ 为什么要使用

 致谢.

 第 2 章引言

 来自 bit ly的

 MovieLens ].M 数 . 据集,

 ] 880 一 20m 小结及展望

 第 3 章 IPython:一种交互式计算和开发环境 48 一 IPython 基础、9

 亻吏用内省. 命令历史.01 致谢.

 与

 操

 作

 系

 统

 交

 互

 软

 件

 开

 IPy

 thon

 利

 用

 IPython

 高

 级

 IPythonJj

 重

 要

 的

 安

 装

 和

 社

 区

 和

 使

 用

 本

  第 4 章 NumPy 基础:数组和矢量计算. 82 NumPy 的 ndarray 一种多维数组对象 通用函数快速的元素级数组函数` ...98 利用数组进行数据处理、 .100 用于数组的文件输入输出, ,.107 线性代数 ,,109 随机数生成,,

 范例!随机漫步 一 1 ] 2

 第 5 章 pandas 入门 pandas的数据结构介绍, 一1 ] 6 基本功能 一 126 汇总和计算描述统计. 、142 处理缺失数据. 、,148 层次化索引“ 、、巧 3 其他有关 pandas 的话题. “ 158 第 6章数据加载、存储与文件格式 “ 1 62

 读写文本格式的数据 一 162 二进制数据格式、 一 179 使用 HTML 和 web API “ 彐 81 使用数据库.“ .182 第7 章 数 据 规 整 化 :

 洧 理 、 转 换 、 合 并 、 重 塑 一 186 合 并 数 据 集“ .18 重蜘和轴向旋转. “.200

  数 据 转 换 , ,.“ 204 字符串操作“ , “ 217 示例.USDA 食品数据库 一 224 第 8 章绘图和可视化. .231

 录

  matplotlib APIA门. 、、.23 ] pandas 中的绘图函数 ..244 绘制地图图形化显示海地地震危机数据 一 254 Python 图形化工具生态系统. 一 260 第 9 章数据聚合与分组运算263

 GroupBy 技 术 ,“ 264 数据聚合 ,27 1

 分组级运算和转换“ 。276

 透视表和交叉表. 一 288

 示例;2012 联邦选举委员会数据库“ ,291

 第10章时间序列 302

 日期和时间数据类型及工具., 一 303 时间序列基础“ 一 307 日期的范围、频率以及移动 “.3 I l 时区处理.. 一 317 时期及其算术运算. 一 322 重采样及频率转换“ 、327 时间序列绘图“ 一 334 移 动 窗 口 函数.. … 337 性能和内存使用方面的注意事项, 一342 第11章全融和经济数据应用. 一 344

 数 据 规 整 化 方 面 的 话题,. .“ 344 分组变换和分析“ 一 355 更多示例应用,一 36 ]

  第 12 章 NumPy 高级应用 · 368

 ndarray 对象的内部机理,, 一368 高级数组操作 一 370 广 播 一 378 ufuncö 级应用、 一 383 结

  构化和记录式数组“ 一 386 更多有关排序的话题 一 3H8 NumPy的 matrix 类 一 393 高级数组输入输出, 一 395 性能建议、一 397 咐 录 A Python 语言精要 ..401

  针对科学计算领域的 Python 开源.库生态系统在过去 10 年中得到了飞速发展。201 ]年底,我深深地感觉到,由于缺乏集中的学习资源,刚刚接触数据分析和统计应用的 Python 程序员举步维艰。针对数据分折的关键项目(尤其是 Numpy、matplotlib 和 pandas)已经很成熟了,也就是说,写一本专门介绍它们的图书貌似不会很快过时。因此,我下定决心要开始这样的一个写作项目。我在 2007 年刚开始用 pyth。n 进行数据...

推荐访问:python数据分析心得体会200字 利用Python进行数据分析_Python For Data Analysis中文版 中文版 完整 利用

Top