세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

王林

May 12, 2023 pm 09:19 PM

python

1 3가지 주요 모델과 일반적으로 사용되는 10가지 알고리즘 [소개]

1-1 3가지 주요 모델

예측 모델: 신경망 예측, 그레이 예측, 피팅 보간 예측(선형 회귀), 시간 계열 예측, 마르코프 체인 예측, 미분 방정식 예측, 로지스틱 모델 등. 적용 분야 : 인구 예측, 수질 오염 증가 예측, 바이러스 확산 예측, 경쟁 승률
산업, 농업, 상업 및 기타 경제 분야의 예측, 월수입 예측, 매출 예측, 경제 발전 예측 등 환경, 사회 군사 및 기타 분야에서 널리 사용됩니다.

최적화 모델: 계획 모델(목표 프로그래밍, 선형 프로그래밍, 비선형 프로그래밍, 정수 프로그래밍, 동적 프로그래밍), 그래프 이론 모델, 큐잉 이론 모델, 신경망 모델, 최신 최적화 알고리즘(유전 알고리즘, 시뮬레이션 어닐링 알고리즘, Ant 콜로니 알고리즘, 타부 검색 알고리즘) 등 응용분야 : 특급배송을 위한 택배기사의 최단 경로 문제, 수자원 스케줄링 최적화 문제, 고속도로
출구 요금소 문제, 항공 정찰을 피하기 위한 군사작전 시기 및 경로 선택, 물류 부지 선정 문제, 상권 배치 계획 , 등 필드.

평가 모델: 퍼지 종합 평가 방법, 분석 계층 프로세스, 군집 분석 방법, 주성분 분석 평가 방법,
Gray 종합 평가 방법, 인공 신경망 평가 방법 등 적용 분야: 특정 지역 수자원 평가, 수자원 보존 프로젝트 위험 평가, 도시 개발 수준 평가, 축구 코치 평가, 농구팀 평가, 수질 생태 평가, 댐 안전 평가, 경사면 안정성 평가

1-2 10개 일반적으로 사용됨 알고리즘

세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

2 파이썬 데이터 분석을 위한 판다 2-1 판다란 무엇인가

오픈 소스 파이썬 클래스 라이브러리: 데이터 분석, 데이터 처리, 데이터 시각화에 사용

고성능
쉬움 사용하기 쉬운 데이터 구조
· 사용하기 쉬운 분석 도구

다른 라이브러리와 함께 사용하기에 매우 편리함:

numpy: 과학 컴퓨팅용
scikit-learn: 머신러닝에 사용

2-2 팬더가 파일을 읽는 중

&#39;&#39;&#39;
当使用Pandas做数据分析时，需要读取事先准备好的数据集，这是做数据分析的第一步。
Pandas提供了多种读取数据的方法：
read_csv()      用于读取文本文件
read_excel()    用于读取文本文件
read_json()     用于读取json文件
read_sql_query()读取sql语句的

通用流程：
1-导入库import pandas as pd
2-找到文件所在位置（绝对路径=全称）（相对路径=和程序在同一个文件夹中的路径的简称）
3-变量名=pd.读写操作方法（文件路径，具体的筛选条件，...）
./  当前路径
../ 上一级
将csv中的数据转换为DataFrame对象是非常便捷。和一般文件读写不一样，它不需要你做打开文件、
读取文件、关闭文件等操作。相反，您只需要一行代码就可以完成上述所有步骤，并将数据存储在
DataFrame中。

&#39;&#39;&#39;
import pandas as pd
# 输入参数：数据输入的路径【可以是文件路径，可以是URL，也可以是实现read方法的任意对象。】
df = pd.read_csv(&#39;s&#39;)
print(df, type(df))
# Pandas默认使用utf-8读取文件
print()
import pandas as pd

lxw = open(r"t.csv", encoding=&#39;utf-8&#39;)
print(pd.read_csv(lxw))
print()
import os

# 打印当前目录
print(os.getcwd())

관련 지식 공식 홈페이지 링크

팬더는 테이블 형태의 데이터를 먼저 읽고 분석해야 합니다

학습 세부 버전:

# 1:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
print(df)
# 2:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
# to_string() 用于返回 DataFrame 类型的数据，如果不使用该函数，则输出结果为数据的前面 5 行和末尾 5 行，中间部分以 ... 代替(如上）
print(df.to_string())
# 3:
import pandas as pd

# 三个字段 name, site, age
nme = ["Google", "Runoob", "Taobao", "Wiki"]
st = ["www.google.com", "www.runoob.com", "www.taobao.com", "www.wikipedia.org"]
ag = [90, 40, 80, 98]
# 字典
dict = {&#39;name&#39;: nme, &#39;site&#39;: st, &#39;age&#39;: ag}
df = pd.DataFrame(dict)
# 保存 dataframe
print(df.to_csv(&#39;site.csv&#39;))
# 4:
import pandas as pd

df = pd.read_csv(&#39;正解1.csv&#39;)
# head( n ) 方法用于读取前面的 n 行，如果不填参数 n ，默认返回 5 行
# print(df.head())
# df.head(50).to_csv(&#39;site4.csv&#39;)
df.tail(10).to_csv(&#39;site4.csv&#39;)
print("over!")
# 5:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
# 读取前面 10 行
print(df.head(10))
# 6:
import pandas as pd
df = pd.read_csv(&#39;nba.csv&#39;)
# tail( n ) 方法用于读取尾部的 n 行，如果不填参数 n ，默认返回 5 行，空行各个字段的值返回 NaN
print(df.tail())
# 7:
import pandas as pd

df = pd.read_csv(&#39;nba.csv&#39;)
#  读取末尾 10 行
print(df.tail(10))
# 8:
import pandas as pd
df = pd.read_csv(&#39;正解1.csv&#39;)
# info() 方法返回表格的一些基本信息
print(df.info())
# non-null 为非空数据，我们可以看到上面的信息中，总共 458 行，College 字段的空值最多

모든 csv, excel 파일은 리소스에서 추출 가능하며, 없는 파일은 직접 보완 가능합니다!
팁: Pandas 라이브러리가 미리 설치되어 있어야 합니다. [터미널 설치 명령어: pip install pandas]

import pandas as pd
lxw = pd.read_csv(&#39;nba.csv&#39;)
# 查看前几行数据
print(lxw.head())
# 查看索引列
print(lxw.index)
# 查看列名列表
print(lxw.columns)
# 查看数据的形状（返回行、列数）
print(lxw.shape)
# 查看每列的数据类型
print(lxw.dtypes)
print()
# 读取txt文件，自己指定分隔符、列名
fpath = &#39;D:\PyCharm\数学建模大赛\数据分析-上-2\Python成绩.csv&#39;

lxw = pd.read_csv(
    fpath,
    sep=&#39;,&#39;,
    header=None,
    names=[&#39;name&#39;, &#39;Python-score&#39;]
)
# print(lxw)
lxw.to_csv(&#39;Python成绩2.csv&#39;)
# 读取excel文件：
import pandas as pd
lxw = pd.read_excel(&#39;暑假培训学习计划.xls&#39;)
print(lxw)

참고: 마지막에 [엑셀 파일 읽기]에 오류가 있으면 터미널에 pip install xlrd를 설치하세요. pip install xlrd 。

2-3 pandas数据结构

&#39;&#39;&#39;
1-Series：  一维数据，一行或一列
【Series是一种类似于一维数组的对象，它由一组数据（不同数据类型）以		    及一组与之相关的数据标签（即索引）组成】
2-DataFrame:二维数据，整个表格，多行多列
&#39;&#39;&#39;
import pandas as pd
# 1-1仅用数据列表即可产生最简单的Series
lxw = pd.Series([1, &#39;a&#39;, 5.2, 6])
print(lxw)      # 运行结果解说：左边为索引，右边为数据
# 获取索引
print(lxw.index)
# 获取数据
print(lxw.values)
print()
# 1-2 创建一个具有索引标签的Series
lxw2 = pd.Series([5, &#39;程序人生6&#39;, 666, 5.2], index=[&#39;sz&#39;, &#39;gzh&#39;, &#39;jy&#39;, &#39;xy&#39;])
print(lxw2)
print(lxw2.index)
# 写入文件当中
lxw2.to_csv(&#39;gzh.csv&#39;)
print()
# 1-3 使用过Python字典创建Series
lxw_ej = {&#39;python&#39;: 390, &#39;java&#39;: 90, &#39;mysql&#39;: 90}
lxw3 = pd.Series(lxw_ej)
print(lxw3)
# 1-4 根据标签索引查询数据
print(lxw3[&#39;java&#39;])
print(lxw2[&#39;gzh&#39;])
print(lxw2[[&#39;gzh&#39;, &#39;jy&#39;]])
print(type(lxw2[[&#39;gzh&#39;, &#39;jy&#39;]]))
print(lxw[2])
print(type(lxw[2]))
print()
# 2 根据多个字典序列创建dataframe
lxw_cj = {
    &#39;ps&#39;: [86, 92, 88, 82, 80],
    &#39;windows操作系统&#39;: [84, 82, 88, 80, 92],
    &#39;网页设计与制作&#39;: [92, 88, 97, 98, 83]
}
df = pd.DataFrame(lxw_cj)

# print(df)
# df.to_excel(&#39;lxw_cj.xlsx&#39;)      # 须提前安装好openxlsx,即pip install openpyxl[可在终端安装]
print("over!")
print(df.dtypes)
print(df.columns)
print(df.index)
print()
# 3-从DataFrame中查询Series
&#39;&#39;&#39;
·如果只查询一行、一列的话，那么返回的就是pd.Series
·如果查询多行、多列时，返回的就是pd.DataFrame

&#39;&#39;&#39;
# 一列：
print(df[&#39;ps&#39;])
print(type(df[&#39;ps&#39;]))
# 多列：
print(df[[&#39;ps&#39;, &#39;windows操作系统&#39;]])
print(type(df[[&#39;ps&#39;, &#39;windows操作系统&#39;]]))

print()
# 一行：
print(df.loc[1])
print(type(df.loc[1]))
# 多行：
print(df.loc[1:3])
print(type(df.loc[1:3]))

DataFrame 加强

2-3-1 pandas数据结构之DataFrame

# DataFrame数据类型
&#39;&#39;&#39;
DataFrame是Pandas的重要数据结构之一，也是在使用数据分析过程中最常用的结构之一，
可以这么说，掌握了Dataframe的用法，你就 拥有了学习数据分析的基本能力。

&#39;&#39;&#39;
# 认识Dataframe结构：
&#39;&#39;&#39;
Dataframe是一个表格型的数据结构，既有行标签，又有列标签，她也被称异构数据表，所谓
异构，指的是表格中每列的数据类型可以不同，比如可以是字符串、整型或者浮点型等。

Dataframe的每一列数据都可以看成一个Series结构，只不过，Dataframe为每列数据值增加了
一个标签。因此Dataframe其实是从Series的基础上演变而来，并且他们有相同的标签，在数据分析
任务中Dataframe的应用非常广泛，因此描述数据的更为清晰、直观。

同Series一样，Dataframe自带行标签索引，默认为“隐式索引”。
当然，你也可以用“显式索引”的方式来设置行标签。

&#39;&#39;&#39;
# 特点：
&#39;&#39;&#39;
Dataframe   每一列的标签值允许使用不同的数据类型；
Dataframe   是表格型的数据结构，具有行和列；
Dataframe   中的每个数据都可以被修改
Dataframe   结构的行数、列数允许增加或者删除
Dataframe   有两个方向的标签轴，分别是行标签和列标签
Dataframe   可以对行和列执行算术运算

&#39;&#39;&#39;
# DataFrame 构造方法如下：

# pandas.DataFrame( data, index, columns, dtype, copy)
&#39;&#39;&#39;
data：输入的数据，可以是ndarray, series, list, dict, 标量以及一个Dataframe；

index：行标签，如果没有传递index值，则默认行标签是RangeIndex(0, 1, 2, ..., n)代表data的元素个数；

columns：列标签，如果没有传递columns值，则默认列标签是RangIndex（0, 1, 2, ..., n)；

dtype:要强制的数据类型，只允许使用一种数据类型，如果没有，自行推断；

copy:从输入复制数据。对于dict数据, copy=True, 重新复制一份。对于Dataframe或者ndarray输入，类似于copy=False,它用的是试图。

&#39;&#39;&#39;
# 1: 使用普通列表创建
import pandas as pd
lxw = [5, 2, 1, 3, 1, 4]
df = pd.DataFrame(lxw)
df2 = pd.Series(lxw)
print(df)
print(df2)
print()
# 2:使用嵌套列表创建
import pandas as pd
lxw = [[&#39;lxw&#39;, 21], [&#39;cw&#39;, 23], [&#39;tzs&#39;, 22]]
df3 = pd.DataFrame(lxw, columns=[&#39;Name&#39;, &#39;Age&#39;])
print(df3)
# 指定数值元素的数据类型为float
# 注：dtype只能设置一个，设置多个列的数据类型，需要使用其他公式
print()
# 分配列标签注意点
import pandas as pd
# 分配列标签
lxw2 = [[&#39;lxw&#39;, &#39;男&#39;, 21, 6666], [&#39;cw&#39;, &#39;女&#39;, 22, 6520], [&#39;ky&#39;, &#39;女&#39;, 20, 5200], [&#39;tzs&#39;, &#39;男&#39;, 22, 6523]]
# int满足某列特征，会自动使用，不满足，则会自动识别
df = pd.DataFrame(lxw2, columns=[&#39;Name&#39;, &#39;xb&#39;, &#39;age&#39;, &#39;gz&#39;], dtype=int)
print(df)
print(df[&#39;Name&#39;].dtype)
print()
# ~字典创建：
import pandas as pd
lxw3 = [{&#39;a&#39;: 1, &#39;b&#39;: 2}, {&#39;a&#39;: 5, &#39;b&#39;: 8, &#39;c&#39;: 9}]
df = pd.DataFrame(lxw3, index=[&#39;first&#39;, &#39;second&#39;])
print(df)
# 注：如果其中某些元素缺失，也就是字典的key无法找到对应的value将使用NaN代替
print()
# 使用列表嵌套字典创建一个DataFrame对象
import pandas as pd
# lxw3
df1 = pd.DataFrame(lxw3, index=[&#39;first&#39;, &#39;second&#39;], columns=[&#39;a&#39;, &#39;b&#39;])
df2 = pd.DataFrame(lxw3, index=[&#39;first&#39;, &#39;second&#39;], columns=[&#39;a&#39;, &#39;b2&#39;])
print(df1)
print("============================================")
print(df2)

import pandas as pd
data = [[&#39;lxw&#39;, 10], [&#39;wink&#39;, 12], [&#39;程序人生6&#39;, 13]]
df = pd.DataFrame(data, columns=[&#39;Site&#39;, &#39;Age&#39;], dtype=float)
print(df)
# 1：使用 ndarrays 创建
import pandas as pd
data = {&#39;Site&#39;: [&#39;lxw&#39;, &#39;程序人生6&#39;, &#39;wink&#39;], &#39;Age&#39;: [10, 12, 13]}
df = pd.DataFrame(data)
print(df)
# 2：还可以使用字典（key/value），其中字典的 key 为列名:
import pandas as pd
data = [{&#39;a&#39;: 1, &#39;b&#39;: 2}, {&#39;a&#39;: 5, &#39;b&#39;: 10, &#39;c&#39;: 20}]
df = pd.DataFrame(data)
print(df)
# 没有对应的部分数据为 NaN
# 3：Pandas 可以使用 loc 属性返回指定行的数据，如果没有设置索引，第一行索引为 0，第二行索引为 1，以此类推：
import pandas as pd
data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}
# 数据载入到 DataFrame 对象
df = pd.DataFrame(data)
# 返回第一行
print(df.loc[0])
# 返回第二行
print(df.loc[1])
print(df.loc[2])
# 注意：返回结果其实就是一个 Pandas Series 数据。
# 也可以返回多行数据，使用 [[ ... ]] 格式，... 为各行的索引，以逗号隔开：

2-3-1 Pandas 数据结构之Series

# Pandas Series 类似表格中的一个列（column），类似于一维数组，可以保存任何数据类型。
&#39;&#39;&#39;
Series 由索引（index）和列组成，函数如下：
pandas.Series( data, index, dtype, name, copy)
参数说明：
data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

&#39;&#39;&#39;
import pandas as pd
lxw = [1, 2, 3]
myvar = pd.Series(lxw)
print(myvar)
print()
# 如果没有指定索引，索引值就从 0 开始，我们可以根据索引值读取数据
print(myvar[1])
print()
import pandas as pd
lxw = ["Google", "Runoob", "Wiki"]
myvar2 = pd.Series(lxw, index=[&#39;x&#39;, &#39;y&#39;, &#39;z&#39;])
print(myvar2)
print()
# 根据索引值读取数据:
print(myvar2[&#39;y&#39;])
print()
# 也可以使用 key/value 对象，类似字典来创建 Series
import pandas as pd
lxw = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar3 = pd.Series(lxw)
print(myvar3)
print()
# 只需要字典中的一部分数据，只需要指定需要数据的索引即可
myvar3 = pd.Series(lxw, index=[1, 2])
print(myvar3)
print()
# 设置 Series 名称参数
import pandas as pd
lxw = {1: "Google", 2: "Runoob", 3: "Wiki"}
myvar4 = pd.Series(lxw, index=[1, 3], name="lxw-pro")
print(myvar4)

2-4查询数据

# Pandas查询数据的四种方法：
&#39;&#39;&#39;
1-df.loc方法，根据行、列的标签值查询
2-df.iloc方法，根据行、列的数字位置查询
3-df.where方法
4-df.query方法
建议：.loc既能查询，又能覆盖写入，强烈推荐！

&#39;&#39;&#39;
# Pandas使用df.loc查询数据的方法：
&#39;&#39;&#39;
1-使用单个label值查询数据
2-使用值列表批量查询
3-使用数值区间进行范围查询
4-使用条件表达式查询
5-调用函数查询

&#39;&#39;&#39;
# 注：以上方法，即适用于行，也使用于列
import pandas as pd
df = pd.read_csv(&#39;sites.csv&#39;)
# print(df.head(10))
df.set_index(&#39;create_dt&#39;, inplace=True)
# print(df.index)
a = df.index
# 去重->转为列表->排顺序
qc = sorted(list(set(a)))
# print(qc)

# 替换掉利润率当中的后缀%
df.loc[:, &#39;lrl&#39;] = df[&#39;lrl&#39;].str.replace("%", "").astype(&#39;int32&#39;)   # astype()    对数据类型进行转换

astype()相关知识阐述:

&#39;&#39;&#39;
Python中与数据类型相关函数及属性有如下三个：type/dtype/astype
type()    返回参数的数据类型    
dtype    返回数组中元素的数据类型    
astype()    对数据类型进行转换    
你可以使用 .astype() 方法在不同的数值类型之间相互转换。a.astype(int).dtype # 将 a 的数值类型从 float64 转换为 int
&#39;&#39;&#39;

这里运行的话，就会报错：

세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

后面上网查找解决类似的问题，一番查找之后，终于解决问题

# 替换掉利润率当中的后缀%df['lrl'] = df['lrl'].map(lambda x: x.rstrip('%'))print(df)

运行效果如下：

세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

# 查询数据类型print(df.dtypes)# 打印文件前几行print(df.head())

2-4-1 使用单个label值查询数据

print(df.loc['2016-12-02', 'yye'])   # 得到指定时间里相对应的的单个值

运行结果如下：
세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

# 得到指定时间内相对应的的一个Seriesprint(df.loc['2016-11-30', ['sku_cost_prc', 'sku_sale_prc']])

运行结果如下：
세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

2-4-2使用值列表批量查询

# 得到Seriesprint(df.loc[['2016-12-05', '2016-12-31'], 'sku_sale_prc'])

运行结果如下：
提示：图有点长，故只截取了部分
세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견 2-3 팬더 데이터 구조

# 得到DataFrameprint(df.loc[['2016-12-08', '2016-12-12'], ['sku_cnt', 'sku_sale_prc']])

DataFrame 개선

2-3-1 팬더 데이터 구조 DataFrame

# 行index按区间：print(df.loc['2016-12-02': '2016-12-08'], ['yye'])

# 列index按区间：print(df.loc['2016-12-12', 'yye': 'lrl'])

2-3-1 팬더 데이터 구조 시리즈

# 行和列都按区间查询：print(df.loc['2016-11-30': '2016-12-02', 'sku_cnt': 'lrl'])

세 가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

2-4 데이터 쿼리

# 简单条件查询，营业额低于3的列表print(df.loc[df['yye'] <pre class="brush:php;toolbar:false"># 复杂条件查询：print(df.loc[(df['yye']  2) & (df['sku_cnt'] > 1), :])

astype() 관련 지식 설명:🎜🎜

# 再次观察这里的boolean条件print((df['yye']  2) & (df['sku_cnt'] > 1))

🎜🎜 여기서 실행하면 오류가 발생합니다:🎜🎜🎜🎜 파이썬의 세 가지 주요 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

🎜🎜나중에 비슷한 문제를 해결하기 위해 온라인에서 검색했습니다. 검색해 보니 드디어 문제가 해결되었습니다🎜

# 直接写lambda表达式print(df.loc[lambda df: (df['yye']  2), :])

🎜🎜실행 효과는 다음과 같습니다.🎜🎜🎜 세 가지 주요 Python 모델과 가장 일반적으로 사용되는 10가지 알고리즘 인스턴스 검색

🎜

# 函数式编程的本质：# 函数本身可以像变量一样传递def my_query(df):    return df.index.str.startswith('2016-12-08')print(df.loc[my_query, :])

🎜2-4-1 단일 레이블 값을 사용하여 데이터 쿼리🎜rrreee🎜실행 결과는 다음과 같습니다.🎜 3가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 알고리즘 예제 발견

🎜rrreee🎜The running 결과는 다음과 같습니다: 🎜 3가지 주요 Python 모델과 일반적으로 사용되는 상위 10가지 모델 알아보기 알고리즘 예제

🎜🎜2-4-2 값 목록 일괄 쿼리 사용🎜rrreee🎜실행 결과는 다음과 같습니다.🎜Tip: 사진이 좀 길어서 일부만 캡쳐했습니다🎜🎜🎜rrreee🎜달리기의 부분 결과는 다음과 같습니다. 🎜🎜🎜🎜2-4-3 범위 쿼리에 숫자 간격을 사용하세요🎜

# 行index按区间：print(df.loc['2016-12-02': '2016-12-08'], ['yye'])