반응형

dataframe 6

DataFrame의 파티셔닝을 정의하는 방법은 무엇입니까?

DataFrame의 파티셔닝을 정의하는 방법은 무엇입니까? Spark 1.4.0에서 Spark SQL과 DataFrame을 사용하기 시작했습니다.Scala에서 DataFrame에 사용자 정의 파티셔닝을 정의하고 싶지만 이를 수행하는 방법은 알 수 없습니다. 제가 작업하고 있는 데이터 테이블 중 하나에는 다음 예시에 해당하는 실리마르(silimar)의 거래 목록이 포함되어 있습니다. Account Date Type Amount 1001 2014-04-01 Purchase 100.00 1001 2014-04-01 Purchase 50.00 1001 2014-04-05 Purchase 70.00 1001 2014-04-01 Payment -150.00 1002 2014-04-01 Purchase 80.00 1..

programing 2023.11.07

팬더는 가장 자주 열의 값을 얻습니다.

팬더는 가장 자주 열의 값을 얻습니다. 데이터 프레임은 다음과 같습니다. 0 name data 1 alex asd 2 helen sdd 3 alex dss 4 helen sdsd 5 john sdadd 그래서 가장 자주 사용하는 값 또는 값(이 경우에는 값)을 구하려고 합니다. 그래서 제가 하는 일은 다음과 같습니다. dataframe['name'].value_counts().idxmax() 값만 반환합니다.Helen이 두 번 등장하더라도 Alex.사용함으로써mode df.name.mode() Out[712]: 0 alex 1 helen dtype: object 얻기 위해서는n가장 빈번한 값, 부분 집합만..value_counts()인덱스를 가져옵니다. # get top 10 most frequent n..

programing 2023.10.23

판다의 연속된 행에서 차이가 발생하는 열 추가

판다의 연속된 행에서 차이가 발생하는 열 추가 내게 이런 데이터 프레임이 있다고 치자. A B 0 a b 1 c d 2 e f 3 g h 0,1,2,3은 시간이고 a,c,e,g는 하나의 시계열이고 b,d,f,h는 다른 시계열입니다.특정 열에 대해 연속된 행의 차이를 계산하여 얻은 원본 데이터 프레임에 두 개의 열을 추가할 수 있어야 합니다. 그래서 나는 이런게 필요합니다. A B dA 0 a b (a-c) 1 c d (c-e) 2 e f (e-g) 3 g h Nan 데이터 프레임/시리즈에서 diff라는 것을 보았지만 첫 번째 요소가 Nan이 되는 것처럼 약간 다르게 처리합니다.시프트를 사용합니다. df['dA'] = df['A'] - df['A'].shift(-1) 당신은 사용할 수 있습니다.diff통과..

programing 2023.10.03

data.table로 할 수 없는 data.frame으로 할 수 있는 작업?

data.table로 할 수 없는 data.frame으로 할 수 있는 작업? 저는 방금 R을 사용하기 시작했는데, data.table을 발견했습니다.훌륭하다고 생각했습니다. 매우 순진한 질문: data.frame을 무시하고 data.table을 사용하여 두 패키지 간의 구문 혼란을 방지할 수 있습니까?data.table FAQ에서 FAQ 1.8 OK, data.table이 무엇에 관한 것인지 알아보기 시작했는데, 왜 data.frame을 R에서 향상시키지 않았습니까?왜 그것이 새 소포여야만 합니까? FAQ 1.1 하이라이트로,j인에[.data.table와 근본적으로 다릅니다.j인에[.data.frame. 아주 간단한 것이라도DF[,1]많은 패키지와 사용자 코드에서 기존 코드를 깰 것입니다.이것은 설계에 ..

programing 2023.09.28

스파크 데이터 프레임을 만듭니다.유형에 대한 스키마를 유추할 수 없습니다.

스파크 데이터 프레임을 만듭니다.유형에 대한 스키마를 유추할 수 없습니다. Spark DataFrame으로 인해 발생한 이 문제를 해결하는 데 도움을 줄 수 있는 사람이 있습니까? 내가 할때는myFloatRDD.toDF()오류가 발생합니다. TypeError: type 'float'에 대한 스키마를 추론할 수 없습니다. 왜... 예: myFloatRdd = sc.parallelize([1.0,2.0,3.0]) df = myFloatRdd.toDF() 감사해요.SparkSession.createDataFrame, 후드 아래에 사용되는 것은 다음을 필요로 합니다.RDD/list의Row/tuple/list/dict아니면dictpandas.DataFrame, 도식이 없는 한DataType제공됩니다.다음과 같이 ..

programing 2023.09.23

R 일 년으로 여러 열을 퍼 나르고 있음

R 일 년으로 여러 열을 퍼 나르고 있음 이 질문에는 이미 다음과 같은 답변이 있습니다. 여러 변수의 반복 측정을 넓은 형식으로 확산하려면 어떻게 해야 합니까? (4개 답변) 닫힘8년 전에. 이 표본 변수 사용 df df[, -4] %>% spread(student, A) month Amy Bob 1 1 9 8 2 2 7 6 3 3 6 9 하지만 두 가지 값을 어떻게 퍼트리나요? 예를 들어 둘 다A그리고.B, 그 결과가 어떤 것과 같도록. month Amy.A Bob.A Amy.B Bob.B 1 1 9 8 6 5 2 2 7 6 7 6 3 3 6 9 8 7 다음은 다음과 같은 방법으로 가능한 단순하고 매우 효율적인 솔루션을 제공합니다.data.table library(data.table) ## v >= 1..

programing 2023.09.18
반응형