Supposons que j'ai un bloc de données comme suit:
df = pd.DataFrame({
'Column A': [12,12,12, 13, 15, 16, 141, 141, 141, 141],
'Column B':['Apple' ,'Apple' ,'Orange' ,'Apple' , np.nan, 'Orange', 'Apple', np.nan, 'Apple', 'Apple']})
Sur la base de ces conditions:
Si les valeurs dans la colonne A sont répétés, puis de compter le mot "Orange" dans la Colonne B et de la coller dans la nouvelle Colonne C(Par exemple, il y a 3 lignes de 12, le comte de 'Orange' est 1, et c'1 devrait être dans la nouvelle colonne C). Pour la non-répétition des lignes, il suffit de coller les valeurs correspondantes.
Si les valeurs dans la colonne A sont répétés, puis de compter le mot "Apple" dans la Colonne B et de la coller dans la nouvelle Colonne D(Par exemple, il y a 3 lignes de 12, le nombre de "Pomme" est de 2, ce 2 devrait être dans la nouvelle colonne D). Pour la non-répétition des lignes, il suffit de coller les valeurs correspondantes.
Répétées et non-lignes répétées en raison d'Une Colonne, Si le mot "Orange" est présent dans la Colonne B, écrire " oui "d'autre" Non " dans la Colonne E.
Je voudrais avoir une sortie suivante. J'ai essayé en python jupyter portable, quelqu'un peut-il m'aider à obtenir un résultat comme ceci:
| Column A | Column B |Column C |Column D |Column E
----- | -------- | ---------|---------|---------|---------
0 | 12 | Apple |1 |2 |Yes
1 | 13 | Apple |0 |1 |No
2 | 15 | NaN |NaN |NaN |NaN
3 | 16 | Orange |1 |0 |Yes
4 | 141 | Apple |0 |3 |No
Merci d'avance:)