12 июля — 16 июля

Это была моя первая неделя в Sabudh Foundation, и мы начали с лекции, чтобы изучить основы, которые помогут нам в будущем лучше понять концепции науки о данных.

Мы изучили основы Python, такие как создание функций, арифметические операции, печать операторов, хранение данных в переменных, списки кортежей. Мы также изучили одну из библиотек анализа данных Python Pandas. В нем мы узнали, как открывать CSV-файлы, как их читать, изменять, разбивать в соответствии с нашими потребностями, применять операции к столбцам и строкам соответственно.

import pandas as pd# read the top n rows of csv file as a dataframe
reviews_df = pd.read_csv("IMDB Dataset.csv", nrows=100)print(reviews_df.head())

Вывод:

review                                            sentiment
0  One of the other reviewers has mentioned that ...  positive
1  A wonderful little production. <br /><br />The...  positive
2  I thought this was a wonderful way to spend ti...  positive
3  Basically there's a family where a little boy ...  negative
4  Petter Mattei's "Love in the Time of Money" is...  positive

Помимо всего этого мы узнали о математике, статистике. Нас также познакомили с тем, что такое машинное обучение, как оно работает, как оно помогает нам улучшать предыдущий код и автоматизировать его. Мы также узнали о линейной регрессии, ее процессе и работе.

19–23 июля

После изучения основных кодов, математики и статистики на первой неделе наша вторая неделя была посвящена статистике и программированию. В статистике мы узнали о теории вероятностей, теории распределения и смешанных моделях. В программировании мы узнали о том, как использовать и создавать функции, лямба, карту, фильтр, классы и объекты, работу с файлами и несколько других встроенных функций. Я покажу вам (читателю) мельком, как сделать функцию.

def my_function():
  print("Hello from a function")
my_function()

После создания функции вы не можете использовать ее, пока не вызовете ее. Функция Lamba также похожа на обычную функцию, но в основном используется, если вы создаете встроенные функции. Карта используется для реализации функции в итерируемом списке.

Классы играют очень важную роль в кодировании. Чтобы сделать наш код чистым и пригодным для повторного использования, нам нужны классы. Классы также могут содержать несколько функций.

В теории вероятностей мы узнали о том, как анализировать случайные явления, в теории распределения мы узнали о различных распределениях, распределении Пуассона, экспоненциальном, нормальном и равномерном.

26 июля — 30 июля

Узнав о различных методах распространения, мы остались с непрерывным распространением. что касается кодирования, мы продвинулись вперед и начали изучать DSA и Numpy. В структуре данных и алгоритме (DSA) мы узнали о списке и массиве. Есть разница и сходство.

Numpy — это библиотека для языка программирования Python, добавляющая поддержку больших многомерных массивов и матриц, а также большой набор высокоуровневых математических функций для работы с этими массивами. С помощью этой библиотеки мы можем реализовать почти все математические вычисления, а также можем работать с матрицами любого размера из-за всех этих функций Numpy становится очень важно изучить ее, чтобы мы могли легко реализовывать алгоритмы и сложные математические операции, такие как интегрирование и дифференцирование. легко.

В процессе дифференциации мы также узнали о цепном правиле, правиле произведения, частном правиле, правиле мощности.

2 августа — 7 августа

Прошел уже месяц, и мы многое узнали о кодировании, но еще многое предстоит сделать. На 4-й неделе мы глубже погрузились в концепции DSA, то есть связанный список. Связные списки связаны ссылкой друг с другом и всегда являются последовательными. Они следуют FIFO (First In First Out).

Как мы видим на изображении выше, все ячейки/ячейки памяти связаны через ссылку, имеющую заголовок и нуль в конце, который представляет, что этот список завершен.

Мы также узнали о библиотеке python matplotlib, которая помогает нам в визуализации данных и построении графиков. Мы можем создавать всевозможные графики, такие как гистограммы, линейные диаграммы, точечные диаграммы и т. д. Мы также узнали о Seaborn, то есть о расширенной версии Matplotlib, которая использует Matplotlib вместе с Numpy и Pandas для построения графиков. Он имеет более простой синтаксис, гораздо более функционален и организован, чем Matplotlib, и рассматривает весь набор данных как единое целое.

На этой неделе мы впервые реализовали что-то из машинного обучения. Внедрение линейной регрессии было завершено на этой неделе.

Проанализировав данные, мы видим, что в них есть, независимо от того, очищены они или нет, сколько строк и столбцов у нас есть. EDA( Исследовательский анализ данных ) был выполнен сразу после этого. EDA – это подход к анализу наборов данных для обобщения их основных характеристик, часто с использованием статистических графиков.

Мы будем внедрять его дальше на следующей неделе.