Author avatar

Administrator

特征工程

1

特征工程 特征工程是构建良好机器学习模型的最关键部分之一。如果我们拥有有用的特征,模型就会表现得更好。在许多情况下,您可以避免使用大型复杂模型,而使用具有关键工程特征的简单模型。我们必须牢记,只有当你对问题的领域有一定的了解,并且在很大程度上取决于相关数据时,才能以最佳方式完成特征工程。不过,您可以

特征工程

无监督和有监督学习

0

无监督和有监督学习 在处理机器学习问题时,通常有两类数据(和机器学习模型): 监督数据:总是有一个或多个与之相关的目标 无监督数据:没有任何目标变量。 有监督问题比无监督问题更容易解决。我们需要预测一个值的问题被称为有监督问题。例如,如果问题是根据历史房价预测房价,那么医院、学校或超市的存在,与最近

无监督和有监督学习

文本分类或回归方法

1

文本分类或回归方法 文本问题是我的最爱。一般来说,这些问题也被称为自然语言处理(NLP)问题。NLP 问题与图像问题也有很大不同。你需要创建以前从未为表格问题创建过的数据管道。你需要了解商业案例,才能建立一个好的模型。顺便说一句,机器学习中的任何事情都是如此。建立模型会让你达到一定的水平,但要想改善

文本分类或回归方法

处理分类变量

0

处理分类变量 很多人在处理分类变量时都会遇到很多困难,因此这值得用整整一章的篇幅来讨论。在本章中,我将讲述不同类型的分类数据,以及如何处理分类变量问题。 什么是分类变量? 分类变量/特征是指任何特征类型,可分为两大类: 无序 有序 无序变量是指有两个或两个以上类别的变量,这些类别没有任何相关顺序。例

处理分类变量

图像分类和分割方法

3

近年来计算机视觉领域快速发展,预训练模型和降低的计算成本使图像处理变得更加高效。图像本质上是数字矩阵,灰度图像为二维矩阵,RGB图像则由三个矩阵组成。传统方法如决策树、随机森林和SVM可用于基于像素值的图像分类,例如检测X光图像中的气胸。通过扁平化图像数据并应用随机森林模型,AUC值可达0.72,但深度学习方法如AlexNet等卷积神经网络(CNN)能提供更先进的解决方案。这些方法通过多层卷积和池化操作显著提升了图像分类和分割的性能。

图像分类和分割方法

可重复代码和模型方法

2

文章讨论了如何通过使用Git和Docker容器来实现代码的可重复性和跨平台兼容性。Git用于版本控制和协作,而Docker容器则确保代码在不同环境中的一致性。文章详细介绍了如何安装Docker、创建Dockerfile、构建容器以及如何通过Docker运行和调试代码。此外,还提到了使用Flask框架创建API来部署训练好的模型,以便最终用户可以通过API进行情感分析。

可重复代码和模型方法

准备环境

1

在开始编程之前,确保在机器上设置好环境至关重要。本书推荐使用Ubuntu 18.04和Python 3.7.6。Windows用户可通过虚拟机或双启动系统安装Ubuntu。建议使用Miniconda安装Python,因其轻量且支持多平台。安装Miniconda后,可通过命令行创建和激活conda环境,并安装必要的软件包。书中提供了一个包含所需软件包的environment.yml文件,可通过conda命令创建名为ml的环境。确保在ml环境下进行编码,以便顺利应用机器学习。

准备环境

AAAMLP前言

1

前言 Abhishek Thakur,很多 kaggler 对他都非常熟悉,2017 年,他在 Linkedin 发表了一篇名为Approaching (Almost) Any Machine Learning Problem的文章,介绍他建立的一个自动的机器学习框架,几乎可以解决任何机器学习问题,

AAAMLP前言

LLaMA-Factory 使用

3

LLaMA-Factory 使用 安装 LLaMA-Factory 首先先去 github 上 clone LLaMA-Factory 项目到本地 git clone https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip

LLaMA-Factory 使用

cuda的安装

14

本文介绍了在Ubuntu 20.04上安装CUDA Toolkit的三种方法:通过Ubuntu软件源安装较旧版本、先图形界面安装驱动再手动安装CUDA Toolkit、以及完全命令行安装驱动和Toolkit。详细步骤包括配置国内镜像源、驱动选择、环境变量设置、cuDNN安装及验证方法,并提供了卸载CUDA、cuDNN和TensorRT的相关命令。

cuda的安装